Perfil

Renne Rocha @renne


Sobre mim

-

Propostas

Desenvolvendo Web Crawlers com Scrapy

Muitos dados que precisamos para nossas aplicações estão espalhados por páginas web estruturados de uma maneira inadequada para nossa utilização. Fazer esse trabalho de organizar toda essa informação de maneira manual é praticamente impossível, então uma ótima maneira de fazer esse trabalho é utilizar a dupla Scrapy + Python para obter tais dados!

Neste tutorial, os participantes desenvolverão web crawlers usando Scrapy, enfrentado os cenários e prolemas mais comuns e maneiras para solucioná-los.

Conteúdo:

Introdução
  - Conceitos básicos de web crawlers
  - Arquitetura básica do Scrapy
  - Hello world! Meu primeiro spider

Encontrando informação
  - Scrapy Shell para experimentação
  - Seletores CSS
  - Seletores XPath

Navegando por um site
  - Buscando e seguindo links
  - Utilizando paginação
  - Exportando dados

Formulários
  - Submetendo formulários
  - Autenticação de usuários

Javascript
  - Lidando com páginas com javascript

Outros
  - Evitando ser banido
  - Boas práticas
  - Scrapy Cloud

- Duração: 4 horas.
- Configurações de ambiente: Python 3 + Scrapy instalado (em um virtualenv de preferência)
- Pré-requisitos: HTML/CSS básico e Python