Perfil
Propostas
Desenvolvendo Web Crawlers com Scrapy
Muitos dados que precisamos para nossas aplicações estão espalhados por páginas web estruturados de uma maneira inadequada para nossa utilização. Fazer esse trabalho de organizar toda essa informação de maneira manual é praticamente impossível, então uma ótima maneira de fazer esse trabalho é utilizar a dupla Scrapy + Python para obter tais dados!
Neste tutorial, os participantes desenvolverão web crawlers usando Scrapy, enfrentado os cenários e prolemas mais comuns e maneiras para solucioná-los.
Conteúdo:
Introdução
- Conceitos básicos de web crawlers
- Arquitetura básica do Scrapy
- Hello world! Meu primeiro spider
Encontrando informação
- Scrapy Shell para experimentação
- Seletores CSS
- Seletores XPath
Navegando por um site
- Buscando e seguindo links
- Utilizando paginação
- Exportando dados
Formulários
- Submetendo formulários
- Autenticação de usuários
Javascript
- Lidando com páginas com javascript
Outros
- Evitando ser banido
- Boas práticas
- Scrapy Cloud
- Duração: 4 horas.
- Configurações de ambiente: Python 3 + Scrapy instalado (em um virtualenv de preferência)
- Pré-requisitos: HTML/CSS básico e Python