Perfil

Valdir Stumm Junior @valdir


Sobre mim

Pythonista aficionado, apaixonado por escrever e ensinar.
Desenvolvedor de software na @Scrapinghub.

Propostas

Desenvolvimento de Web Scrapers com Scrapy

Já imaginou que legal seria se todos os websites que utilizamos fornecessem APIs para acesso ao seu conteúdo? Infelizmente a realidade está muito longe disso. Boa parte dos dados que precisamos para alimentar nossas aplicações estão espalhados pela web em páginas com marcações por vezes bizarras e de difícil leitura até mesmo para seres humanos, que dirá para máquinas. Nesses casos, a saída é fazer scraping dessas páginas para obter tais dados e, para isso, nada melhor do que usar a dupla Scrapy + Python 3. :)


Neste tutorial, os participantes irão construir web scrapers utilizando Scrapy, enfrentando os mais comuns desafios encontrados na prática e conhecendo mecanismos para solucioná-los.


Conteúdo 


- Intro:
        - Conceitos básicos
        - Nosso primeiro spider
        - Executando um spider e entendendo a saída do Scrapy
        - O funcionamento de um spider
- Construindo um Spider simples do zero
        - Seletores CSS para extração de dados
        - Scrapy Shell para experimentação e construção dos spiders
- Crawling e a busca por novos links
        - Procurando e seguindo novas URLs em uma página
        - Navegando através de paginação
        - Crawleando educadamente
- Submetendo formulários
        - As diferentes formas de lidar com formulários
        - Autenticando o seu spider
        - Lidando com CSRF tokens e Viewstates
- Depuração de Spiders
- O poder do XPath em páginas bagunçadas
- Páginas com conteúdo gerado por JavaScript e AJAX
- Quando é mais fácil do que imaginamos: APIs e marcação semântica
- Boas maneiras para evitar ser banido 


Informações Adicionais


- Duração em horas: 4 horas.
- Configurações de ambiente: computadores com Scrapy 1.1+ instalado.
- Pré-requisitos: HTML/CSS básico e Python.