Perfil
Propostas
Desenvolvimento de Web Scrapers com Scrapy
Já imaginou que legal seria se todos os websites que utilizamos fornecessem APIs para acesso ao seu conteúdo? Infelizmente a realidade está muito longe disso. Boa parte dos dados que precisamos para alimentar nossas aplicações estão espalhados pela web em páginas com marcações por vezes bizarras e de difícil leitura até mesmo para seres humanos, que dirá para máquinas. Nesses casos, a saída é fazer scraping dessas páginas para obter tais dados e, para isso, nada melhor do que usar a dupla Scrapy + Python 3. :)
Neste tutorial, os participantes irão construir web scrapers utilizando Scrapy, enfrentando os mais comuns desafios encontrados na prática e conhecendo mecanismos para solucioná-los.
Conteúdo
- Intro:
- Conceitos básicos
- Nosso primeiro spider
- Executando um spider e entendendo a saída do Scrapy
- O funcionamento de um spider
- Construindo um Spider simples do zero
- Seletores CSS para extração de dados
- Scrapy Shell para experimentação e construção dos spiders
- Crawling e a busca por novos links
- Procurando e seguindo novas URLs em uma página
- Navegando através de paginação
- Crawleando educadamente
- Submetendo formulários
- As diferentes formas de lidar com formulários
- Autenticando o seu spider
- Lidando com CSRF tokens e Viewstates
- Depuração de Spiders
- O poder do XPath em páginas bagunçadas
- Páginas com conteúdo gerado por JavaScript e AJAX
- Quando é mais fácil do que imaginamos: APIs e marcação semântica
- Boas maneiras para evitar ser banido
Informações Adicionais
- Duração em horas: 4 horas.
- Configurações de ambiente: computadores com Scrapy 1.1+ instalado.
- Pré-requisitos: HTML/CSS básico e Python.