Perfil

rennerocha @rennerocha


Sobre mim

-

Eventos

1º Encontro Grupy-Campinas - 2020 - Dextra

Com muito prazer que anunciamos o nosso primeiro encontro de 2020. Dessa vez nos encontraremos na DEXTRA! Vamos participar?

O encontro será no dia 15/02 das 9h às 12h.

Essa é sua oportunidade para apresentar uma palestra. Submeta sua palestra! Apresentações devem ser de 25 minutos, com mais 5 minutos para perguntas.

Qualquer tema relacionado ao ecossistema Python é adequado!

 

Propostas

Introdução ao XPath: Navegando (e extraindo dados) de documentos HTML

O XPath é uma linguagem de consulta que nos ajuda a navegar por documentos como os arquivos XML e HTML. Nesses documentos as informaçõẽs ficam agrupadas em nós (<html></html>, <p></p>, <a></a>, etc) em uma hierarquia que pode ser visualizada como uma árvore. A primeira vista, o XPath parece muito complicado ("//*[text()][not(re:test(name(), "^script|style$"))]"???), mas é uma ferramenta muito poderosa para extrair informações desses tipos de documentos.

Conhecer essa linguagem e como navegar em um documento HTML é uma habilidade muito útil para quem está desenvolvendo webcrawlers, já que ela permite extrair dados mesmo de páginas não tão bem estruturadas. Nessa palestra, irei apresentar o básico do XPath, e como utilizar bibliotecas Python para navegar por arquivos HTML e conseguir a informação que você deseja.