Encontro sobre Data Science com Python
Evento dia 09 de Abril no Auditório da Serasa Experian.
Proposals
APIs de visualização em Python
As ferramentas de visualização de dados em Python já vão muito além do matplotlib (já há algum tempo).
O objetivo é apresentar as ferramentas atuais de visualização de dados em Python e mostrar a integração com o Pandas que é a grande ferramenta de manipulação de dados em Python.
A apresentação será uma atualização da que foi realizada no TDC 2014 São Paulo.
http://www.infoq.com/br/presentations/apis-de-visualizacao-em-python
Causando a treta com os dados do IPTU
Por lei, os dados do cadastro do IPTU são dados abertos, mas são raríssimas as prefeituras que disponibilizam o cadastro.
A Prefeitura de São Paulo disponibilizou, mas ao invés de dar um CSV, ela criou um formulário em que você digita o seu código e sai o seu cadastro. Algo que supostamente não serve para muita coisa... a menos que você crie um robô que peça milhões de códigos até achar os certos.
A ideia do processo é contar como fiz para pegar os dados (são mais de um milhão de imóveis), como criei um sistema para isso, as matérias jornalísticas que estão saindo com esses dados e o impacto que isso está tendo.
Por exemplo, até agora temos estas matérias:
http://codigourbano.org/nao-acabou-o-espaco-para-construir-em-sao-paulo/
http://ag.jor.br/blog/2016/03/15/apos-grupo-usar-dados-publicos-prefeitura-de-sp-retrocede-em-transparencia-e-dificulta-acesso-a-informacoes/
HDFS + MapReduceLib
- Uma breve história do HDFS (Hadoop Distributed File System) e sua aplicação;
- Como fazer uso do HDFS usando python;
- Manipulando jobs de MapReduce com streaming e python
Uma introdução direta e legal sobre Apache Spark e computação distribuida
O Apache Spark é um engine rápido e de propósitos gerais para computação distribuída, com uma crescente adoção para processamento de volumes enormes de dados.
O Apache Spark tem uma completa API em Python e é isso que nosso papo focará.
Desmistificaremos juntos os conceitos básicos e avançados envolvidos no Spark em uma linguagem simples e direta!
Muitos exemplos e experiencia a serem trocados!