Encontro sobre Data Science com Python
Evento dia 09 de Abril no Auditório da Serasa Experian.
Propostas
![author photo](https://lh5.googleusercontent.com/-XWnIhoQsHuk/AAAAAAAAAAI/AAAAAAAAUM8/Q9Hyu5YrDkU/photo.jpg)
APIs de visualização em Python
As ferramentas de visualização de dados em Python já vão muito além do matplotlib (já há algum tempo).
O objetivo é apresentar as ferramentas atuais de visualização de dados em Python e mostrar a integração com o Pandas que é a grande ferramenta de manipulação de dados em Python.
A apresentação será uma atualização da que foi realizada no TDC 2014 São Paulo.
http://www.infoq.com/br/presentations/apis-de-visualizacao-em-python
Causando a treta com os dados do IPTU
Por lei, os dados do cadastro do IPTU são dados abertos, mas são raríssimas as prefeituras que disponibilizam o cadastro.
A Prefeitura de São Paulo disponibilizou, mas ao invés de dar um CSV, ela criou um formulário em que você digita o seu código e sai o seu cadastro. Algo que supostamente não serve para muita coisa... a menos que você crie um robô que peça milhões de códigos até achar os certos.
A ideia do processo é contar como fiz para pegar os dados (são mais de um milhão de imóveis), como criei um sistema para isso, as matérias jornalísticas que estão saindo com esses dados e o impacto que isso está tendo.
Por exemplo, até agora temos estas matérias:
http://codigourbano.org/nao-acabou-o-espaco-para-construir-em-sao-paulo/
http://ag.jor.br/blog/2016/03/15/apos-grupo-usar-dados-publicos-prefeitura-de-sp-retrocede-em-transparencia-e-dificulta-acesso-a-informacoes/
HDFS + MapReduceLib
- Uma breve história do HDFS (Hadoop Distributed File System) e sua aplicação;
- Como fazer uso do HDFS usando python;
- Manipulando jobs de MapReduce com streaming e python
Uma introdução direta e legal sobre Apache Spark e computação distribuida
O Apache Spark é um engine rápido e de propósitos gerais para computação distribuída, com uma crescente adoção para processamento de volumes enormes de dados.
O Apache Spark tem uma completa API em Python e é isso que nosso papo focará.
Desmistificaremos juntos os conceitos básicos e avançados envolvidos no Spark em uma linguagem simples e direta!
Muitos exemplos e experiencia a serem trocados!