Profile

Edson @edinhodiluviano


About Me

-

Events

Python para Finanças - GruPy Online

Olá, seja bem vind@ ao meetup do Grupy, temático sobre finanças + python. Ficaremos contente com a sua palestra!

Para o grupy, aguardamos palestras com durações de 15 ou 30 minutos cada (preferencialmente com uns 15 minutinhos para perguntas no final). Favor indicar a duração da sua palestra na descrição.

Podem ser palestras sobre assuntos tecnicos (programação, estatística, bibliotecas, modelos, performance...), carreiras (sub-áreas, estudos, "um dia típico de trabalho", gerenciamento de times...) ou quaisquer outros temas relacionados (privacidade, ética, igualdade...).
Única limitação é a sua imaginação e que tenha a ver com python e mercado financeiro.

Daremos preferencia a misturar palestras com conteúdo avançados e para iniciantes ; )

Grupy-SP + PyData Fev 2020

Olá, seja bem vindo ao meetup do Grupy e Pydata, temático sobre dados, data science, data engineering e o que surgir. Ficaremos contente com a sua palestra!

Para o grupy, aguardamos 3 palestras com duração esperada de 15 minutos cada. Se a sua tiver uma duração diferente, favor indicar. (obs: as do pydata não estão incluídas aqui).

Podem ser palestras sobre assuntos tecnicos (programação, metodologias, ferramentas, estatística, performance...), carreiras de dados (sub-áreas, estudos, empregos, gerenciamento de times...) e quaisquer outros temas relacionados (privacidade, ética, igualdade... a sua imaginação é o limite).

Damos preferencia a mistur temas básicos com "avançados"  ; )

Proposals

Big Data com python (adeus spark!)

O ecosistema de dados construido em torno do python é bem desenvolvido. Numpy, pandas, sklearn, etc, facilitam bastante a análise de dados e construção de modelos de machine learning.


Mas quando o dataset é maior que 10GB, o pandas começa a chorar... e se um dataset tiver 100GB? ou 1TB?!?!


De início vamos começar explicando o que é o GIL (global interpreter locker) do python.


Depois, falar um pouco do histórico do desenvolvimento das ferramentas de big data e da motivação para o python ter uma específica.


E, finalmente: código! Vamos utilizar multiplos cores com o python com a lib multiprocessing e com dask (https://dask.org/).

Visualização de dados profissional com bokeh+holoviews

Você sempre encontra o pessoal mostrando aqueles gráficos coloridos do matplotlib... Mas, ja tentou usar eles em produção? Ja tentou colocar eles para seus clientes? Ja tentou fazer eles interativos?


Dessa vez vou apresentar a biblioteca bokeh (https://docs.bokeh.org/en/latest/docs/gallery.html). Tem a mesma flexibilidade do matplotlib, tão interativa quanto o plotly, um servidor para colocar em produção (com direito a cache, asincronia e, com alguns ajustes, até separavel em micro servicos) e gráficos renderizados com webgl (pra vc que acha o d3.js lento!).


Também apresento o holoviews: um wrapper compativel com o bokeh e com matplotlib. Ele entra no lugar do seaborn para você fazer gráficos em uma linha. Também permite "anotar" os seus dados, de forma a economizar tempo na transformação do dataset para plotagem, aumentando a produtividade da sua EDA. Além disso permite utilizar o 'datashaders' para plotar gráficos de "big data" com milhoes (ou até bilhões) de pontos sem travar o meu notebook de pobre.


Apresentação: um jupyter notebook com o código e dataset disponível para tentar pincelar os pontos principais em 10 minutos + algumas palavras com o caminho das pedras para quem quiser aprofundar nos detalhes...