Perfil
Eventos
Python para Finanças - GruPy Online
Olá, seja bem vind@ ao meetup do Grupy, temático sobre finanças + python. Ficaremos contente com a sua palestra!
Para o grupy, aguardamos palestras com durações de 15 ou 30 minutos cada (preferencialmente com uns 15 minutinhos para perguntas no final). Favor indicar a duração da sua palestra na descrição.
Podem ser palestras sobre assuntos tecnicos (programação, estatística, bibliotecas, modelos, performance...), carreiras (sub-áreas, estudos, "um dia típico de trabalho", gerenciamento de times...) ou quaisquer outros temas relacionados (privacidade, ética, igualdade...).
Única limitação é a sua imaginação e que tenha a ver com python e mercado financeiro.
Daremos preferencia a misturar palestras com conteúdo avançados e para iniciantes ; )
Grupy-SP + PyData Fev 2020
Olá, seja bem vindo ao meetup do Grupy e Pydata, temático sobre dados, data science, data engineering e o que surgir. Ficaremos contente com a sua palestra!
Para o grupy, aguardamos 3 palestras com duração esperada de 15 minutos cada. Se a sua tiver uma duração diferente, favor indicar. (obs: as do pydata não estão incluídas aqui).
Podem ser palestras sobre assuntos tecnicos (programação, metodologias, ferramentas, estatística, performance...), carreiras de dados (sub-áreas, estudos, empregos, gerenciamento de times...) e quaisquer outros temas relacionados (privacidade, ética, igualdade... a sua imaginação é o limite).
Damos preferencia a mistur temas básicos com "avançados" ; )
Propostas
Big Data com python (adeus spark!)
O ecosistema de dados construido em torno do python é bem desenvolvido. Numpy, pandas, sklearn, etc, facilitam bastante a análise de dados e construção de modelos de machine learning.
Mas quando o dataset é maior que 10GB, o pandas começa a chorar... e se um dataset tiver 100GB? ou 1TB?!?!
De início vamos começar explicando o que é o GIL (global interpreter locker) do python.
Depois, falar um pouco do histórico do desenvolvimento das ferramentas de big data e da motivação para o python ter uma específica.
E, finalmente: código! Vamos utilizar multiplos cores com o python com a lib multiprocessing e com dask (https://dask.org/).
Introdução ao testes de hipóteses
Intervalo de confiança, rejeitar a hipótese nula, distribuição normal, p-value, teste de normalidade...
Estamos falando a mesma lingua? Isso é grego? Você esta me xingando?
Vamos brincar de testes de hipóteses. Conversar sobre teoria, explicar alguns conceitos, fazer alguns exemplos e implementar um "do zero" em python (nada de from codigo_que_eu_nunca_vi import teste_de_hipotese...).
Depois, se sobrar tempo, a gente comenta alguns outros testes e importamos algumas libs pre-fabricadas
Visualização de dados profissional com bokeh+holoviews
Você sempre encontra o pessoal mostrando aqueles gráficos coloridos do matplotlib... Mas, ja tentou usar eles em produção? Ja tentou colocar eles para seus clientes? Ja tentou fazer eles interativos?
Dessa vez vou apresentar a biblioteca bokeh (https://docs.bokeh.org/en/latest/docs/gallery.html). Tem a mesma flexibilidade do matplotlib, tão interativa quanto o plotly, um servidor para colocar em produção (com direito a cache, asincronia e, com alguns ajustes, até separavel em micro servicos) e gráficos renderizados com webgl (pra vc que acha o d3.js lento!).
Também apresento o holoviews: um wrapper compativel com o bokeh e com matplotlib. Ele entra no lugar do seaborn para você fazer gráficos em uma linha. Também permite "anotar" os seus dados, de forma a economizar tempo na transformação do dataset para plotagem, aumentando a produtividade da sua EDA. Além disso permite utilizar o 'datashaders' para plotar gráficos de "big data" com milhoes (ou até bilhões) de pontos sem travar o meu notebook de pobre.
Apresentação: um jupyter notebook com o código e dataset disponível para tentar pincelar os pontos principais em 10 minutos + algumas palavras com o caminho das pedras para quem quiser aprofundar nos detalhes...