Perfil
Propostas
Construindo pipelines com Airflow
Resumo
O Apache Airflow é uma plataforma open-source utilizada para criar, agendar e monitorar pipelines. Ele é utilizado por grandes empresas como Instagram, Lyft e Airbnb (seu idealizador) para execução e monitoramento de aplicações que envolvam grande processamento de dados, como em projetos de aprendizagem de máquina.
O Airflow utiliza o conceito de DAGs (grafos acíclicos direcionados) para descrever uma lista de tarefas. De forma básica, se coloca uma lista de tarefas sequencial, mas oportunidades de paralelismo também podem ser especificadas na descrição das tarefas. O fluxo de tarefas, por sua vez, é escrito em Python e as tarefas em si são representados por Operators, que podem variar de comandos Bash simples, enviar notificações, realizar uma consulta a um Banco de Dados, ou até executar um container Docker.
A grande vantagem do Airflow é que existem diversos tipos de operadores pré-definidos, agilizando assim o processo de desenvolvimento. Conta ainda com uma interface gráfica para monitorar a execução de tarefas, sendo um grande diferencial em relação a outras soluções.
Nesta palestra, aprenderemos a construir e executar um pipeline simples utilizando o Airflow e seus vários operators, assim como a utilizar a interface gráfica embutida para monitorar a execução das tarefas.
Público alvo
Pessoas com experiência intermediária em Python que possuem interesse em executar pipelines complexos de tarefas da mesma forma que grandes empresas fazem.