Perfil
Propostas
Compartilhando a experiência em Registros Administrativos: trabalhando com 31 anos da RAIS (RAIS) - desafios e oportunidades
O presente trabalho visa mostrar os desafios e oportunidades do uso da base de dados RAIS (Relação Anual de Informações Sociais) bem como a possibilidade de compartilhar códigos, bases e experiências adquiridas no projeto “Atlas do Estado Brasileiro” (que visa apresentar um diagnóstico do emprego público no Brasil nos últimos 31 anos).
O trabalho foi executado com ferramentas livres e máquinas convencionais.
O primeiro desafio do projeto foi organizar estes 31 anos de dados, pois são arquivos de grande tamanho e variados layouts/conceitos neste intervalo. Após o trabalho de organização inicial (precedido por inúmeros testes e formas de organização) chegou-se a uma base de dados contendo cerca de 2 bilhões de registros administrativos, contendo uma rica história dos trabalhadores e empresas brasileiras.
A base é de caráter sigiloso pois contém dados pessoais. Entretanto, uma base não identificada está disponível no site do MTE. Este trabalho usou a base identificada, com acesso controlado.
Uma base de registros administrativos de longo prazo como esta possui uma enorme riqueza e vários desafios, pois ocorreram erros, omissões e diversas particularidades no seu preenchimento. Além disso, seu volume trouxe desafios técnicos e organizacionais visando um uso eficiente. A escolha das ferramentas também teve impacto na qualidade do trabalho. Esta organização também se preocupou com a integração desta base a outras bases complementares, sem se descuidar do seu caráter geográfico.
O trabalho realizado foi focado em serviço público mas a experiência adquirida ao longo do processo pode ser muito útil a pesquisadores e técnicos do governo. Todos os resultados estão em bancos de dados geográficos e várias bases de dados úteis podem ser compartilhadas.
Impactos alcançados: organização de uma rica base de dados e conjunto de ferramentas de análise rápida, bem como bases de dados auxiliares (que podem ser compartilhadas)
Detalhes técnicos: foram realizados testes de armazenamento em diversos bancos de dados (MongoDb, SQL Server, Postgres e um cluster Hadoop). Finalmente foi criado um banco de dados em Postgres (com Postgis), o qual foi aperfeiçoado com vários índices. Além da RAIS vários outros conjuntos de dados foram integrados ao sistema. As análises foram feitas principalmente com o uso do R (software estatístico) e Python.
Nome Completo: Erivelton Pires Guedes
Instituição: IPEA - Instituto de Pesquisa Econômica Aplicada
Tipo de proposta: apresentação (20 minutos)
Foco principal da apresentação: gerencial e técnica, para facilitar a realização de trabalhos semelhantes por analistas e cientistas de dados
Fase do trabalho: estudo de caso com resultados práticos.
Impactos alcançados: organização de uma rica base de dados e conjunto de ferramentas de análise rápida.
Detalhes técnicos: foram realizados testes de armazenamento em diversos bancos de dados (MongoDb, SQL Server, Postgres e um cluster Hadoop). Finalmente foi criado um banco de dados em Postgres (com Postgis), o qual foi aperfeiçoado com vários índices. Além da RAIS vários outros conjuntos de dados foram integrados ao sistema. As análises foram feitas principalmente com o uso do R (software estatístico) e Python. Códigos controlados em Gitlab e gerenciamento do projeto com Jira.
Mini-Currículo: Erivelton Pires Guedes é Eng Civil com Doutorado em Eng de Transportes. Foi Especialista em Regulação da Aviação Civil e desde 2009 é Técnico de Planejamento e Pesquisa do Ipea, trabalhando principalmente com bases de dados, análise de políticas públicas e com larga experiência em geoprocessamento.