Perfil
Propostas
Eficácia na estimativa de risco de irregularidades com poucos dados e técnicas simples
Nome completo e instituição:
Leandro Balby, Leonardo Sales*, Nazareno Andrade, Órion Winter, Talita Lôbo
Universidade Federal de Campina Grande, *CGU
Tipo de proposta: Apresentação
Título: Eficácia na estimativa de risco de irregularidades com poucos dados e técnicas simples
Foco principal da apresentação: Técnico (apresentação das técnicas aplicadas e resultados obtidos).
Fase do trabalho: Trabalho ou projeto em andamento.
Descrição:
O uso de aprendizagem de máquina para avaliar risco de irregularidades em contratos públicos é promissor: este potencial foi demonstrado, por exemplo, pelo artigo Predicting Public Procurement Irregularity: An Application of Neural Networks (Ting Sun e Leonardo Sales). Este trabalho mostra que é possível atingir uma precisão considerável utilizando dados a que CGU tem acesso e treinando modelos de redes neurais profundas.
Porém, apesar de alguns resultados promissores, há ainda pouca comparação sistemática da eficácia de diferentes abordagens. Conhecemos a eficácia de modelos de redes neurais profundas e outros métodos utilizando os dados disponíveis para a CGU, porém não sabemos quão melhores esses resultados são do que modelos muito mais simples, ou do que modelos treinados utilizando subconjuntos dos dados disponíveis para mais órgãos.
Caso haja soluções com eficácia semelhante e com modelos mais simples, será possível produzir aplicações e resultados mais interpretáveis para os órgãos de controle e seus auditores. Por outro lado, se for possível utilizar um subconjunto consideravelmente menor de dados para obter resultados precisos, mais órgãos de controle poderão utilizar essa abordagem.
Neste trabalho, mostramos que:
(i) a utilização de modelos consideravelmente mais simples (árvores de decisão, por exemplo) - e portanto mais fáceis de interpretar - produzem resultados de eficácia equivalente aos de redes neurais profundas que alcançamos, e 18% piores que os encontrados pelos autores do artigo citado acima; e
(ii) a eficácia que alcançamos com modelos que utilizam apenas três variáveis se aproxima da de modelos mais complexos com as 182 variáveis a que temos acesso.
Assim, embora haja muito dado produzido sobre a administração pública, não é sempre possível conseguir acesso a todas as bases de dados existentes. Depender de um número mínimo de características para treinar modelos de previsão de risco eficazes democratiza o uso destas técnicas, permitindo que mais órgãos possam aplicá-las. Nossos resultados apontam que órgãos tanto da esfera estadual como municipal podem se beneficiar do uso de modelos de aprendizagem de máquina simples e interpretáveis, ainda que tenham acesso limitado a dados.
Detalhes técnicos:
Os dados utilizados são uma combinação de sete bases de dados da CGU, incluindo Relação Anual de Informações Sociais (RAIS), Receita Federal do Brasil (RFB), Sistema Integrado de Administração Financeira do Governo Federal (SIAFI), Sistema Integrado de Administração de Serviços Gerais (SIASG), Sistema Integrado de Administração de Pessoal (SIAPE), Tribunal Superior Eleitoral (TSE) e o Sistema de Convênios (SICONV).
Os modelos foram treinados em R, utilizando o pacote H2O para modelos de rede neural profunda e florestas aleatórias, e o pacote Caret árvore de decisão, regressão logística e análise de função discriminante.
Para treinar os modelos de aprendizagem de máquina, os dados foram particionados em treino e teste, na proporção de 80% e 20% respectivamente. Como grande parte dos algoritmos utilizados são sensíveis ao desbalanceamento da variável alvo, foi utilizado uma técnica de reamostragem da classe minoritária (oversampling) no conjunto de treino, de modo a deixar equilibrada a quantidade de observações baseada na coluna referente às penalidades. De modo a contornar o overfitting, foi utilizada validação cruzada com 5 folds.
Como o objetivo principal é detectar empresas que são propensas a quebrar o contrato, queremos dar ênfase na classe positiva, que representa as empresas que receberam uma penalidade severa. Desta forma as métricas que mais se adequam a este propósito são o F1-score e a área sob a curva ROC (AUC).
Mini-currículo:
Leandro Balby, Nazareno Andrade, Órion Winter e Talita Lôbo são da Universidade Federal de Campina Grande. Os dois primeiros são professores, e os dois últimos mestrandos em análise de dados aplicada aos gastos públicos e controle social. Leonardo Sales é Coordenador-Geral do Observatório da Despesa Pública na Controladoria-Geral da União.