7º Seminário Internacional sobre Análise de Dados na Administração Pública

Criado por Brasil Digital em 2 de Julho de 2021 às 15:05.
Proposta fecha em 3 de Outubro de 2021 às 23:55

O Idioma

@ Se necessita de informações em português, continue a leitura na seção abaixo.

@ Si necesita información en español, haga clic en el siguiente enlace: detalles de la llamada para trabajos en español.

O Evento

A sétima edição do Seminário Internacional sobre Análise de Dados na Administração Pública será transmitida por streaming pelo canal YouTube do TCU nos dias 21 e 22 de outubro de 2021.

O Seminário tem por objetivo promover o compartilhamento de experiências e boas práticas relacionadas ao uso de técnicas de análise e mineração de dados, enquanto instrumento para melhoria da gestão e do controle de entidades e políticas públicas. O evento é organizado conjuntamente pelo TCU, pela CGU e pela Enap.

Chamada de trabalhos

A chamada de trabalho estará aberta até às 23h55 de domingo 26 de setembro, para submissão de propostas de oficinas e/ou de palestras. Ela busca identificar palestrantes de instituições de controle, de entidades da administração direta e indireta, bem como do meio acadêmico e do terceiro setor, para apresentar casos práticos e respectivos resultados, envolvendo a análise de dados da Administração Pública nas três esferas.

São de interesse do Seminário quaisquer trabalhos que se enquadrem no amplo leque temático de análise de dados da Administração Pública. Exemplos de tópicos de interesse:

- Processamento de linguagem natural (Natural Language Processing - NLP);

- Geoprocessamento e geotecnologias;

- Aplicações de Inteligência Artificial na atuação do Estado;

- Detecção de padrões e relacionamentos úteis à formulação ou execução de políticas públicas;

- Detecção de anomalias, abusos ou fraudes na arrecadação ou no gasto de recursos públicos;

- Priorização, por critérios de risco, urgência ou importância, de casos para auditoria, análise ou investigação pelo poder público;

- Otimização de processos repetitivos, como atendimento a demandas, triagem de denúncias ou confecção de peças processuais;

- Mineração de textos e outras fontes de dados não estruturados, para geração de insumos para processos de análise;

- Utilização de Sistemas de Informação Georreferenciadas (SIG) no planejamento, implementação, execução e monitoramento das políticas públicas;

- Utilização de geoprocessamento com a finalidade de descoberta e interpretação de informações relevantes para o controle ao longo de diversos períodos (espaço-tempo);

- Utilização de imagens de satélite e sensoriamento remoto como ferramentas para o monitoramento das políticas públicas ou situações de interesse público, por exemplo, na área ambiental, agrícola, de defesa ou de infraestrutura;

- Apoio à tomada de decisão em políticas públicas baseada no uso de visão computacional ou no processamento de imagens;

- Monitoramento ambiental e de risco de desastres por meio de sensoriamento remoto;

- Análise de redes (network analysis); e

- Análise de séries temporais.

Observações importantes:

- a apresentação deverá abordar, no mínimo, a motivação do uso de análise de dados, as técnicas e ferramentas utilizadas e os resultados atingidos (ou esperados, no caso de trabalhos ainda em curso);

- não serão aceitos trabalhos ou propostas de oficina que tenham como único objetivo a comparação entre ferramentas ou a divulgação de ferramentas específicas, gratuitas ou comerciais;

- não há exigência de que o trabalho tenha sido descrito em artigo científico ou realizado com rigor acadêmico, visto que o foco será no compartilhamento de experiências práticas;

- serão aceitos trabalhos realizados por entidades públicas, universidades, organizações do terceiro setor ou pessoas físicas independentes, desde que tenham sido utilizados dados do setor público para alcance de resultados de interesse público;

- o evento será transmitido pela internet, assim os palestrantes precisarão ter disponibilidade para transmitirem sua apresentação no dia e horário programado, com compartilhamento das transparências e vídeo ao vivo, pela aplicação Teams da Microsoft.

- as propostas de apresentação da edição anterior encontram-se no site do Speaker Fight: https://speakerfight.com/events/6o-seminario-internacional-sobre-analise-de-dados-na-administracao-publica

Cada trabalho deve ser submetido de forma independente na plataforma, informando, pelo menos:

- tipo de proposta: apresentação (20 minutos na programação principal do evento) ou ação educacional prática (tutorial ou oficina, com duração entre 1 a 4 horas em sala de aula "virtual" no Teams);

- título da apresentação/oficina;

- foco principal da apresentação: se técnico, para facilitar a realização de trabalhos semelhantes por analistas e cientistas de dados, ou gerencial, para demonstrar a gestores públicos os resultados potencializados pela análise de dados;

- fase do trabalho apresentado: estudo de caso com resultados práticos; trabalho ou projeto em andamento ou proposta em estudo para implementação;

- descrição da apresentação (em até 2000 caracteres sem espaço). Se possível, descreva os impactos vislumbrados ou que de fato foram alcançados pela proposta, estudo, trabalho ou projeto a ser apresentado;

- detalhes técnicos: métodos estatísticos ou modelos de aprendizagem utilizados; softwares e linguagens de programação utilizados;

- em se tratando de oficina, descreva: uma breve ementa, detalhando o conteúdo que pretende apresentar, duração necessária para a oficina, entre 1 a 4 horas;

- nome completo, instituição, dados para contato (email institucional, email privado e whatsapp) e mini-currículo (destacando sua experiência acadêmica e/ou profissional no tópico apresentado): essas informações devem estar presentes apenas na seção "Mais informações" visível unicamente pela organização do evento; as votações na plataforma serão realizadas com anônimato do palestrante proponente, assim procure evitar referências diretas à autoria no texto aberto da proposta.

Seleção dos trabalhos

A seleção das propostas será realizada por júri composto por representantes dos órgãos patrocinadores, considerando: votação da proposta na plataforma Speakerfight; impacto esperado do trabalho; originalidade; replicabilidade; e pertinência temática às áreas do Seminário.

Este evento está em modo de Votação Anônima, todos os palestrantes estão escondidos para votação, você deve basear seu voto apenas no conteúdo das propostas..

Este evento não aceita mais propostas.

Propostas

Acidentes de trabalho no Brasil: predição de ocorrências usando inteligência artificial

Proposta em 20 de Agosto de 2021 às 10:38.

Tipo de proposta: apresentação

Segundo dados de Comunicação de Acidentes de Trabalho (CAT), de 2011 a 2020 foram notificados mais de 5,8 milhões de acidentes laborais no Brasil, mais de 23 mil dos quais levaram trabalhadores a óbito. Para auxiliar no planejamento de ações de fiscalização com foco na prevenção de acidentes laborais, a Auditoria-Fiscal do Trabalho construiu, desde o ano de 2020, sistema que realiza a predição de tais acidentes para cada par CNPJ e atividade profissional – Classificação Brasileira de Ocupações (CBO) – de todas as empresas do Brasil.

Resultado:

Utilizando-se diversas variáveis de bases de dados disponíveis à Inspeção do Trabalho – como a atividade econômica do empregador, atividade do trabalhador, município, número médio de empregados e idade média dos trabalhadores – foi possível construir modelo de machine learning que previu a ocorrência de acidentes de trabalho com acurácia superior a 84 %. Os dados foram disponibilizados aos Auditores-Fiscais do Trabalho por meio de painel desenvolvido utilizando-se o software Pentaho no qual para os empregadores do país, é apresentada a probabilidade de ocorrência de acidentes laborais.

O foco a construção dos modelos de machine learning e sua aplicação pela Inspeção do Trabalho.

Fase: O trabalho foi publicado na Revista da Escola Nacional da Inspeção do Trabalho1 e já está disponibilizada a todos os Auditores-Fiscais do Trabalho. O modelo foi treinado com dados relativos aos anos de 2018 a 2020, prevendo acidentes no ano de 2021. As informações de probabilidades de acidentes foram usadas na construção das diretrizes de planejamento da Inspeção do Trabalho no corrente ano.

Detalhes técnicos: Para o desenvolvimento do presente trabalho, utilizou-se linguagem de programação Python. Foram testados diversos modelos de machine learning, através do framework H2O. Os painéis disponibilizados para planejamento de ações fiscais foram construídos com o software Pentaho.

Use os botões abaixo para votar:

A classificação de emails corporativos com a aplicação de Inteligência Artificial: um estudo de caso.

Proposta em 24 de Setembro de 2021 às 21:48.

- tipo de proposta: apresentação (20 minutos).

- foco principal da apresentação: técnico, para facilitar a realização de trabalhos semelhantes por analistas, cientistas de dados e arquivistas.

- fase do trabalho apresentado: estudo de caso em andamento.

- descrição da apresentação:

O registro das comunicações e atividades cotidianas no ambiente laboral, como o do Poder Executivo federal, o marco empírico desta pesquisa, tem sido realizado por meio de mensagens de correio eletrônico (email) pela facilidade da transmissão em tempo quase real. Com isso, o volume desses documentos não estruturados é crescente fazendo com que a recuperação das informações seja morosa.
Se as mensagens de correio eletrônico têm sido utilizadas com frequência para a instrução de processos administrativos ou delegação de tarefas ou tomada de decisões, a recuperação das informações registradas precisa ser feita no menor espaço de tempo quando solicitadas.
O objetivo geral da pesquisa consiste em classificar email para fins de seleção e eliminação conforme instrumentos técnicos de gestão arquivística de documentos, utilizando Inteligência Artificial para dar celeridade e assertividade na recuperação da informação para tomada de decisão gerencial. Para atingi-lo, foram elencados como objetivos específicos: comparar os métodos de classificação adotados pelas áreas da Arquivologia e da Ciências de Dados; definir um modelo de classificação de texto; implementar o modelo para classificação de mensagem de correio eletrônico.
O resultado esperado com a pesquisa é utilizar um modelo computacional capaz de auxiliar o servidor no gerenciamento de sua caixa de correio eletrônico corporativa.

- detalhes técnicos: distribuição Anaconda 2.0.3 que contém as bibliotecas básicas necessárias em Ciências de Dados e uso do Jupyter Notebook 6.1.4 para a criação de algoritmos com a linguagem de programação Python 3.

Use os botões abaixo para votar:

Analisando dados do orçamento e despesas do poder executivo: saiba pra onde vai o seu dinheiro

Proposta em 3 de Outubro de 2021 às 21:16.

TIPO: Ação educacional prática, oficina mão na massa com duração de 4 horas.

FOCO: Coleta, manipulação, metodologia de análise de dados e visualização de dados com a Base do Orçamento Federal.

Este trabalho tem como foco o participante saber como manipular bases públicas e fazer as perguntas certas no momento de analisar dados e gerar insights com a base do orçamento do poder executivo de forma histórica, consequentemente, o participante vai ter conhecimentos sobre orçamentos e gastos públicos e vai poder disseminar esses conhecimentos para as pessoas a sua volta.

FASE: O Trabalho é um estudo de caso que demonstra o aumento ou diminuição de ano após ano do orçamento destinado a políticas públicas para mulheres, ao combate do covid 19 e o refinanciamento de dívida interna.

DESCRIÇÃO: O objetivo dessa oficina é fomentar o uso dos dados públicos, bem como o aprendizado em metodologias de análise e visualização de dados visando a participação política e social. No geral, a oficina quer empoderar a sociedade civil através dos dados abertos, começando com o tema de execução orçamentária e criando visões e relatórios no Google Data Studio com resultados práticos sobre o orçamento e os gastos públicos, ou seja, quanto destinado e o quanto de fato utilizado. Investimentos na educação e na saúde aumentaram ou diminuíram nós últimos 8 anos? Qual foi o maior ano com refinanciamento de dívida interna?

O participante será capaz de identificar e criar um dashboard mostrando que em 2020, 20% do orçamento para o COVID19 não foi utilizado. Em 2021, 33% do orçamento é destinado a refinanciamento de divida interna.

Este dashboard permite realizar analise comparativa, mês a mês, da evolução do valor do orçamento e das despesas por categoria, órgão superior, órgão subordinado, auxiliando na tomada de decisão e priorização de ações no Brasil e em políticas públicas.

Estes resultados levaram a sociedade civil entender os dados e disseminarmos os conceitos de dados abertos.

DETALHES TÉCNICOS: métodos estatísticos com metodologia de análise de dados e visualização de dados. Os participantes vai criar suas visões e aprenderam a replicar essa análise. Disseminar análise de dados sem o uso de linguagens de programação complexas para todos os públicos.

FERRAMENTAS: Excel (análise com métodos estatísticos) e Google Data Studio (dashboards)

PÚBLICO: Analistasde dados, cientistas de dados, gestores públicos e pessoas interessadas a entender sobre dados e a traduzir esses dados em informação.

Use os botões abaixo para votar:

Análise espacial de uma rede de videomonitoramento urbana no monitoramento de descartes irregulares de resíduos sólidos na escala municipal

Proposta em 15 de Setembro de 2021 às 15:36.

Tipo: apresentação

Foco: gerencial

Fase: trabalho em andamento

Softwares: Qgis, Google Earth, Google Street View

O uso de ferramentas de Geoprocessamento assume fundamental importância na análise espacial do ambiente urbano, possibilitando o planejamento e a avaliação de estratégias de monitoramento e controle ambiental na escala municipal. O município objeto de estudo da presente pesquisa apresenta sérios problemas com relação ao descarte irregular de resíduos sólidos em vias públicas.

Nessa análise, foram gerados dois mapas temáticos no Qgis para os anos de 2011 e 2019, ilustrando a concentração de focos de resíduos no território municipal. As informações de focos de resíduos foram obtidas por meio do Google Earth, do Google Street View, informações com as localizações de focos de resíduos sólidos fornecidas pela Prefeitura e através de fotos registradas em campo com a geolocalização. Dessa forma, identificou-se um aumento de 83,7% no total de focos de resíduos sólidos em vias públicas no período em análise.

Todavia, partir de 2020 a Prefeitura passou a instalar câmeras de videomonitoramento em diversos locais da cidade, tendo como uma de suas funções coibir os descartes irregulares. Assim, nesta etapa da presente pesquisa está sendo atualizada a base de dados com a localização dos focos de resíduos sólidos do ano de 2019 para avaliar se está ocorrendo alguma diminuição dos focos nas áreas monitoradas.

Nesse sentido, por meio dos softwares de Geoprocessamento está sendo realizada a sobreposição das informações entre os dados com a localização espacial dos focos de resíduos sólidos em vias públicas e as câmeras de videomonitoramento. No que se refere à aplicação prática das câmeras, através dos seus registros está possível realizar a autuação de diversos infratores. No entanto, este tipo de autuação se restringe apenas aos casos em que é possível identificar a placa dos veículos. Nos casos em que os descartes ocorre por meio de carroceiros por exemplo, torna-se bastante difícil realizar a identificação dos infratores.

Por fim, por meio da presente pesquisa espera-se ampliar o nível de eficiência da rede de videomonitoramento e identificar locais prioritários para a instalação de novas câmeras. Para isso, uma maior integração entre os setores de Fiscalização Ambiental e a Central de Videomonitoramento da Prefeitura se mostra fundamental.

Use os botões abaixo para votar:

Analise espacial e mineração de dados na identificação de impacto no faturamento de uma companhia de saneamento básico.

Proposta em 26 de Agosto de 2021 às 15:25.

TIPO: Apresentação

FOCO: Legislações locais e federais determinam que todas as construções permanentes urbanas devem estar conectadas às redes de fornecimento de água e de coleta de esgoto existentes. As construções que atendem a este critério (estar conectada às redes de saneamento básico) são denominadas Par Perfeito, uma vez que consomem e, consequentemente, contribuem com as taxas dos serviços de saneamento, o que compõe 100% da receita da companhia.

Este trabalho tem como foco auxiliar na tomada de decisões gerenciais, pois apresenta a utilização de técnicas de análise espacial combinado com mineração de dados para identificar clientes que não são Par Perfeito e, consequentemente, impactam no faturamento da companhia, visando identificar as perdas de faturamento e oportunidade de aumento de receita.

FASE: O Trabalho é um estudo de caso que demonstra os impactos no faturamento de uma empresa de saneamento básico causados por clientes que não são Par Perfeito.

DESCRIÇÃO: A utilização de análise geoespacial combinada com conceitos de mineração de dados alimentam um modelo de detecção de clientes que não são Par Perfeito, cujo resultado é apresentado em um Dashboard composto por mapa que apresenta a localização espacial destes clientes e indicadores que demonstram o possível impacto financeiro bem como o tipo de impacto: Perda de Faturamento ou Oportunidade de aumento de receita.

Este dashboard permite realizar análise comparativa, mês a mês, da evolução da quantidade de clientes que não são Par Perfeito, auxiliando na tomada de decisão e priorização de ações de fiscalização e operação para sanar os problemas que impedem o faturamento dos serviços de água e esgoto, bem como monitorar a eficácia das ações adotadas.

Em junho/2021, o modelo demonstrou haver 102.035 clientes que não eram Par Perfeito e cujo impacto representava cerca de 6% do faturamento da companhia naquele mês.

Estes resultados levaram a Diretoria da empresa a incluir no Planejamento Estratégico da Companhia ações para identificar e corrigir as causas que resultaram nos clientes que não são Par Perfeito.

CONCLUSÃO: Este trabalho demonstrou o potencial que as análises de dados e análises espaciais possuem ao destacar situações que são imperceptíveis em relatórios tabulares, planilhas ou sistemas transacionais, permitindo aos analistas de dados descobrir novos conhecimentos que auxiliam na definição de estratégias e ações que contribuem para a melhoria dos processos operacionais e gerenciais e, consequentemente, dos resultados.

Use os botões abaixo para votar:

Aplicação de inteligência artificial na priorização de análise de atos de pessoal da Administração Pública Federal pelo TCU

Proposta em 20 de Agosto de 2021 às 11:29.

Tipo de Proposta: Apresentação

A análise dos atos de pessoal sujeitos a registro da Administração Pública Federal (APF) é uma competência constitucional do TCU. Atualmente, existem no e-Pessoal, sistema informatizado do TCU por meio do qual os gestores dos órgãos da APF cadastram os atos de pessoal a serem analisados pelo TCU, cerca de 130 mil atos aguardando análise. Este montante de atos equivale a mais de 10 vezes a capacidade anual de análise de atos do TCU. O modelo de IA desenvolvido busca identificar no estoque do TCU aqueles atos com maior risco de ilegalidade, que mensalmente geram prejuízo aos cofres públicos, para que sejam analisados prioritariamente pelos auditores e submetidos ao plenário do tribunal para deliberação.

O Modelo de classificação de riscos atos de pessoal desenvolvido pelo TCU é baseado em dois pilares: materialidade e probabilidade de ilegalidade. A materialidade é determinada por um sistema especialista baseado em regras e cruzamento de dados que, considerando as críticas geradas pelo e-Pessoal, faz uma estimativa de qual seria o benefício financeiro para o erário caso o ato fosse considerado ilegal pelo TCU. A probabilidade de ilegalidade é estimada por um modelo de inteligência artificial que “aprende”, a partir dos dados dos atos e do histórico de julgados do TCU, qual a probabilidade de um ato ser julgado ilegal pelo TCU. A materialidade e a probabilidade de ilegalidade são combinadas em score único de risco do ato, que é usado na priorização . Esse score de risco é apresentado sob a forma de um painel dinâmico que possibilita aos gestores da Sefip fazer a seleção dos atos que serão distribuídos para análise pelos auditores, por meio de simulação de cenários, além de estimar o esforço necessário considerando a quantidade de críticas distintas que precisarão ser analisadas.

Resultado:

O sistema de classificação de rsco baseado em IA foi intergrado ao sistema transacional de análise de atos pelo auditor por meio de webservice RESTFull e já se encontra em operação. Nos testes de performance do modelo, os resultados alcançados foram surpreendentes. O benefício financeiro de controle dos atos selecionados pelo modelo é, em média, 20 vezes superior à metodologia de seleção anterior, baseada em antiguidade do ato.

Detalhes Técnicos

Plataforma de IA: Python, scikit-learn
Algoritmo: XGBoost
Fontes de dados para aprendizagem: Metadados e Críticas dos Atos gerados pelo e-Pessoal, bases de dados de folha de pagamento da APF, histórico de julgados do TCU
Validação e Otimização: Cross-validadtion, Bayesian hyper-parameter optimization

Plataforma transacional: Oracle-Apex (integrada via RESTfull)

Use os botões abaixo para votar:

APLICAÇÃO DE INTELIGÊNCIA ARTIFICIAL PARA FOMENTAR ACORDOS POR CONCILIAÇÃO E MEDIAÇÃO DE PROCESSOS TRABALHISTAS

Proposta em 19 de Setembro de 2021 às 14:30.

Tipo de Proposta: Apresentação

Motivação:

O Judiciário Brasileiro apresenta morosidade e grande estoque de processos aguardando julgamento. Comparativamente, o Brasil possui elevado índice de judicialização e baixo percentual de conciliação e mediação. Em 2018, a taxa de judicialização foi de 13,5% e de processos resolvidos por conciliação de 11,5%. Como consequência, cada juiz produziu em média 1.786 sentenças.

Na OCDE, a maioria dos países possuem taxas de judicialização variando entre 2% a 4%, enquanto os percentuais de conciliação e mediação podem atingir 70%. Portugal, em 2018, registrou uma média de 377 processos baixados por juiz.

O aumento dos índices de mediação e conciliação impõe-se como a medida mais eficaz para enfrentar os problemas do Judiciário.

O principal fator para a alta taxa de judicialização é a falta de alinhamento de expectativas de resultados entre demandantes;

A redução da incerteza nos resultados prováveis de julgamentos incentiva acordos entre as partes.

A solução / resultados

Aplicação de Inteligência Aumentada, introduzindo o conceito de Jurimetria Preditiva, antecipando resultados de julgamentos de processos trabalhistas, por meio do reconhecimento de padrões. Projeto, em andamento, versão beta prevista para dez/2021.

O fornecimento de estimativas robustas, fundadas nas especificidades de cada caso concreto, apontando os fatores determinantes dos resultados do julgamento de casos similares, efetivamente promove o alinhamento de expectativas entre as partes litigantes, fomentando acordos e desafogando o Sistema Judiciário.

A partir da captura e análise de documentos públicos, a solução, por meio de técnicas de aprendizado de máquina e de análise de redes complexas, implementa processamento de linguagem natural que reconhece temas, legislação, jurisprudência e decisões citados nos processos trabalhistas.

Armazenando dados em uma base NoSQL, a solução permite pesquisas por temas, tribunais, turmas e varas, retornando os processos que atendem aos requisitos de pesquisa. Reconhece as decisões que são favoráveis a cada parte, fornecendo os respectivos percentuais de êxito e os prazos médios de tramitação em cada instância.

A solução apresenta a relação de legislações e jurisprudência citados nas decisões, para que se selecione o conjunto de normas jurídicas aplicáveis ao caso concreto, refinando as estimativas de risco jurídico, de acordo com as diversas simulações possíveis. Ressaltando que essa anâlise pode ser realizada para uma ou múltiplas varas trabalhistas, um ou múltiplos TRts, uma ou múltiplas Turmas dos TRTs..

Adicionalmente, a solução permite a magistrados pesquisar sobre julgamentos anteriores, de sua autoria ou de seus pares, monocráticas ou por turmas, sobre temas específicos, além de poupar tempo significativo de profissionais do Direito na análise de documentos processuais.

Até o momento, os resultados do projeto piloto, implantado em um dos maiores escritórios de advocacia do país, têm sido considerados excelentes, e inéditos por suas características.

Use os botões abaixo para votar:

Aplicação GAIA para mensuração de riscos ambientais nos financiamentos e na carteira de clientes do BNDES

Proposta em 3 de Setembro de 2021 às 15:52.

Proposta: apresentação técnica de projeto em andamento
Impacto: permitir, de modo eficiente, transparente e integrado, a gestão dos riscos ambientais nos financiamentos do BNDES.

Segundo a BBC em 2019, o Brasil é um dos 15 países que mais emitiram dióxido de carbono nos últimos 20 anos. Tais emissões são ainda mais potencializadas com os recentes desmatamentos em várias regiões do Brasil (Amazônia e Cerrado), resultando em maior aquecimento global do planeta e em mudanças climáticas danosas à toda população - como inundações, tempestades, secas. Em 2015, o Acordo de Paris veio impulsionar, em todo o mundo, a adoção de ações que visem minimizar as ameaças deste aquecimento global. Um exemplo é o compromisso dos países em atingir determinadas metas de redução de emissão de poluentes. Como resultado, todas as empresas e órgãos governamentais devem adotar práticas ESG (Environmental, Social and Governance): cuidar do meio ambiente (E), ter responsabilidade social (S) e implementar a boa governança (G).

No contexto de atuação do BNDES, ser Environmental é incentivar o crescimento econômico do País com desenvolvimento sustentável. Sendo assim, foi criada a aplicação GAIA para uso no BNDES, cujo objetivo primordial é o de subsidiar a mensuração e análise dos riscos ambientais na concessão de financiamentos para as empresas, órgãos e entidades da Administração Pública. Desta forma, tem-se a avaliação dos riscos ambientais da carteira dos clientes que fazem uso das operações diretas e indiretas do BNDES, em nível setorial e geolocalizado.

GAIA realiza a integração com diversas bases de dados abertas, como: BNDES (Financiamentos), Receita Federal (CNPJ), IBAMA (emissão de poluentes, acidentes ambientais, áreas embargadas, etc), FUNAI (Reservas indígenas), IBGE (PIB municipal) e outras disponíveis no GitHub (como a github.com/kelvins, com geolocalização dos municípios brasileiros).

Além disso, GAIA faz uso da ferramenta open source LightAutoML (da Sber Bank AI Lab); de algoritmos de redes neurais para a geração do modelo que estima os riscos de determinado CNPJ possuir atividades potencialmente poluidoras; e do modelo BERT (bert-base-multilingual-cased) para processamento de textos. Demais tecnologias usadas: linguagens Python e R, SQL, ShinyDasboard, Leaflet, APIs do Google Maps Services e da MinhaReceita.

Análises exploratórias e interativas de dados, mapas com informações geolocalizadas a respeito dos riscos ambientais (emissão de carbono; pontos de incêndios e acidentes ambientais; e empreendimentos situados em unidades de conservação, terras indígenas ou areas embargadas) e os resultados do modelo aplicado (mensuração dos riscos ambientais por CNPJ, município e CNAE) podem ser visualizados no dasboard do GAIA, disponível em: https://hipotumos.shinyapps.io/gaia_bndes/

Use os botões abaixo para votar:

Aplicando inteligência artificial para verificar a complexidade de uma ação fiscal trabalhista

Proposta em 20 de Agosto de 2021 às 10:15.

Tipo de proposta: apresentação

No contexto da Auditoria-Fiscal do Trabalho, a distribuição de Ordens de Serviço para realização de ações fiscais é um grande desafio enfrentado pelos chefes e coordenadores de equipes. Uma eficiente distribuição das ordens de serviço, e por consequência das tarefas, pode maximizar a eficiência e uniformizar a carga de trabalho entre os membros da equipe. Para auxiliar na distribuição das ordens de serviço, a Auditoria-Fiscal do Trabalho construiu um modelo de aprendizagem de máquina (Machine Learning) com o objetivo de mensurar a complexidade de uma ação fiscal.

Resultado:

O modelo utiliza diversas variáveis disponíveis à Inspeção do Trabalho, tais como a atividade econômica do empregador, município, período do ano, número médio de empregados, data da última fiscalização, autos de infrações em fiscalizações anteriores e notificações. O modelo foi treinado com todas as ações fiscais realizadas no Brasil nos últimos cinco anos. A predição do número de autos de infração e da quantidade de dias que irá durar a ação fiscal são usados para criar um score que estima a complexidade das ações fiscais. Baseando-se nos quartis estatísticos, a complexidade foi definida em quatro níveis (1 a 4), sendo construído um modelo de classificação (machine learning) para prever o intervalo (range) da complexidade. O modelo obteve uma acurácia média considerando a validação cruzada com dez conjuntos (10-cross-validation) de 92%. Em uma versão beta do sistema, os dados foram disponibilizados aos chefes de equipe por meio de painel desenvolvido utilizando-se o software Pentaho.

O foco é a construção dos modelos de machine learning e sua aplicação pela Inspeção do Trabalho.

Fase: Foram realizados testes com uma versão beta do modelo, nessa versão só foram considerados dados relativos ao Empregador. Nas próximas versões, além de adicionar novas features relacionadas ao Empregador, também serão incluídas features com base no Auditor-Fiscal, tais como tempo de serviço, número de fiscalizações em empresas com perfil similar e formação acadêmica.

Detalhes técnicos: Para o desenvolvimento do presente trabalho, utilizou-se linguagem de programação Python. Foram testados diversos modelos de machine learning, através do pacotes python scikit-learn, LightGBM e XGBoost. Os painéis disponibilizados para planejamento de ações fiscais foram construídos com o software Pentaho.

Use os botões abaixo para votar:

APRESENTAÇÃO DA APLICAÇÃO DE BIBLIOTECA DE RECONHECIMENTO DE CARACTERES PARA IMPORTAÇÃO DE DADOS CADASTRAIS DE DOADORES VOLUNTÁRIOS DE MEDULA ÓSSEA

Proposta em 9 de Agosto de 2021 às 14:18.

Somos um laboratório clínico público que realiza exames para o SUS.
Desafio: Receber a demanda represada em outro laboratório e processar com urgência mais de 5.000 amostras de sangue triadas a partir de seus dados cadastrais contidos em fichas impressas em papel.
Requisitos
1. Excluir as amostras sem ficha cadastral;
2. Excluir as amostras de indivíduos nascidos antes de 1965;
3. Separar as amostras restantes em 02 grandes grupos:
Prioridade de cadastro: indivíduos nascidos entre 1966 e 1987 (inclusive)
Cadastrar a posteriore: indivíduos nascidos a partir de 1988
4. Informar os dados cadastrais de cada amostra em sistema informatizado

Até o momento, as seguintes tarefas já foram executadas:
1. Digitalização das 3135 fichas cadastrais das amostras colhidas nos meses de agosto, setembro e outubro de 2015,
2. Conferência dos dados capturados em tabela do mês de agosto/2015 com junto às amostras de sangue
e triagem conforme o exemplo abaixo;
Mês: Agosto de 2015:
989 fichas digitalizadas:
94 fichas descartadas
60 pares ficha-amostra descartados pela idade do doador;
34 fichas descartadas cuja amostra não foi localizada;
895 fichas a serem cadastradas
553 pares ficha-amostra serão cadastrados/processados com prioridade (nascidos entre 1966 e 1987 - inclusive)
342 pares ficha-amostra serão cadastrados/processados posteriormente (nascidos após 1988)

Etapas posteriores:
3. Cadastro dos doadores com prioridade em sistema informatizado por importação da planilha com seus respectivos dados cadastrais;

4. Repetição das etapas 2 e 3 para os meses de setembro e outubro de 2015;
5. Repetição das etapa 1 - 3 para os meses de novembro de dezembro de 2015;
6. Repetição da etapa 3 para os demais doadores (nascidos após 1988);

Os ganhos obtidos com a digitalização destes dados foram:
Ganhos de eficiência: Triagem de mais de 900 amostras em apenas 7 dias úteis envolvendo apenas 03 funcionários.
(1 para digitalizar as fichas, 01 desenvolvendo e refinando o algoritmo e tabelas, 01 separando as amostras;)
Ganhos de eficácia: Importação dos dados cadastrais em lugar da digitação minimizando os erros inerentes.
Ganhos de planejamento e controle: Maior controle do processo com registro dos dados em planilhas para consultas futuras;

Use os botões abaixo para votar:

Automatização da análise textual e registro de acórdãos do TCU

Proposta em 24 de Setembro de 2021 às 19:39.

Tipo de proposta: Apresentação

Motivação:

Todos os acórdãos do TCU são publicados em documentos Word, exigindo atualmente que servidores façam a leitura e interpretação de cada acórdão e o posterior registro manual das suas deliberações. Esse registro promove a estruturação de informações em base de dados de modo a viabilizar a execução e comunicação dos efeitos das deliberações desses acórdãos.

Sete servidores do TCU são dedicados exclusivamente ao registro das deliberações desses acórdãos, que, em 2020, totalizaram 32.576. Destes, 66% tratavam de atos de pessoal julgados por relação, apresentando, em sua maioria, uma redação padronizada, o que suscitou a oportunidade de automatização do processo de trabalho.

Solução:

Elaborou-se um algoritmo em Python que, por meio de técnicas de Natural Language Processing (NLP), conseguiu fazer a análise textual e classificação automática de 90% desses acórdãos, com acurácia acima de 99%. Essa elevada acurácia foi possível devido à cuidadosa elaboração de requisitos pela área de negócio - a Secretaria de Gestão de Pessoas (Seproc) - em estreita colaboração com a área técnica - a Secretaria de Tecnologia da Informação (STI).

De igual importância foi a integração da solução de NLP com os sistemas corporativos de registro e acompanhamento desses atos, o que permite efetivamente otimizar os processos repetitivos de trabalho. Os sistemas utilizam as linguagens Java e PL/SQL, banco de dados Oracle e ferramenta APEX e a integração se faz por meio de chamadas de serviços REST e serviços de mensageria elaborada em Kafka.

Merece destaque que o impacto desse projeto – detalhado a seguir – deve-se menos à complexidade da solução de análise de dados em si e mais à parceria entre a área de negócio e a área de TI e à integração da solução algorítmica com os sistemas corporativos utilizados no cotidiano pelos servidores impactados.

Impacto:

Inicialmente, foi implementada uma solução de automatização parcial que ainda exigia conferência manual da classificação sugerida pelo algoritmo. Com base nos ótimos resultados observados, a Seproc sugeriu que se avançasse para uma segunda fase de automatização total, sem a necessidade de leitura e verificação humana. Para confirmar o alto nível de acurácia, a STI realizou uma análise em que se comparou a classificação pelo algoritmo dos acórdãos automatizáveis entre 2012 e junho de 2021 com a classificação efetivamente registrada no sistema. Os resultados finais foram surpreendentes e confirmaram a decisão pela automatização total da solução, que está sendo implementada.

A acurácia do algoritmo foi de 99,95%, pois dos 139.304 acórdãos passíveis de classificação automática, apenas 78 foram classificados incorretamente pelo algoritmo. Constatou-se que houve 174 erros humanos de classificação no mesmo período, considerando o mesmo conjunto de acórdãos. Desse modo, o desempenho do algoritmo pode ser considerado super-humano.

Como nesse mesmo período houve um total de aproximadamente 244.000 acórdãos publicados, percebe-se que 57% de todos os acórdãos produzidos pelo Tribunal passarão a ter suas deliberações registradas automaticamente, trazendo um potencial de economia e de redução dos recursos humanos equivalente a 3 ou 4 servidores.

Use os botões abaixo para votar:

Avaliação do impacto nas notas da Prova Brasil

Proposta em 19 de Agosto de 2021 às 17:59.

Esta apresentação origina-se de uma auditoria operacional focada no princípio da efetividade, e teve como objetivo analisar o impacto decorrente da adoção de livros didáticos privados para a rede de ensino fundamental de um município do Sul do Brasil. Para tanto, uma ferramenta de avaliação conhecida como diferença-em-diferenças foi aplicada aos dados do Sistema Brasileiro de Avaliação da Educação Básica, revelando o impacto, nas notas das escolas municipais, decorrente da utilização de material didático diferente do fornecido gratuitamente pelo governo federal.

Foram definidos dois grupos: de tratamento e de controle, e comparadas as notas das provas de matemática e de português.

O resultado da avaliação revelou que, após 6 anos da adoção de livros didáticos a um custo de mais de R$ 25 milhões para o município, houve um impacto positivo nas notas médias do 5^o ano do ensino fundamental de 1,33% em Português e de 0,57% em Matemática.

Use os botões abaixo para votar:

Boletins econômicos: ferramenta de apoio às políticas públicas e transparência.

Proposta em 9 de Setembro de 2021 às 10:12.

Tipo de proposta: Apresentação.

Título da apresentação: Boletins econômicos: ferramenta de apoio às políticas públicas e transparência.

Foco principal da apresentação: Técnico.

Fase do trabalho apresentado: Trabalho em andamento.

Descrição da apresentação: O “Boletim Econômico - Belo Horizonte” é fruto do trabalho do Núcleo de Inteligência e Pesquisas Econômicas da Secretaria Municipal de Desenvolvimento Econômico e tem por objetivo sistematizar e publicar, desde setembro de 2019, dados econômicos sobre o Município de Belo Horizonte, tais como emprego, ambiente de negócios e comércio exterior, como forma de contribuir para a disseminação de informações sobre a economia belo-horizontina.

Para o boletim mensal de empregos são utilizados microdados do CAGED, tratados e analisados através do software R com scripts já formulados pelo Núcleo com vistas à padronizar e otimizar processos repetitivos. Quanto ao boletim mensal de empresas são utilizados os dados do Cadastro Municipal de Contribuintes (CMC), analisados também com o R e que conta com recurso geotecnológico chamado BHMAP, que colabora para a visualização de dados de atividades econômicas de acordo com a área de interesse no município. E por fim, as análises trimestrais de comércio exterior utilizam a plataforma COMEXSTAT mantida pelo Ministério da Indústria, Comércio Exterior e Serviços (MDIC).

A utilização desses dados colabora para a divulgação de dados sobre questões relevantes para o desenvolvimento econômico da cidade e, por consequência, de maior transparência por parte da administração pública para com seus cidadãos, que podem ter dificuldades quanto ao acesso e tratamento dos dados. Além disso, os dados são utilizados para demandas específicas da Secretaria como ferramenta de apoio decisório e de avaliação das políticas públicas municipais.

O impacto desse tipo de iniciativa reside em dois pontos: políticas baseadas em evidências e transparência do poder público. O primeiro diz respeito sobre o respaldo quantitativo das iniciativas da Secretaria ao propor e analisar políticas públicas. E o segundo quanto à participação do setor público no compartilhamento de informações relevantes para a população.

Detalhes técnicos: Software R.

Use os botões abaixo para votar:

COMORBUSS - Simulador bio-social de agentes para análise epidemiológica, governado pela dinâmica comunitária.

Proposta em 3 de Outubro de 2021 às 18:04.

- tipo de proposta: apresentação (20 minutos)

- título da apresentação/oficina: COMORBUSS - Simulador bio-social de agentes para análise epidemiológica, governado pela dinâmica comunitária.

- foco principal da apresentação: técnico

- fase do trabalho apresentado: estudo de caso com resultados práticos;

- descrição da apresentação ;

Neste trabalho descrevemos os resultados de simulações computacionais científicas utilizando o modelo de agentes COMORBUSS e calibradas com dados reais de infecções da COVID-19 na cidade de Maragogi/AL. Em particular, investigamos o impacto da reabertura de aulas presenciais em escolas do ensino fundamental quantificando numericamente o número esperado de infectados dentro da comunidade escolar (estudantes, professores e demais funcionários da escola). Destacamos que as salas de aula nas escolas estudadas são fechadas e contam com aparelhos de ar condicionado para circulação; isto propicia o contágio por aerossóis acumulados. Garantir a ampla circulação aérea é uma medida essencial. Foram considerados 4 cenários e 6 ações: 1) Cenário A - Contágio comunitário com escolas fechadas; 2) Cenário B - Reabertura com turmas e horários reduzidos: turno escolar de 2 horas, turmas separadas em dois grupos, com aulas presenciais em dias intercalados. 3) Cenário C - Reabertura reduzida com funcionários imunes: turno escolar de 2 horas, turmas separadas em dois grupos, com aulas presenciais em dias intercalados, funcionários imunizados. 4) Cenário D - Reabertura reduzida com monitoramentos e fechamentos temporários: turno escolar de 2 horas, turmas separadas em dois grupos, com aulas presenciais em dias intercalados, estudantes são testados e isolados (14 dias) quando sintomáticos ou quando familiar for confirmado positivo, se estudante for confirmado positivo, seu grupo é suspenso por 14 dias, se mais de um grupo apresentar estudantes positivos, a escola é fechada por 7 dias. Os principais resultados obtidos foram:

● Uma reabertura sem nenhuma medida de monitoramento, mesmo com turmas reduzidas, pode aumentar o total de infectados na população escolar em até 270% em 80 dias de funcionamento escolar. Redução de atividades e turmas claramente não é suficiente para garantir retomada segura de atividades presenciais.

● Vacinação de profissionais é uma medida essencial para potencializar o efeito da redução de turmas (Cenário C). Ainda assim, somente a imunização de funcionários não é suficiente para barrar a cadeia de contágio em ambiente escolar: o número de infecções na comunidade escolar aumenta em 178% quando comparado à situação de escolas fechadas.

● Nossas simulações indicam que um protocolo de monitoramento ativo, com detecção e isolamento de casos, aliado a atividades reduzidas (Cenário D) mostra-se bastante seguro, tendo aumento relativo de casos de 18% em comparação com o cenário A de escolas fechadas. No entanto, as simulações indicam que com este protocolo as escolas passam em média 40% do tempo fechadas. Levando em conta o fechamento extra de turmas, cada aluno teve em média apenas 2,5 horas de aula semanais. Assim, o início de aulas presenciais sem medidas de monitoramento de casos e protocolo de resposta podem oferecer riscos à comunidade escolar (funcionários das escolas e estudantes) e potencialmente agravar a situação do sistema de saúde. Além de protocolos de higiene e uso de máscaras, as escolas precisam estar preparadas para detectar casos dentro do ambiente escolar, pois eles inevitavelmente aparecerão em estudantes, professores e demais funcionários.

principal linguagem usada: python

Use os botões abaixo para votar:

Conflito de Interesses (Lei 12.813/2013): Contratos, Parentes e Grafos

Proposta em 24 de Setembro de 2021 às 23:52.

Conforme estabelecido na Lei Federal nº 12.813/2013, conflito de interesses é a situação gerada pelo confronto entre interesses públicos e privados, que possa comprometer o interesse coletivo ou influenciar, de maneira imprópria, o desempenho da função pública.

Para o cumprimento dessa lei, o empregado da Administração Pública não deve se envolver direta ou indiretamente em qualquer atividade conflitante com os interesses de sua companhia, independente da existência de lesão ao patrimônio público, bem como do recebimento de qualquer vantagem ou ganho pelo agente público ou por terceiro.

Dessa forma, por exemplo, o empregado não deve:
1. divulgar indevidamente informações privilegiadas;
2. exercer atividades incompatíveis com as atribuições de seu cargo ou emprego;
3. aceitar presentes de quem tenha interesse em suas decisões enquanto agente público;
4. praticar atos que beneficiem pessoa jurídica em que ele ou seu parente (consanguíneo ou afim, até 3º grau) participe.

No escopo dessa última situação (item 4), será apresentado um Estudo de Caso com resultados práticos cujo objetivo foi identificar relações de parentesco entre empregados envolvidos na gestão ou fiscalização de contratos e sócios/responsáveis ou terceiros das respectivas empresas contratadas.

No trabalho, foram utilizados conceitos e algoritmos da Teoria de Grafos para identificar as possíveis situações de conflito de interesses, mediante a análise da rede de relacionamentos entre empregados, contratos, fornecedores, sócios/responsáveis e terceiros.

As bibliotecas pandas, nltk, multiprocessing e igraph da linguagem Python foram úteis para tratar e conciliar os dados coletados e processar o grafo instanciado. O grafo foi modelado com dados provenientes de bases internas relacionadas às contratações corporativas e da base externa de Dados Públicos CNPJ, disponibilizada pela Receita Federal. A Plataforma Knime foi utilizada para orquestrar o fluxo de dados.

Tipo de Proposta: Apresentação.

Foco Principal: Técnico, para facilitar a realização de trabalhos semelhantes por analistas e cientistas de dados.

Use os botões abaixo para votar:

Construindo classificadores de endereços

Proposta em 3 de Outubro de 2021 às 16:11.

- Tipo: apresentação

Foco: a apresentação abrangerá aspectos gerenciais e técnicos.

- título da apresentação/oficina: Construindo classificadores de endereços

- foco principal da apresentação: técnico

- fase do trabalho apresentado: projeto em curso;

descrição da apresentação (em até 2000 caracteres sem espaço).

Este projeto visa identificar inconsistências no preenchimento de endereços e padronizá-los formando uma base de dados confiável para o TJ/AL. A dificuldade em formar uma base consistente reside no fato de que muitas vezes seu preenchimento pode conter erros ortográficos, dados incorretos e até mesmo ausência de informações essenciais na localização. Além disso, endereços são por diversas vezes modificados, por exemplo, quando uma rua é renomeada, causando assim a desatualização de uma base de dados antes confiável.

Identificando este problema, nosso projeto busca identificar automaticamente tais inconsistências e padronizar estes endereços. Para isso, uma vez coletados estes endereços fazemos uma limpeza nos dados fornecidos, em seguida estes dados são separados de modo a gerar listas que poderão ser verificadas usando um banco de dados consistente.

Em um levantamento que realizamos nos processamentos em andamento da 15ª vara de execuções fiscais, detectamos inconsistências em 19,22% dos endereços, como revelado na tabela abaixo. Foram analisados 62.360 endereços em processos em andamento na 15ª vara. Nessa base de endereços, constatamos que:

Sem número	522	0,83%
Número 0	2399	3,84%
Sem logradouro	128	0,2%
Sem CEP	903	1,44%
CEP genérico (57000, 57, ...)	7123	11,42%
Rua projetada	913	1,46%
TOTAL	62.360	19,22%

Com nossa metodologia identificamos que os principais erros de preenchimento ocorrem no logradouro, bairro e, principalmente, no número informado. Em números concretos, entre 569 endereços verificados nos quais identificamos inconsistências, em 334 isto ocorria no logradouro, em 273 no bairro e, em 467 no número.

Para a padronização dos endereços, após algumas análises, escolhemos o algoritmo de Hidden Markov Model (HMM), que foi utilizado para analisar e padronizar endereços do Sistema Postal Australiano. Buscando também a melhor abordagem deste problema, escolhemos utilizar a aprendizagem não-supervisionada. Experimentos iniciais mostram que nosso sistema é capaz de padronizar até mesmo endereços complexos.

Estamos desenvolvendo também algoritmos de visão computacional para extrair informações de avisos de recebimento dos Correios.

principais algoritmos usados: Algoritmos de embedding de palavras, métricas de caracteres, Hidden Markov Models, Yolo, Tesseract, redes neurais, Linguagem usada: python

Use os botões abaixo para votar:

Controle Social, Tribunais de Contas e Jurimetria: um estudo sobre as denúncias apresentadas ao Tribunal de Contas da União

Proposta em 6 de Agosto de 2021 às 21:25.

O tema deste estudo é o Controle Social que se realiza através dos Tribunais de Contas. O objeto são as denúncias apresentadas ao Tribunal de Contas da União (TCU). As perguntas que este estudo pretende responder são: Como se distribuem as decisões do TCU em relação ao ano de processo, ano do julgado, duração do processo, relator e atuação do Ministério Público? Como estas variáveis independentes explicam as decisões? O objetivo da pesquisa é descrever e explicar os julgados das denúncias apresentadas ao TCU. A pesquisa se justifica na medida em que o estudo da aplicação da lei contribui para o aperfeiçoamento legislativo e o planejamento das auditorias dos Tribunais de Contas através de matrizes de risco baseadas em evidências. Trata-se de uma pesquisa quantitativa que utiliza a Jurimetria, a Estatística aplicada ao Direito, através de técnica documental na sessão de jurisprudência do TCU. Apresenta como resultados descrições e um modelo explicativo.

A presente pesquisa é um estudo quantitativo que utiliza técnica de pesquisa documental com base na Jurimetria, que é a estatística aplicada ao direito. Foram pesquisados, na seção de jurisprudência do sítio eletrônico do TCU, acórdãos de processos do tipo denúncia, até a sessão 26 de agosto de 2020. A pesquisa resultou em 1.856 acórdãos.

No resultado da busca foram aplicados vários filtros, utilizando o software estatístico R versão 4.0.0. Foi aplicado um primeiro filtro, no conjunto inicial de 1.856 julgados, separando-se apenas os processos que continham no sumário uma decisão pela procedência ou improcedência, resultando num grupo de 677 acórdãos. Neste conjunto foi aplicado um segundo filtro, retirando-se os acórdãos relativos a recursos (pedidos de reexame, agravos de instrumento e embargos de declaração), chegando-se a um novo lote de 591 julgados a ser analisado.

software R

Estatítica Descritiva

Estatística Inferencial

Regressão Logística

Use os botões abaixo para votar:

CORRUPÇÃO, TRIBUNAIS DE CONTAS E JURIMETRIA: Proposta de um sistema de indicadores de corrupção baseado em dados do Tribunal de Contas da União

Proposta em 6 de Agosto de 2021 às 21:58.

O objetivo deste trabalho é propor e construir um sistema de indicadores brasileiros, objetivos e regionais de corrupção com base no cadastro de contas julgadas irregulares do Tribunal de Contas da União (TCU). O estudo é quantitativo, e utiliza a Jurimetria, que é a Estatística aplicada ao Direito. A pesquisa usa técnica documental, sendo que os documentos eletrônicos foram coletados junto ao TCU. O trabalho se justifica na medida em que é necessário ter um sistema de indicadores brasileiros, regionais e objetivos para permitir comparações entre estados e ao longo do tempo, para planejar, analisar e controlar políticas públicas de combate à corrupção. Ao final é proposto o CIPM (contas irregulares por milhão de habitantes) e o VDPM (valor dos débitos por milhão de reais do Produto Interno Bruto), como um sistema de indicadores de corrução que atendem às características almejadas.

METODOLOGIA

A base de dados usada para este estudo foi a planilha Relação de condenações com contas julgadas irregulares, fornecida em 01 de junho de 2021, como resposta à demanda nº 338432, enviada à Ouvidoria do Tribunal de Contas da União (TCU) em 22 de abril de 2021. Esta planilha tem 60.493 linhas referentes a contas julgadas irregulares, e 10 colunas: Unidade da Federação do responsável, Município do responsável, número do processo, tipo de deliberação (multa ou débito), número do acórdão, data da apreciação, data do trânsito em julgado, tipo de responsabilidade (individual ou solidária), valor na data da apreciação e valor atualizado. Os registros de condenações se referem a contas julgadas irregulares transitadas em julgado a partir de 1/1/2000. Os dados foram extraídos em 30/04/2021, correspondentes a 95% do total de registros existentes. As Unidades da Federação e Municípios são referentes ao domicílio do responsável em 30/04/2021, conforme registrado na base de dados da Receita Federal do Brasil.

Desta planilha foram retiradas as contas com trânsito em julgado em 2021, para se analisar o período de 20 anos, entre 2001 e 2020, resultando numa nova base de 60.011 contas. Para se calcular o valor dos débitos foi aplicado um primeiro filtro separando os valores atualizados apenas para o tipo de deliberação débito (eliminando as multas, portanto) e um segundo filtro eliminando a multiplicidade de valores referentes à mesma responsabilidade solidária, resultando numa base de valores de débitos com 21.064 contas. Os dados referentes à estimativa das populações de 2001 a 2020 e aos Produtos Internos Brutos (PIB), a preços correntes, para de 2001 a 2018 (informação mais recente disponível em 28/06/2021), foram coletados no sítio eletrônico do Instituto Brasileiro de Geografia e Estatística.

As quantidades de contas julgadas irregulares pelo TCU, e seus respectivos valores dos débitos, por UF, são estatísticas públicas que tem boa aproximação do conceito de corrupção. Por isto optou-se por construir um sistema de dois indicadores baseados nas quantidades e no valor dos débitos das contas julgadas irregulares por UF. Adotou-se o ano do trânsito em julgado das contas julgadas irregulares como o ano base do indicador de corrupção. Para efeitos comparativos, as quantidades absolutas de contas julgadas irregulares e o valor absoluto dos respectivos débitos não são bons indicadores regionais de corrupção porque as UF têm diferentes tamanhos e, obviamente, espera-se que as UF maiores tenham maiores quantidades e valores de débitos de contas irregulares, o que não significa, obrigatoriamente, que elas tenham maior nível de corrupção. Por isto, optou-se por dividir as quantidades de contas irregulares pela população da UF, uma estatística que representa o tamanho da UF. Da mesma forma, os valores dos débitos foram divididos pelo Produto Interno Bruto (PIB) da respectiva UF. Tanto a população quanto o PIB são estatísticas de fácil obtenção junto ao sítio do Instituto Brasileiro de Geografia e Estatística (IBGE), e as estimativas têm periodicidade anual, validade, consistência e segurança de continuidade de publicação.

Propõe-se então, como sistema de indicadores de corrupção brasileiro, objetivo e regional, o CIPM, que é a quantidade de contas julgadas irregulares pelo TCU por milhão de habitantes da UF e o VDPM, o valor do débito das contas julgadas irregulares por milhão de reais do PIB da UF.

Software R

Estatística Descritiva

Use os botões abaixo para votar:

Corrupção, Tribunais de Contas e Jurimetria: um estudo sobre os Municípios do Estado do Ceará

Proposta em 6 de Agosto de 2021 às 11:16.

Apresentação

O objetivo deste trabalho é construir indicadores de corrupção para os Municípios do Estado do Ceará de no período de 2001 a 2020. Para tal são utilizados dois indicadores propostos pelo autor, baseados num cadastro de contas julgadas irregulares fornecido pelo Tribunal de Contas da União (TCU). Os indicadores são o CIPDK (quantidade de contas irregulares para cada dez mil habitantes do Município) e o VDPM (valor do débito das contas irregulares para cada milhão de reais do produto interno bruto do Município). A pesquisa é documental e utiliza para a coleta, tratamento e análise de dados a Jurimetria, que é a Estatística aplicada ao Direito. O estudo se justifica na medida que a construção de indicadores municipais de corrupção é fundamental para planejar e monitorar políticas públicas de combate à corrupção. Os objetivos do trabalho são atingidos, uma vez que os indicadores são apresentados ao final do trabalho.

Desta planilha foram retiradas as contas com trânsito em julgado em 2021, para se analisar o período de 20 anos, entre 2001 e 2020, resultando numa nova base de 60.011 contas. Para se calcular o valor dos débitos foi aplicado um primeiro filtro separando os valores atualizados apenas para o tipo de deliberação débito (eliminando as multas, portanto) e um segundo filtro eliminando a multiplicidade de valores referentes à mesma responsabilidade solidária, resultando numa base de valores com 21.064 contas. Os dados referentes à estimativa das populações para 2020 e a Produto Interno Bruto (PIB), a preços correntes, para 2018 (informação mais recente disponível em 28/06/2021), foram coletados no sítio eletrônico do Instituto Brasileiro de Geografia e Estatística.

Os dados foram agregados foram agregados resultando numa planilha com os 3.348 Municípios (linhas), dentre o total de 5.586, que possuem pelo menos uma conta irregular, e as seguintes colunas: Município, Unidade da Federação, quantidade de contas julgadas irregulares, valor total dos débitos das contas julgadas irregulares, estimativa da população para 2020, PIB de 2018, CIPDK (contas irregulares para cada dez mil habitantes em 2020) e VDPM (valor do débito para cada milhão de reais do PIB 2018). Finalmente foi aplicado um filtro separando os 152 Municípios do Estado do Ceará, dentre o total de 196, que possuem contas irregulares.

software: R

Estatística Descritiva

Município	Contas Irregulares	população	CIPDK
Baixio	20	6.303	32
Pacujá	16	6.549	24
Ibaretama	29	13.369	22
Caridade	43	22.782	19
Umari	11	7.736	14
Antonina do Norte	10	7.378	14
Icó	86	68.162	13
Granjeiro	6	4.814	12
Palhano	11	9.422	12
Moraújo	10	8.779	11
Quiterianópolis	24	21.166	11
Ibicuitinga	14	12.629	11
Barbalha	63	61.228	10
Campos Sales	28	27.470	10
Jati	8	8.130	10
Iracema	14	14.326	10
Monsenhor Tabosa	15	17.249	9
Solonópole	15	18.357	8
Tarrafas	7	8.573	8
Ipaumirim	10	12.485	8
Eusébio	43	54.337	8
Uruburetama	17	22.040	8
Saboeiro	12	15.788	8
Varjota	14	18.471	8
Alto Santo	12	17.196	7

Use os botões abaixo para votar:

CORRUPÇÃO, TRIBUNAIS DE CONTAS E JURIMETRIA: UM ESTUDO SOBRE OS MUNICÍPIOS DO ESTADO DO MATO GROSSO

Proposta em 6 de Agosto de 2021 às 21:38.

O objetivo deste trabalho é construir indicadores de corrupção para os Municípios do Estado do Mato Grosso de no período de 2001 a 2020. Para tal são utilizados dois indicadores propostos pelo autor, baseados num cadastro de contas julgadas irregulares fornecido pelo Tribunal de Contas da União (TCU). Os indicadores são o CIPDK (quantidade de contas irregulares para cada dez mil habitantes do Município) e o VDPM (valor do débito das contas irregulares para cada milhão de reais do produto interno bruto do Município). A pesquisa é documental e utiliza para a coleta, tratamento e análise de dados a Jurimetria, que é a Estatística aplicada ao Direito. O estudo se justifica na medida que a construção de indicadores municipais de corrupção é fundamental para planejar e monitorar políticas públicas de combate à corrupção. Os objetivos do trabalho são atingidos, uma vez que os indicadores são apresentados ao final do trabalho.

Desta planilha foram retiradas as contas com trânsito em julgado em 2021, para se analisar o período de 20 anos, entre 2001 e 2020, resultando numa nova base de 60.011 contas. Para se calcular o valor dos débitos foi aplicado um primeiro filtro separando os valores atualizados apenas para o tipo de deliberação débito (eliminando as multas, portanto) e um segundo filtro eliminando a multiplicidade de valores referentes à mesma responsabilidade solidária, resultando numa base de valores com 21.064 contas. Os dados referentes à estimativa das populações para 2020 e a Produto Interno Bruto (PIB), a preços correntes, para 2018 (informação mais recente disponível em 28/06/2021), foram coletados no sítio eletrônico do Instituto Brasileiro de Geografia e Estatística.

Os dados foram agregados foram agregados resultando numa planilha com os 3.348 Municípios (linhas), dentre o total de 5.586, que possuem pelo menos uma conta irregular, e as seguintes colunas: Município, Unidade da Federação, quantidade de contas julgadas irregulares, valor total dos débitos das contas julgadas irregulares, estimativa da população para 2020, PIB de 2018, CIPDK (contas irregulares para cada dez mil habitantes em 2020) e VDPM (valor do débito para cada milhão de reais do PIB 2018). Finalmente foi aplicado um filtro separando os 106 Municípios do Estado do Mato Grosso, dentre o total de 141, que possuem contas irregulares.

Software: R

Estatística Descritiva

mostra os 25 Municípios do estado do Mato Grosso com maior CIPDK.

Tabela 2 – Ranking do Corrupção (CIPDK)

Município	Contas Irregulares	população	CIPDK
Luciara	20	2.058	97
Araguainha	5	946	53
Nova Marilândia	12	3.304	36
Vale de São Domingos	8	3.126	26
Lambari D'Oeste	15	6.186	24
Arenápolis	21	9.502	22
Rio Branco	9	5.150	17
Rondolândia	7	4.036	17
Nova Guarita	7	4.464	16
Marcelândia	16	10.301	16
Salto do Céu	5	3.295	15
Planalto da Serra	4	2.649	15
Alta Floresta	76	51.959	15
Alto Boa Vista	10	6.936	14
Torixoréu	5	3.547	14
Jauru	12	8.582	14
Castanheira	12	8.749	14
Itaúba	5	3.704	13
Tesouro	5	3.824	13
Ribeirãozinho	3	2.422	12
Chapada dos Guimarães	23	19.453	12
Cuiabá	707	618.124	11
Campinápolis	18	16.919	11
Pontal do Araguaia	7	6.843	10
São Félix do Araguaia	12	11.843	10

Use os botões abaixo para votar:

Detecção de anomalias com Autoencoders

Proposta em 12 de Agosto de 2021 às 11:00.

Oficina Detectando anomalias com autoencoders 🤖
===================

Tempo da oficina: 3 horas

Veja mais! 👇👇👇👇👇👇👇👇👇👇👇👇

Detectar anomalias é sempre um trabalho árduo e complicado, na maioria das vezes existe um desbalanceamento do dataset que é prejudicial para trabalhos de aprendizagem supervisionada. Uma abordagem que vem crescendo nos últimos anos é a utilização de autoencoders para essa detecção, removendo assim, a necessidade de extensiva supervisão humana e reduzindo drasticamente os custos do projeto. O uso de autoencoders é vantajoso porque, além de outros motivos, a mesma rede treinada pode ser utilizada para detcção de anomalias e também para redução de dimensionalidade (parte encoder do decoder).

Nessa oficina vamos aprender a criar, treinar e avaliar autoencoders para detecção de anomalias. Utilizaremos dados simulados e também dados públicos abertos (TBD) para demonstrar a efetividade da arquitetura em trabalhos de detecção de anomlias, além disso, outras arquiteturas de autoencoders serão apresentadas (autoencoders convolucionais) e teremos tempo dedicado somente para a utilização destes autoencoders para redução de dimensionalidade.

Ementa:

1. O que são anomalias?

2. Métodos para decteção de anomalias.

3. O que, como e para que usar autoencoders.

4. Criando um autoencoder.

5. Definindo um score de anomalia.

6. Encontrado anomalias.

7. Utilizando o encoder (do autoencoder)

8. Dúvidas

Pré-requisitos: curiosidade, vontade de aprender, conhecimentos em keras e python 🐍

Vamos juntos aprender um pouco mais sobre autoencoders? Vem comigo! 😉

Use os botões abaixo para votar:

Detecção de barragens de rejeito de minério utilizando imagens de satélite e inteligência artificial

Proposta em 16 de Setembro de 2021 às 13:56.

Devido à grande prevalência de atividades de mineração em algumas regiões do Brasil, o monitoramento de barragens de rejeitos de minério é uma questão muito sensível, agravada ainda mais pelos recentes desastres no estado de Minas Gerais. De acordo com relatórios oficiais elaborados pelas autoridades brasileiras sobre as barragens existentes no território brasileiro, vários problemas foram observados. Algumas barragens catalogadas não têm seu estado de conservação atualizado com a frequência ideal. Várias barragens existentes não estão sequer mapeadas (desconhecidas pelas autoridades).
Em países continentais como o Brasil, uma dificuldade óbvia é monitorar todo o território por meio de visitas in loco.
Nesse sentido, o uso de tecnologias de sensoriamento remoto tem papel fundamental, proporcionando escala geográfica para tarefas de auditoria e controle externo.
Mesmo assim, o processamento da grande quantidade de imagens por meio da inspeção visual torna o processo oneroso, por isso é fundamental automatizar a extração de informações visuais por meio de técnicas computacionais, como as baseadas em Redes Neurais Convolucionais (CNNs).
Nós, do laboratório de Reconhecimento de Padrões e Observação da Terra (PATREO) da UFMG, em parceria com o TCU e as OLACEFs enfrentamos os desafios de detectar barragens de rejeitos em grande escala geográfica por meio de imagens de sensoriamento remoto. Propusemos um arcabouço que permite a detecção de barragens no Brasil, levando em consideração as especificidades de domínio geográfico. Nosso arcabouço também permite que usuários avançados melhorem os modelos de detecção, fornecendo feedback para as previsões obtidas. Alguns resultados obtidos podem ser acessados diretamente em: http://patreodam.dcc.ufmg.br/

Use os botões abaixo para votar:

Detecção de manchas de petróleo no litoral de Alagoas usando imagens de drones e redes neurais

Proposta em 3 de Outubro de 2021 às 16:40.

- tipo de proposta: apresentação (20 minutos)

- título da apresentação/oficina: Detecção de manchas de petróleo no litoral de Alagoas usando imagens de drones e redes neurais

- foco principal da apresentação: técnico

- fase do trabalho apresentado: estudo de caso com resultados práticos;

Descrição:

Derramamentos de óleo marinho podem ter consequências devastadoras para o meio ambiente, a economia e a sociedade.
 A crise do derramamento de óleo de 2019 na costa nordeste brasileira exigiu ações imediatas para controlar e mitigar 
os impactos da poluição. Nesta carta, propomos uma abordagem baseada em Deep Learning para inspecionar praias com 
eficiência e auxiliar as equipes de resposta usando imagens de drone por meio de um sistema visual de baixo custo. 
As imagens coletadas por Drones por meio de um levantamento aéreo são divididas e avaliadas por uma Rede Neural 
Convolucional. Os resultados são então integrados em mapas de calor, que são explorados para realizar análises 
visuais geoespaciais. Experimentos foram realizados para validar e avaliar os classificadores, alcançando uma 
precisão de até 93,6% e uma pontuação F1 de 78,6% para os modelos mais bem treinados. Também descrevemos um 
estudo de caso para demonstrar que nossa abordagem pode ser usada em situações do mundo real.

principais algoritmos usados: redes neurais. Linguagem usada: python

Use os botões abaixo para votar:

Detecção de sobrepreço de compras públicas a partir de notas fiscais

Proposta em 3 de Outubro de 2021 às 15:35.

- tipo de proposta: apresentação (20 minutos)

- título da apresentação/oficina: Detecção de sobrepreço de compras públicas a partir de notas fiscais

- foco principal da apresentação: técnico

- fase do trabalho apresentado: proposta em estudo para implementação;

O presente trabalho é resultado de um esforço de quatro dias durante o 70 Workshop de Soluções Matemáticas para Problemas Industriais, realizado pelo Centro PI/IMPA e CEMEAI/USP. O problema abordado “Detecção de Sobrepreços Através de Notas Fiscais” foi proposto pelo Ministério Público da Paraíba, onde foi analisada uma base de dados de 2.089.317 notas fiscais, emitidas por 9.384 empresas relativas à compras de itens para 1.168 órgãos públicos da Paraíba, durante o ano de 2016.

Ao fim do workshop os algoritmos e técnicas desenvolvidas resultaram em indicativos de que há um potencial para a otimização do trabalho preventivo de detecção de sobrepreço feito pelas comissões de licitação, bem como do trabalho de fiscalização dos órgãos de controle, o que pode gerar uma economia gigantesca para os cofres públicos. Como resultados preliminares desse trabalho, que apesar de bastante interessantes precisam ainda de aprimoramento para serem usados no dia-a-dia através de integrações com as bases de dados de notas fiscais, destacamos:

O grande potencial no uso de técnicas de processamento de linguagem natural (PLN) para ordenar e melhorar as informações constantes nas notas fiscais, agrupando itens iguais, através do uso de campos como Descrição e Unidade;

O uso de dicionários construídos com o uso de métricas de caracteres e regras pode melhorar substancialmente a qualidade dos dados;

A viabilidade de técnicas probabilísticas como Misturas Gaussianas baseadas no campo de preço unitário deve ser analisada como complementar (quando não houver descrição, por exemplo) ou alternativa (se a eficiência for maior) às técnicas de PLN, para servir como modelo de aprendizagem de máquina para clusterização ou classificação de itens;

Visualização de políticas de preço praticadas por uma dada empresa em um conjunto de municípios na venda de um determinado item podem aumentar a eficácia da análise do sobrepreço;

Visualização de uma rede entre as empresas que vendem para um conjunto de municípios um determinado item com possível sobrepreço podem aumentar a eficácia da análise do sobrepreço;

Visualização de uma rede de relações entre empresas, municípios e candidatos políticos que são sócios das empresas.

Em face dos resultados preliminares, do potencial evidenciado e da importância do tema nas investigações para detecção de fraudes envolvendo compras governamentais, sugere-se a formalização de acordos de cooperação entre universidades e órgãos de investigação para ampliar os estudos e viabilizar a aplicação de técnicas de ciência de dados no combate às fraudes.

- detalhes técnicos: métodos estatísticos ou modelos de aprendizagem utilizados; softwares e linguagens de programação utilizados;

principais algoritmos usados: Algoritmos de embedding de palavras, métricas de caracteres, redes neurais, Misturas gaussianas. Linguagem usada: python

Use os botões abaixo para votar:

ENTRE MAÇÃS, CESTOS E POMARES: padrões de desvio de conduta que ensejam a exclusão do policial militar.

Proposta em 14 de Setembro de 2021 às 13:01.

Tipo de Proposta: Apresentação.

Os desvios de conduta que ensejam a exclusão do policial militar no Estado do Rio de Janeiro devem ser considerados como estratégicos. Pois, além de aviltar a imagem da corporação e tender a uma possível sistematização, minam a efetividade operacional e mitigam o próprio pacto social preestabelecido.

Destarte, objetiva-se apresentar análise dos padrões infracionais que culminam na retirada do policial das fileiras da corporação a bem da disciplina; para tanto, limitando-se a analisar as exclusões entre os anos de 2015 e 2019 (05 anos).

Dos Resultados:

Logrou-se em descobrir que mais da metade das exclusões são decorrentes de infrações com dano considerado predatório, tendentes à sistematização e interação com demais estruturas públicas e privadas. Foi realizado análise de risco de tais condutas corruptivas, identificando e categorizando as Unidades.

Outrossim, foi feito a identificação em rede, apresentando o risco e influência de cada Unidade nas demais, com base no histórico de movimentações do policial antes de ser excluído; os resultados sugerem que as Unidades tendem à homofilia e as métricas de rede podem ser utilizadas subsidiariamente na avaliação de risco.

Detalhes técnicos:

Para o presente estudo utilizou-se de estatísticas descritivas, análise de risco e de teorias e métodos de ciência de redes (network analysis).

Foram utilizados os seguintes softwares:

- Linguagem de programação R no ambiente RStudio;

- Gephi 0.9.2 (software para visualização, análise e manipulação de redes e grafos)

O estudo foi apresentado no Curso de Aperfeiçoamento de Oficiais (CAO) da Escola Superior de Polícia Militar (ESPM) da Secretaria de Estado de Polícia Militar (SEPM).

Tópicos de interesse:

Detecção de padrões e relacionamentos úteis à formulação ou execução de políticas públicas;

Priorização, por critérios de risco, urgência ou importância, de casos para auditoria, análise ou investigação pelo poder público;

Análise de redes (network analysis).

Use os botões abaixo para votar:

Ferramenta de Análise de Risco de Ouvidoria: processamento de linguagem natural para automatizar a análise de denúncias

Proposta em 29 de Julho de 2021 às 16:41.

A Ouvidoria Geral da União (OGU), ligada à Controladoria-Geral da União (CGU), recebe uma série de denúncias que precisam ser analisadas e apuradas. As denúncias chegam por intermédio do sistema Fala.BR. Esse sistema permite que os cidadãos façam denúncias sobre irregularidades que estão acontecendo na Administração Pública Federal. Essas denúncias podem vir acompanhadas de arquivos anexos que são utilizados para acrescentar outras informações a respeito dos fatos narrados.

No entanto, para saber se tais denúncias reúnem o mínimo de requisitos para o prosseguimento do rito apuratório, faz-se necessária a identificação, validação e análise das situações narradas. Essa checagem exige um grande esforço e dispêndio de tempo por parte de servidores da Ouvidoria Geral da União. Ao final dessa análise, as denúncias são classificadas como Aptas ou Não Aptas, sendo que, as denúncias Aptas seguem o rito normal de apuração.

A Ferramenta de Análise de Risco de Ouvidoria utiliza técnicas de processamento de linguagem natural e aprendizado de máquina para automatizar a análise de denúncias e identificar se há informações suficientes para que possam seguir com o rito de apuração. A ferramenta está atualmente integrada ao sistema Fala.BR produzindo scores diariamente para novas denúncias permitindo a automatização no seu tratamento.

A apresentação abordará uma definição abrangente do problema, as decisões e abordagens técnicas empregadas e os resultados obtidos.

Tipo de Proposta:
=====================
Apresentação

Use os botões abaixo para votar:

Fiscalização contínua de folhas de pagamento a partir de cruzamentos de bases de dados governamentais

Proposta em 31 de Agosto de 2021 às 12:43.

Tipo de proposta: apresentação.

Foco: a apresentação abrangerá aspectos gerenciais e técnicos.

Fase do Trabalho: a fiscalização é contínua, está no 7º ciclo. Pretende-se abordar resultados do ciclo anterior e técnicas/metodologias aplicadas no ciclo atual.

Descrição:

Desde 2015 o TCU realiza fiscalizações para acompanhar aspectos de conformidade relacionados à gestão de folhas de pagamento dos órgãos e entidades federais.

Esse acompanhamento é feito por meio de cruzamentos de dezenas de bases de dados governamentais mediante os quais são verificados mais de 30 tipos de indícios de irregularidades associados a: (i) acumulações ilícitas de cargos; (ii) auxílios pagos em duplicidade; (iii) cargos ocupados por pessoas impedidas; (iv) pagamentos realizados a falecidos; (v) pagamento de parcelas indevidas; (vi) pensões pagas indevidamente; (vii) violações ao teto remuneratório; (viii) atos de pessoal, e; (ix) falhas cadastrais.

Os indícios de irregularidades identificados são encaminhados por meio de sistema informatizado aos respectivos gestores para esclarecimentos e, se for o caso, adoção de providências para cessar violações às normas de regência.

Graças ao emprego de recursos computacionais e do protagonismo atribuído aos próprios gestores para a apuração dos fatos, o último ciclo do trabalho, realizado em 2020, fiscalizou a atuação de 603 organizações públicas federais, ação de controle que resultou na correção de 15 mil irregularidades e na geração de cerca de R$ 386 milhões de economia ao ano.

Detalhes Técnicos:

O trabalho envolve a exploração de dados de diferentes formatos e o desenvolvimento de algoritmos que seguem regras de múltiplas legislações.

A equipe aplica métodos ágeis.

Tecnologias/Ferramentas: Power Center, SQL Server, Oracle, Java, Apex, Qlik.

Use os botões abaixo para votar:

Hércules: classificador automático de petições intermediárias no TJ/AL

Proposta em 3 de Outubro de 2021 às 15:55.

- tipo de proposta: apresentação (20 minutos)

- título da apresentação/oficina: Hércules: classificador automático de petições intermediárias no TJ/AL

- fase do trabalho apresentado: estudo de caso com resultados práticos

O objetivo deste projeto entre UFAL e TJ/AL foi realizar atividades de grande impacto que aumentem a eficiência e acelerem o trâmite processual na 15ª vara de execução fiscal do TJ-AL. Esta vara foi priorizada pelos gestores do tribunal devido ao grande volume de processos que nela tramitam, chegando a 20% do total de processos.

Em reuniões o juiz responsável pela vara e sua equipe, e servidores do Departamento de Tecnologia, foram identificados os problemas mais relevantes da vara que poderiam ser abordados por nossa equipe através do desenvolvimento de ferramentas de Inteligência Artificial e Ciência de Dados. Como consequência, foram realizadas as seguintes atividades principais:

Desenvolvimento do robô Hércules (Figura 1) para classificar automaticamente as petições intermediárias que normalmente se acumulam numa fila do sistema SAJ. O robô atualmente consegue classificar corretamente mais de 95 em cada 100 peças analisadas na 15ª vara, ou seja, mais de 95% de acurácia. Atualmente, já foi realizada a classificação e movimentação automática de aproximadamente 20.000 peças;

Desenvolvimento de uma ferramenta baseada em Processamento de Linguagem Natural para analisar automaticamente o correto preenchimento das Certidões de Dívida Ativa (CDAs), capaz de identificar os erros de preenchimento mais comuns com alta precisão;

Cruzamento e identificação inteligente de processos provenientes da Prefeitura de Maceió que já haviam sido baixados na base de dados da Prefeitura;

Estudar soluções para o problema de envio de correspondências com endereços inconsistentes.

Classificação de 3.720 apelações de execução fiscal em três classes, em colaboração com a equipe da vice-presidência. Foram utilizados 126 documentos que foram manualmente classificados com a ajuda de servidores públicos do TJ-AL, formando assim um conjunto de dados. Esse conjunto de dados foi posteriormente dividido em 30% para o treinamento do Hércules e 70% para teste. Tal classificação atingiu 97% de acurácia neste conjunto.

Também foram desenvolvidos estudos na 30a vara da saúde. O trabalho foi finalista do prêmio "Prêmio Inovação - Judiciário Exponencial - Expojud 2020"

- detalhes técnicos: métodos estatísticos ou modelos de aprendizagem utilizados; softwares e linguagens de programação utilizados;

principais algoritmos usados: Algoritmos pŕoprios criados pela equipe, algoritmos de embedding de palavras, redes neurais, SVM. Linguagem usada: python. Linguagem de banco de dados: SQL

Use os botões abaixo para votar:

Machine Learning na complementação de julgamento humano: bloqueando vieses e limitando a variabilidade das decisões humanas

Proposta em 2 de Julho de 2021 às 15:11.

Apresentação mostrando quais os principais vieses e fontes de variabilidade do julgamento humano que podem ser compensadas com o bom uso de modelagem estatística.

Conteúdo na linha do recém-lançado livro do Daniel Kahneman, "Noise: A Flaw in Human Judgment": https://www.goodreads.com/book/show/55339408-noise

[As informações de contato do proponente da apresentação encontram-se no segundo campo textual que não é publicado no site e fica visível apenas para a banca de avaliação das propostas.

Use os botões abaixo para votar:

Modelo de Engajamento no Trabalho no Setor Público

Proposta em 6 de Agosto de 2021 às 09:39.

Imagine a seguinte situação: você vai fazer seu check-up anual. Depois de fazer vários exames e sem ver o resultado de nenhum deles, você vai a uma consulta com a sua médica para saber quão saudável você está. “Este ano você está 3”, diz o sua médica. “Estou 3? O que isso significa? ”, Você pergunta intrigado. Sua médica responde: “Significa que você está em média da régua que varia entre 1 e 5. Mas dentro da sua faixa etária e sexo, você está abaixo da média”. Ok, isso não parece uma boa notícia, você pensa. “Pode dar-me um melhor entendimento da situação?”. “Bem, isso não está muito claro, mas existem algumas coisas que você pode tentar”, finaliza o sua médica.

É provável que essa interação traga alguma ansiedade sobre como proceder em relação à sua saúde. Embora os princípios básicos para se manter em boas condições de saúde sejam mais claros, essa não é a realidade para outras medidas, como engajamento no trabalho. As medidas avaliativas devem ir além de simplesmente dar uma nota final que seja subjetiva de sua medição. Embora os pesquisadores possam executar várias análises interessantes sobre os dados, controlando por gênero, profissão, nível educacional, anos de experiência, etc; os gestores públicos lutam para transformar esse conhecimento em informações gerenciais que lhes permitam trabalhar ativamente para o aumento dos níveis de Engajamento no Trabalho.

A literatura tem avançado no assunto concordando em grande parte com a definição de engajamento no trabalho e criando escalas para medir essa definição. Mas, assim como na situação hipotética de sua interação com sua médica, os gestores públicos ficam ansiosos para saber o que fazer a seguir. O corpo de pesquisa anterior mostra partes fragmentadas de intervenções em ambientes específicos que produziram aumentos estatisticamente significativos no engajamento no trabalho. Entretanto, a realidade dos gestores públicos são ambientes complexos onde vários fatores desempenham um papel ao mesmo tempo e recursos limitados que devem trazer resultados rápidos e concretos.

O principal objetivo do nosso trabalho é criar uma medida que forneça informações gerenciais para gestores públicos. Coletamos dados úteis de mais de 16.654 funcionários públicos no nível estadual do governo brasileiro para criar e testar nosso modelo. Para validar nossa proposta de nova Escala de Engajamento no Trabalho, usamos a Escala da OCDE para Engajamento no Trabalho no Setor Público como referência por ser utilizada em diversos outros países.

Use os botões abaixo para votar:

Monitora77 - um plataforma de preservação de custódia da prova digital

Proposta em 3 de Outubro de 2021 às 16:23.

- tipo de proposta: apresentação (20 minutos)

- título da apresentação/oficina: Monitora77 - um plataforma de preservação de custódia da prova digital

- foco principal da apresentação: técnico

- fase do trabalho apresentado: proposta em estudo para implementação;

- descrição da apresentação (em até 2000 caracteres sem espaço).

O Ministério Público da Paraíba e a Universidade Federal de Alagoas firmaram uma parceria que resultou na criação de uma ferramenta para auxiliar na investigação de condutas de candidatos, nas eleições municipais de 2020. O Monitora77, nesta primeira versão, recupera informações de perfis-alvos na rede social Instagram, com o objetivo de preservação da cadeia de custódia da prova digital, ou seja, possibilita documentar procedimentos, identificando e coletando os atos e sua origem para análise dos promotores eleitorais, mesmo se houve descarte eventual das evidências.

- detalhes técnicos: métodos estatísticos ou modelos de aprendizagem utilizados; softwares e linguagens de programação utilizados;

principais algoritmos usados: Algoritmos de hash. Linguagem usada: python

Use os botões abaixo para votar:

Monitoramento e análise de dados da COVID-19 em Maragogi/AL

Proposta em 3 de Outubro de 2021 às 16:33.

- tipo de proposta: apresentação (20 minutos)

- título da apresentação/oficina: Monitoramento e análise de dados da COVID-19 em Maragogi/AL

- foco principal da apresentação: técnico

- fase do trabalho apresentado: estudo de caso com resultados práticos;

Descrição

O presente projeto desenvolveu soluções para coleta, tratamento, análise e projeção de dados relativos ao surto da COVID-19, através dos atendimentos em unidades de saúde no município de Maragogi/AL. Além de rastreio automático de contactantes com sugestão de prioridades de testagem e desenvolvimento de modelos de simulação. Tais soluções foram integradas em um sistema de cunho matemático-computacional multiplataforma que pode ser acessado através de navegador em dispositivos móveis e desktops, baseado em computação na nuvem e inteligência artificial e modelagem matemática. Por meio de dados inseridos pelos profissionais da saúde na frente de atendimento, o projeto permitiu:

Coleta de dados de atendimento, encaminhamento médico, exames e contactantes de todos os atendimentos de síndrome gripal do município, em um total de 7009 atendimentos desde 21 de Março de 2020 até 03 de Outubro de 2021;

Visualização automatizada dos dados coletados através de um painel exclusivo para a gestão municipal;

Geolocalização em tempo real do endereço de todos os atendimentos de síndrome gripal do município, deixando disponível à vigilância epidemiológica e gestão municipal contato e status em tempo real de todos os casos;

Integração (importação e exportação) de notificações de informações nos softwares do SUS através de bots, como o eSUS VE (Notifica).

Geração de uma base de dados unificada de munícipes cadastrados em programas como PSF e Bolsa Família e análise destes dados sócio-econômicos;

Visualização de internamentos em leitos comuns e UTIs, óbitos, atendimentos, infectados, recuperados, demanda de leitos, médias móveis de confirmados, entre outros, através de um dashboard visual customizável.

Previsões de curto prazo de demanda de leitos baseadas nos dados de infectados e parâmetros de infecção locais;

Rastreamento computacional complementar de contactantes a partir da estrutura domiciliar e familiar extraída de bases de dados do município, como Bolsa-Família, PSF e Censo Escolar;

Treinamento e curso online para agentes de saúde sobre rastreamento de contactantes.

Desenvolvido com o financiamento da prefeitura de Maragogi e do Instituto Serrapilheira, em colaboração com o CEMEAI/USP. Mais em: https://www.youtube.com/watch?v=uj2Rqs4O5NE

detalhes técnicos: métodos estatísticos ou modelos de aprendizagem utilizados; softwares e linguagens de programação utilizados;

KNN, MCMC, Modelos de percolação. Linguagem: python. Banco de dados: MySQL. Plataforma de hospedagem: Google Cloud.

Use os botões abaixo para votar:

O Follow The Money” para a Transparência Fiscal nos CAGS - Estudo de caso em painel dos dados orçamentais nos PALOP

Proposta em 23 de Agosto de 2021 às 14:50.

O Follow The Money” para a Transparência Fiscal nos CAGS é um estudo de caso em painel, aplicado a 4 dos 5 países PALOP (Cabo Verde, Angola, Guiné-Bissau e São Tomé e Príncipe) que coloca em evidência os principais resultados das 8 análises orçamentais às propostas de Orçamento do Estado revistas e rectificadas realizadas nos PALOP, em pleno período pandémico, de 2020 e 2021.

Este estudo de caso recorre aos dados orçamentais da receita, despesa e da dívida pública dos últimos 3 anos (2019, 2020 e 2021) para enfatizar as políticas fiscais, sociais e financeiras, e assim justificar o recurso a fundos orçamentais alternativos, às estratégias orçamentais de contenção, priorização e (re)alocação das despesas públicas dos diferentes governos, e consequentemente da (re)definição da necessidade de endividamento público adicional, olhando com particular atenção para o impacto transversal nas questões de género (ODS 5).

A parte conclusiva final posiciona os países analisados nos rankings do Índice de Transparência Orçamental PALOP-TL, tendo ainda em consideração o peso da Dívida Pública/PIB em 2020, e o rácio da Despesa Global/PIB em 2021, em cada um desses países.

As conclusões preliminares apontam para o facto dos mais endividados dentre os países acima referidos em 2020 terem sido os mais despesitas em 2021; e para a necessidade do reforço, tanto da transparência com a disponibilização de informações macro fiscais e na contabilização de dados financeiros sobre os fundos orçamentais alternativos, a Receita Cessante e a Renúncia Fiscal, bem como, das acções de fiscalização, auditorias e monitorias tempestivas, na avaliação do impacto das políticas públicas (fiscais, sociais e financeiras), na viabilidade da segurança social e na sustentabilidade da dívida pública para as gerações futuras.

O estudo nos CAGS permitiu ainda, além de mapear as opções de politicas públicas dos diferentes governos nos PALOP, apresentar a matriz de risco com base em três indicadores, volume financeiro, omissão de informações e eventos atípicos, base de referência para a selecção das principais áreas de auditora (receita, despesa e dívida pública) dos exercícios orçamentais de 2020 e 2021 que foram objeto de revisão a meio percurso.

Porém, a principal conclusão sugere que as revisões orçamentais serão precedidas de uma agenda política de revisão dos planos, metas e prioridades nacionais das Agendas 2030/2063, das leis de base orçamental, dos códigos do imposto e da transparência e de outros instrumentos legais que reforçam os processos de simplificação orçamental e de contas públicas para mais acesso aos dados abertos e participação cidadã mais inclusiva.

Use os botões abaixo para votar:

Pool of features: uma abordagem para integração de dados e criação de modelos de machine learning

Proposta em 20 de Agosto de 2021 às 09:56.

Tipo de proposta: apresentação

As etapas de extração, transformação e carga de dados (extract, transform and load – ETL) ocupam a maior parte do tempo de desenvolvimento de um projeto de ciência de dados. Considerando também que os modelos utilizam, muitas vezes, fontes de dados semelhantes, o reuso da etapa de ETL pode otimizar a criação de modelos de machine learning. Sendo assim, a Inspeção do Trabalho desenvolveu um software que, conectando-se a diversas fontes de dados internas e externas, é capaz de gerar um conjunto de variáveis (features) que serão usadas na criação dos mais diversos modelos de machine learning.

Resultados:

Já há um modelo de machine learning, treinado com dados gerados pelo software, em produção e sendo usado pela Inspeção do Trabalho. Ademais, outros três modelos estão em fase avançada de desenvolvimento.

Fase:

Em sua versão atual, o software se conecta a mais de vinte fontes de dados distintas, dos mais diversos tipos, tais como bancos de dados, servidores ftp, web APIs e sistemas de arquivos locais. Além de unificar variáveis internas à Inspeção do Trabalho, o sistema integra dados de fontes públicas que podem ser imprescindíveis ao desenvolvimento de modelos de machine learnig, como informações de pesquisas do IBGE, dados do IPEA, do Ministério da Saúde e do Ministério da Educação.

O foco principal deste trabalho é apresentar tecnicamente a construção do sistema, bem como as perspectivas de sua utilização.

Detalhes técnicos: Para o desenvolvimento do presente trabalho, utilizou-se linguagem de programação Python. Os pacotes Python Kedro e Apache Spark foram usados pra construção do software.

Use os botões abaixo para votar:

Predição de informalidade no mercado de trabalho brasileiro utilizando machine learning

Proposta em 13 de Agosto de 2021 às 12:02.

Tipo de proposta: Apresentação

A informalidade no mercado de trabalho é um problema que afeta trabalhadores, empregadores, o Estado e, em última análise, a sociedade como um todo. Além de levar à redução da qualidade das relações de emprego, acarreta a sonegação previdenciária e a redução da arrecadação do Fundo de Garantia do Tempo de Serviço (FGTS).

Com o objetivo de auxiliar a Inspeção do Trabalho no cumprimento de seu dever legal, o presente estudo teve por finalidade calcular a taxa de informalidade - proporção de trabalhadores sem vínculo - para cada atividade econômica nos municípios do Brasil. Utilizaram-se microdados da Pesquisa Nacional por Amostra de Domicílio contínua - PNAD contínua - do Instituto Brasileiro de Geografia e Estatística - IBGE – e os critérios da legislação trabalhista para calcular a taxa de informalidade nos níveis territoriais abordados pela pesquisa (estados, capitais e regiões metropolitanas/regiões integradas de desenvolvimento). Os modelos de machine learning foram utilizados para, a partir de dezenas de variáveis obtidas de bancos de dados internos à Inspeção do Trabalho e externos a ela, prever a taxa de informalidade em todos os municípios do Brasil.

Resultado:

A presente iniciativa está sendo utilizada pela Subsecretaria de Inspeção do Trabalho – SIT - para desenvolvimento de estratégias de fiscalização de informalidade, bem como para a avaliação dos resultados de ações fiscais pelo país. Os dados estão sendo disponibilizados aos Auditores-Fiscais do Trabalho e chefias de fiscalização por meio de painéis estatísticos.

O foco principal deste trabalho é apresentar a construção de toda etapa de extração e tratamento de dados, assim como a elaboração dos modelos de machine learning e de painéis estatísticos que apresentam a informalidade no marcado de trabalho do Brasil.

Fase: A etapa de desenvolvimento do modelo já foi encerrada, assim como a modelagem de painéis que serão disponibilizados aos Auditores-Fiscais do Trabalho.

Detalhes técnicos: Para o desenvolvimento do presente trabalho, utilizou-se linguagem de programação Python. A biblioteca Kedro foi usada pra construção da etapa de extração e transformação dos dados. Foram utilizados modelos de boosted tree (LightGBM, XGBoost e CatBoost), bem como o ensemble destes, para construção do algoritmo preditivo. Para a criação de painéis, foi usado o software Qlik Sense Enterprise.

Use os botões abaixo para votar:

Proposta de um indicador de corrupção no Brasil baseado em dados do Tribunal de Contas da União

Proposta em 6 de Agosto de 2021 às 10:47.

tipo de proposta: apresentação

O objetivo deste trabalho é propor e construir um indicador brasileiro, objetivo e regional de corrupção com base no cadastro de contas julgadas irregulares do Tribunal de Contas da União (TCU). Para isto, inicialmente é feita uma revisão da literatura sobre o conceito de corrupção. O estudo é qualitativo e quantitativo, e utiliza a Jurimetria, que é a Estatística aplicada ao Direito. A pesquisa usa técnica documental, sendo que os documentos eletrônicos foram coletados no sítio eletrônico do TCU e do Instituto Brasileiro de Geografia e Estatística (IBGE). O trabalho se justifica na medida em que é necessário ter um indicador brasileiro, regional e objetivo para permitir comparações entre estados e ao longo do tempo, para planejar, analisar e controlar políticas públicas de combate à corrupção. Ao final é proposto o CIPM (contas irregulares por milhão de habitantes) como indicador de corrução que atende as características almejadas.

software: R

Estatística Descritiva

CIPM de 2011 a 2020 e média de 1994 a 2010 (27 anos)

UF	2011	2012	2013	2014	2015	2016	2017	2018	2019	2020	média
AC	41,5	43,5	45,1	30,4	32,4	24,5	28,9	39,1	15,9	19,0	20,5
AL	7,0	5,4	6,1	6,0	6,6	15,2	16,6	18,7	12,0	12,2	10,8
AM	18,9	14,5	9,5	17,0	16,3	33,2	19,2	15,4	19,3	13,3	15,9
AP	38,0	50,1	34,0	32,0	48,3	35,8	30,1	36,2	27,2	26,7	36,8
BA	8,8	5,7	5,5	5,0	8,8	8,1	6,5	7,1	6,3	6,2	8,2
CE	8,6	4,5	7,2	10,6	13,8	11,9	14,0	16,7	11,9	11,3	7,7
DF	37,9	25,3	18,3	26,3	25,0	25,9	32,2	41,0	53,1	34,7	25,7
ES	12,1	8,7	3,6	5,9	1,5	4,5	3,7	2,8	3,7	2,5	5,1
GO	9,5	4,5	5,1	5,5	7,3	10,2	9,3	10,8	13,8	13,9	8,9
MA	28,0	15,9	21,3	32,1	45,8	22,0	32,4	45,2	26,1	23,2	19,2
MG	6,0	3,9	4,2	3,9	6,6	7,5	5,5	4,6	5,2	5,0	4,6
MS	16,1	9,2	7,7	5,0	9,4	5,6	8,8	4,7	8,7	2,8	9,2
MT	25,7	20,9	21,7	17,7	13,5	18,2	8,4	9,0	7,7	5,4	11,9
PA	7,7	9,3	11,2	9,8	11,5	19,3	17,6	16,9	13,4	14,3	10,4
PB	15,0	14,7	13,0	15,2	17,6	29,8	28,3	36,8	38,1	27,5	17,3
PE	10,0	7,6	9,9	6,9	7,7	10,9	10,3	8,8	9,1	9,6	7,0
PI	14,7	10,2	13,2	23,9	15,6	13,1	17,1	22,4	14,1	20,4	14,4
PR	4,9	5,4	6,3	3,4	4,0	3,6	5,5	3,7	9,0	7,1	4,0
RJ	8,7	5,7	6,2	10,0	13,1	9,8	9,2	6,2	4,0	5,4	6,4
RN	22,5	16,4	7,1	7,9	11,9	15,8	12,0	10,3	12,5	8,8	12,0
RO	19,0	24,5	13,3	19,4	19,8	26,9	18,8	12,5	9,6	10,6	12,0
RR	89,1	91,6	75,8	52,3	71,2	81,7	97,6	46,8	39,6	14,3	40,6
RS	3,2	2,9	1,3	4,6	3,6	5,0	5,0	5,2	3,3	3,9	3,0
SC	3,8	2,7	3,2	1,8	6,0	3,6	4,1	3,3	4,1	4,7	3,3
SE	17,2	18,9	23,7	11,7	14,3	22,5	15,3	19,8	13,9	11,6	13,7
SP	3,4	1,9	1,8	2,3	3,0	4,1	4,0	4,1	4,4	5,2	2,7
TO	25,7	14,8	18,3	22,0	16,5	29,4	33,5	24,4	22,9	15,7	21,2
Brasil	9,5	7,0	7,0	7,9	9,7	10,4	10,1	10,3	9,4	8,7	7,4

Use os botões abaixo para votar:

Reconhecimento de valores reembolsados em reclamações de consumidores contra empresas de telecomunicação

Proposta em 15 de Setembro de 2021 às 10:25.

Tipo de proposta: Apresentação
Título da apresentação: Reconhecimento de valores reembolsados em reclamações de consumidores contra empresas de telecomunicação

Foco da Apresentação: O setor de telecomunicações brasileiro representa um dos maiores mercados de consumo de serviços no mundo. A Agência Nacional de Telecomunicações (ANATEL), instituição reguladora dos serviços de telecomunicação no Brasil, disponibiliza uma plataforma de reclamações aos usuários destes serviços, chamada "Anatel Consumidor", por onde se realiza uma média anual de quase 3,5 milhões de reclamações, as quais ficam armazenadas em formato de texto livre. Muitas destas reclamações se referem a casos de reembolso aos consumidores.

Neste cenário, o trabalho visa identificar situações em que os consumidores solicitam reembolso e quanto solicitam, bem como as situações em que as empresas fornecem algum reembolso e qual o valor.

Trata-se de um trabalho realizado sobre uma base real, com dados sensíveis, utilizando técnicas de Processamento de Linguagem Natural (PLN) com aprendizado supervisionado a partir de dados não rotulados, o que envolveu um esforço de interação com os especialistas da Anatel.
Além disto, para o setor público oferece um exemplo de como se quantificar parte do retorno financeiro que uma instituição gera para a sociedade, bem como de automação de atividades que pelo volume seriam inviáveis de serem feitas manualmente.

Detalhes técnicos: O trabalho seguiu a metodologia CRISP-DM aplicada a PLN, tendo sido construídos modelos preditivos para classificação das reclamações utilizando heurística própria e word embeddings. Além disto, o mesmo trabalho também faz uso de Reconhecimento de Entidades Nomeadas (REN) para identificação de valores cobrados e ressarcidos.

Em seu conjunto, o trabalho fornece um estudo de caso concreto aplicando Processamento de Linguagem Natural sobre dados reais em reclamações do setor de telecomunicação, envolvendo temáticas de classificação, rotulação da amostra, regressão, reconhecimento de entidades nomeadas e desenvolvimento de heurísticas próprias.

Fase do trabalho apresentado: O trabalho foi elaborado nos anos de 2020 e 2021, como objeto de uma dissertação de mestrado, apresentando resultados sobre amostras extraídas da base de dados do Anatel Consumidor.

Resultados alcançados: O trabalho apresenta uma análise exploratória dos dados de reclamações do setor de telecomunicação, demonstra a viabilidade da utilização de técnicas de classificação de texto e de Reconhecimento de Entidades Nomeadas sobre estes dados, no intuito de realizar atividades de classificação e de quantificação sobre texto livre criado pelos consumidores. A partir dos resultados do trabalho, os gestores passam a ter novos instrumentos para análise, tomada de decisão e automação na atividade regulatória do setor de telecomunicações.

Use os botões abaixo para votar:

Saúde, Tribunais de Contas e Jurimetria: um estudo sobre os acórdãos do Tribunal de Contas da União.

Proposta em 6 de Agosto de 2021 às 21:43.

O tema geral deste estudo são os acórdãos do Tribunal de Contas da União (TCU) em que são auditados órgãos ou entidades da saúde. A pergunta da pesquisa é: Como tem sido as decisões pela aplicação de multa em julgados do TCU sobre órgãos ou entidades de saúde. O objetivo do trabalho é descrever e explicar como tem sido estas decisões em funções das variáveis do processo, como relator, entidade ou órgão fiscalizado, tipo de processo, atuação do Ministério Público de Contas, ano de autuação do processo, ano do julgado e duração do processo. Este trabalho usa técnica documental na sessão de jurisprudência do sítio eletrônico do TCU. O estudo é quantitativo, onde análise dos dados é feita através a Jurimetria, que é a Estatística aplicada ao Direito. Um modelo descritivo e um modelo explicativo são construídos e apresentados, o que cumpre o objetivo do trabalho.

Este é um estudo quantitativo, que utiliza a Jurimetria, Estatística aplicada ao Direito. A técnica usada é a pesquisa documental. Foi feita uma busca na sessão de jurisprudência do Tribunal de Contas da União (TCU), com a palavra saúde no campo nome do órgão ou da entidade, no dia 9 de outubro de 2.020. A busca resultou em 4.051 acórdãos.

Nos resultados foram aplicados vários filtros usando o software estatístico R versão 4.0.0. Foram retirados os acórdãos cujos relatores tinham menos de 50 julgados, cujos tipos de processo tinham menos de 50 decisões, além dos acórdãos cujos processos foram autuados antes de 1.995 ou que foram julgados antes de 2.001. Isto resultou num novo conjunto de 3.669 acórdãos a ser analisado.

Software R

Estatística Descritiva

Estatística Inferencial

Regressão Logística

Use os botões abaixo para votar:

SIGLLA – Protótipo de um sistema de informação geográfica para legislação do licenciamento ambiental

Proposta em 26 de Setembro de 2021 às 18:52.

Tipo de proposta: apresentação

Título da apresentação: SIGLLA – Protótipo de um sistema de informação geográfica para legislação do licenciamento ambiental

Foco principal da apresentação: gerencial

Fase do trabalho apresentado: proposta em estudo para implementação. Protótipo web funcionando em Ruby on Rails. Modelo de Machine learning funcionando no caderno jupyter, mas não em produção. Processo de inclusão no gov.br aguardando fila de desenvolvimento de projetos.

Descrição da apresentação:

Projeto desenvolvido por servidores de diferentes servidores de órgãos e entidades públicos durante o curso Coding Bootcamp de programação da ENAP-Le Wagon.

Tanto agentes federais e estaduais de agências de licenciamento ambiental quanto projetistas e investidores das áreas de infraestrutura e energia sofrem com a diversidade e com o volume de leis ambientais, as quais comumente se aplicam a uma área geográfica específica, o que atenua a eficácia de uma simples busca textual.

As normas ambientais provêm de várias fontes, podendo ser provenientes de vários entes federativos (União, Estados e Municípios). Desse modo a sua área de aplicação de uma norma pode ter os mesmos limites territoriais da autoridade emissora ou ser mais restritivo. No que se refere às áreas de atuação da lei, também há normas específicas para diferentes setores, desse modo uma norma ambiental de manejo de peixe, por exemplo, pode interessar ao setor de hidrelétrico, mas não interessa ao setor ferroviário. A definição espacial de quais normas, portarias, leis, etc estão regulamentando uma determinada área é uma questão primordial em projetos de infraestrutura dos mais diversos portes. Pensando em trazer previsibilidade e segurança jurídica para os investidores, empresários, fiscais e analistas governamentais foi desenvolvido o sistema de consulta especializada à legislação ambiental usando critério espacial georreferenciado.

O sistema proposto, uma aplicação web, permite a busca de normas tanto por meio da submissão de desenho georreferenciado feito pelo usuário quanto pela submissão de arquivo vetorial georreferenciado do tipo shapefile em que o usuário faz o upload da própria geometria. Visando compartilhar a tarefa de manutenção da atualização das informações sobre as normas, a solução permite que usuários cadastrados possam ajudar a preencher o banco de dados, bem como avaliar a pertinência das respostas apresentadas pelo sistema de busca espacial.

Como forma de complementação ao trabalho foi desenvolvido um modelo de Processamento de Linguagem Natural - NLP para facilitar a ampliação do Banco de Dados. Com este modelo é possível filtrar legislações ambientais e categorizá-las de acordo com o ente federativo responsável pela norma.

Como próximos passos pretende-se que o modelo de NLP seja colocado em produção fazendo scraping de diários oficiais e que todo o sistema fique disponível para os usuários na plataforma gov.br, para tanto vai ser necessário fazer adequação das linguagens utilizadas para se adequar ao suporte contratado pelo Ministério da Economia ou IBAMA (ambos têm sido receptivos a ouvir a proposta), bem como todos os testes e proteções contra riscos.

Detalhes técnicos: No backend da aplicação web, o sistema conta com banco de dados em PostgreSQL extendido com PostGIS, o qual é consultado por uma aplicação desenvolvida no framework Ruby on Rails. No frontend é utilizada a biblioteca javascript Leaflet para mapas. A solução para popular o banco de dados envolveu a linguagem python com bibliotecas como pandas, numpy e scikit-learn para tratar os dados e construir o modelo de Processamento de Linguagem Natural.

Use os botões abaixo para votar:

SOFTWARE R COMO FERRAMENTA DE AUDITORIA E CONTROLE

Proposta em 14 de Julho de 2021 às 14:36.

TIPO DE PROPOSTA: Oficina com 2 horas de duração

TÍTULO DA OFICINA: “SOFTWARE R COMO FERRAMENTA DE AUDITORIA E CONTROLE”

FOCO PRINCIPAL DA OFICINA: Técnico

FASE DO TRABALHO APRESENTADO: Estudo de caso com resultados práticos

DESCRIÇÃO DA OFICINA:

O R se destaca como uma ferramenta estatística e esse estigma já é suficiente para desestimular o seu uso por profissionais de outras áreas. Ocorre que os seus comandos e a elevada capacidade de processamento facilitam a execução de atividades completamente distintas do segmento estatístico e podem ser muito úteis para profissionais de auditoria e controle, mesmo sendo leigos em TI. Essa oficina se propõe a apresentar um ensaio sobre o uso do software R como ferramenta de mineração de dados para subsidiar trabalhos de auditoria e atividades de controle.

DETALHES TÉCNICOS:

Será utilizado computador com o software R instalado, com disponibilização de apostila em PDF abordando todo o conteúdo da ementa.

EMENTA:

- introdução à mineração de dados com o software R

- uso do software R para detecção de transações atípicas

- importação de bases atípicas

- desmonte de spool file

- mineração de XML usando funções básicas

- strsplit(): uma função curinga

- exploração da função rank()

- exemplo de matriz de priorização

Use os botões abaixo para votar:

SOLUÇÃO SISTÊMICA PARA DISTRIBUIÇÃO DE MEDICAMENTOS EM TEMPOS DE PANDEMIA DA COVID-19

Proposta em 10 de Agosto de 2021 às 16:51.

TIPO: APRESENTAÇÃO

O FOCO desse trabalho é o Desenvolvimento de uma solução Sistêmica usando os recursos computacionais disponíveis para descentralizar a distribuição de medicamentos para pacientes de doenças crônicas em tempos de pandemia do Covid-19. Essa necessidade ou dor, surgiu de um desafio para ajudar a Saúde Pública de Santiago de Guayaquil no Equador que durante a primeira onda da Covid-19 em 2020 sentiu o afastamento dos doentes crônicos que não buscavam seus medicamentos com medo de contaminação, fato que depois observamos aqui no Ceará também. As doenças pré-existentes atingem milhões de brasileiros, principalmente os mais idosos, que em tempos de pandemia da COVID-19 estão expostos às contaminações mais graves que podem ter desfechos fatais.

FASE DO TRABALHO: A pesquisa está em fase final de conclusão, mas já foi apresentada e publicada no XIII Seminário de Pesquisa da ESTÁCIO 2021 e foi proposta para implantação em uma cidade do estado do Ceará.

O OBJETIVO desta pesquisa foi o desenvolvimento de um processo inovador de gestão da cadeia de suprimento e distribuição de medicamentos de uso contínuo de forma descentralizada, apoiado por um sistema de informação com uso de App mobile, através de um sistema integrado que pode ser expandido para várias cidades do Brasil, disponibilizando medicamentos de uso contínuo para pacientes com doenças pré-existentes nas proximidades de suas residências em máquinas de autoatendimento ou armários automáticos, ou em último caso em pontos comerciais parceiros.

A METODOLOGIA utilizada foi do tipo experimental e aplicada. Um protótipo foi criado para possibilitar o teste do modelo e tratamento das informações visando gerar esses benefícios concretos para a comunidade em que estamos inseridos. A pesquisa aplicada é motivada pela necessidade de resolver problemas concretos, mais imediatos ou não.

OS RESULTADOS: A solução proposta é a retirada dos medicamentos em armários guarda volumes com trancas eletrônicas instalados em locais públicos, sem aglomerações, nas proximidades da residência do cidadão beneficiário, reduzindo assim o deslocamento e o risco de infecção. O controle da distribuição é de responsabilidade do setor público competente, usando a aplicação web para controlar a logística de distribuição e notificar o paciente, que por sua vez utilizará uma aplicação mobile multiplataforma que alerta o paciente e mostra o local da coleta do medicamento usando o GPS (Global Positioning System) e disponibilizando uma senha de retirada, a ser usada no local da coleta.

A API usa a arquitetura REST (Representation State Transfer) que funciona através de requisições usando o protocolo HTTP (Hypertext Transfer Protocol). As aplicações, tanto web quanto mobile fazem requisições à API e a API faz uma consulta ao banco de dados, envio de informações de uma plataforma para outra (avisando que a retirada pode ser feita).

CONCLUINDO, nos testes foi possível observar o quanto essa pesquisa poderá trazer benefícios de segurança para nossa população, auxiliando a gestão da saúde pública no Brasil e em especial no Estado do Ceará. Nessa pesquisa temos propostas de utilização de baixo custo e fácil implementação, pois a batalha contra esse vírus é longa e todas as ferramentas disponíveis devem ser utilizadas, transformando a academia e seus pesquisadores em mais soldados nesta luta.

Use os botões abaixo para votar:

Territorialização violenta das Organizações Criminosas no Estado do Rio de Janeiro.

Proposta em 14 de Setembro de 2021 às 12:11.

Tipo de Proposta: Apresentação

Objetiva-se expor análise sobre a territorialização violenta das Organizações Criminosas para a exploração de mercados ilícitos nos aglomerados humanos de exclusão, e outras ações delitivas resultantes do negócio no Estado do Rio de Janeiro entre os anos de 2007 e 2018. Ao se estruturarem em rede, tais organizações espalham suas influências, gerando um nível de conectividade extremamente resiliente.

Dos Resultados:

Logrou-se com o estudo evidenciar que o avanço do Programa de Pacificação impactou nos territórios-rede do crime organizado; todavia, houve mudanças nas áreas de exploração dos mercados ilícitos, bem como uma maior diversificação do portfólio criminal.

A rede encontra-se em franca expansão para a Região do Norte Fluminense, o que poderá fomentar novas disputas territoriais e uma abrupta quantificação de homicídios dolosos, roubos e mortes decorrentes de intervenção policial; uma dinâmica de violência similar ao cenário de insegurança recentemente evidenciado no Sul Fluminense e há décadas na Região Metropolitana.

Detalhes técnicos:

Para o presente estudo utilizou-se de teorias e métodos de ciência de redes (network analysis) combinados com conceitos da geografia; utilizando como proxy, para evidenciar a territorialização violenta de Organizações Criminosas, dados de roubos e recuperações de veículos automotores no Estado, bem como outros indicadores criminais.

Foram utilizados os seguintes softwares:

- QGIS Desktop 2.18.14 (Sistema de Informação Geográfica).

- Linguagem de programação R no ambiente RStudio.

O estudo foi apresentado no Programa de Pós-Graduação em População, Território e Estatísticas Públicas da Escola Nacional de Ciências Estatísticas (ENCE) do Instituto Brasileiro de Geografia e Estatística (IBGE) como requisito parcial para obtenção do título de Mestre em População, Território e Estatísticas Públicas.

Tópicos de interesse:

Geoprocessamento e geotecnologias;

Utilização de Sistemas de Informação Georreferenciadas (SIG) no planejamento, implementação, execução e monitoramento das políticas públicas;

Utilização de geoprocessamento com a finalidade de descoberta e interpretação de informações relevantes para o controle ao longo de diversos períodos (espaço-tempo);

Análise de redes (network analysis)

Detecção de padrões e relacionamentos úteis à formulação ou execução de políticas públicas.

Use os botões abaixo para votar:

Transformação Digital no combate ao Coronavírus – COVID-19: Uma experiência da Controladoria Geral do Estado de Goiás

Proposta em 29 de Julho de 2021 às 09:27.

A pandemia global de COVID-19, causada pelo novo coronavírus SARS-CoV-2, é uma emergência de saúde pública que afeta todos os serviços ofertados pelo Estado, sejam estes relacionados a saúde, segurança, educação ou aspectos econômicos. Em pouco menos de três meses, passamos de relatos distantes de uma nova doença emergente na China para ver cidades fechadas e serviços públicos levados ao extremo.
Governantes e líderes estão na posição invejável de ter que tomar decisões quase impossíveis, sobre a melhor forma de lidar com uma situação que tem se propagado de forma cada vez mais rápida e contundente. Saber responder a tais problemas e desafios de forma rápida e eficaz é fundamental para gerar credibilidade no setor público.
Nesse momento de pressão por serviços públicos, a posse de dados relevantes e, acima de tudo, saber como utilizá-los é o diferencial para prestar melhor atendimento a população.
Neste contexto, uma das principais informações que faltam aos tomadores de decisão é a identificação de como os cidadãos se relacionam com os canais oficiais, em especial de ouvidoria, e como o Estado responde de forma estruturada e eficiente a esse cidadão.
No dia 13/03/2020 o Governo do Estado de Goiás publicou o decreto 9.633, que dispõe sobre a decretação de emergência na saúde pública do Estado de Goiás, em razão da disseminação do novo coronavírus (2019-nCoV). O texto traz diversas restrições de funcionamento de atividades comerciais.
Nesse sentido a população foi incentivada a denunciar, via canal de ouvidoria, sobre ocorrências e violações de descumprimento do decreto.
O sistema de Participação e Controle social da Controladoria Geral do Estado de Goiás é composto por três esferas: ouvidoria, transparência e participação social. Esses pilares são suportados por ferramentas tecnológicas fundamentais para o desenvolvimento de ações estruturadas de combate e contenção a pandemia.
Neste momento de crise, a Controladoria-Geral do Estado decidiu divulgar um canal de denúncia para capturar as demandas e alertas da sociedade. Dentro de tal cenário, o número de acessos aos canais oficiais apresentou crescimento tão exponencial para realidade vivenciada que houve uma saturação da capacidade de atendimento do órgão. O vertiginoso crescimento do número de manifestações e solicitações apresentadas ao sistema estadual de ouvidoria – em contraste com o volume médio de manifestações apresentadas em cenários de estabilidade – evidenciam uma clara demanda pela construção de canais mais eficientes de comunicação entre o cidadão e o aparato estatal, especialmente em um cenário onde a atuação do Estado se faz crucial no amparo a população imersa em tal cenário de potenciais riscos e incertezas no que tange a saúde e oferta de serviços públicos.
Assim, foi necessário aplicar de técnicas de inteligência artificial e design etnográfico como instrumentos para analisar os dados obtidos e construir melhores respostas para as demandas apresentadas pela população.
Como resultado dessa intervenção, a Controladoria-Geral do Estado, desenvolveu dois produtos, que fazem uso de um mecanismo de inteligência artificial, para fazer frente a esta crescente demanda e otimizar a pronta resposta a população: CoronaInfo e CoronaTransp. A hipótese apresentada neste artigo é de que tais mecanismos desempenham um papel crucial na maximização da eficiência do processo de troca informações entre Estado e população, auxiliando no processo de análise dos dados e, consequentemente, com potencial para se tornarem instrumentos efetivos na construção de políticas públicas capazes de reduzir, ou controlar, os danos causados por tal cenário de incerteza e instabilidade.

Use os botões abaixo para votar:

Trazendo dados para a discussão sobre dados: o que o setor público precisa saber sobre o impacto da inteligência artificial na sociedade.

Proposta em 6 de Agosto de 2021 às 14:30.

A discussão sobre o impacto da inteligência artificial na sociedade costuma ser focada em anedotas: fulano foi investigado por decisão de um algoritmo, beltrano teve o visto negado em função de um algoritmo, etc. Ou seja, na discussão sobre o uso de dados faltam... dados. O objetivo desta apresentação é sair da anedota e resumir o que a evidência científica - empírica, sistemática, peer-reviewed - nos diz sobre quais são efetivamente os principais impactos da IA na vida das pessoas, especificamente em duas áreas: manipulação eleitoral (algoritmos de IA conseguem influenciar eleições?) e fake news (algoritmos de IA têm aumentado a produção ou consumo de fake news?). Além disso será feito um resumo sobre os impactos econômicos das regulações existentes (como a GDPR): de acordo com as pesquisas científicas disponíveis hoje, essas regulações têm de fato combatido o poder de mercado das Big Tech? O seminário é uma oportunidade de trazer esses dados ao conhecimento de cientistas de dados que estão na máquina pública, precisamente num momento em que se discute regular o uso de IA no Brasil e em outras jurisdições.

Use os botões abaixo para votar:

Tribunais de contas, controle preventivo, controle social e jurimetria: um estudo sobre as representações para suspensão de licitações

Proposta em 6 de Agosto de 2021 às 21:19.

O objeto deste trabalho são as representações ao Tribunal de Contas da União (TCU) para solicitar a suspensão de licitações. O objetivo do trabalho é responder às perguntas de partida: como tem se distribuído as decisões em função das variáveis do processo? Como estas variáveis explicam as decisões? Que predições podem ser feitas sobre as decisões? Este é um estudo quantitativo em que foi utilizada a técnica documental na seção de jurisprudência do sítio do TCU. Os resultados foram analisados através da Jurimetria (Estatística aplicada ao Direito). A justificativa do trabalho é a necessidade do conhecimento da aplicação concreta da lei, para aprimorar o processo legislativo e a eficiência e eficácia dos Tribunais de Contas. Um modelo descritivo, um modelo explicativo e um modelo preditivo são apresentados, o que responde às perguntas de partida e cumpre o objetivo do estudo. A contribuição deste estudo é possibilitar um melhor conhecimento das representações apresentadas ao TCU.

Este é um estudo exploratório e quantitativo. A técnica utilizada é a pesquisa documental. Foi feita uma busca na seção de jurisprudência do sítio eletrônico do Tribunal de Contas da União com as palavras edital, licitação, cautelar e suspensão, no dia 18 de julho de 2020. A Figura 1 mostra a busca feita para elaboração deste trabalho.

Neste conjunto inicial de 4.445 acórdãos foram realizados vários filtros utilizando o software livre R versão 4.0.0. No primeiro filtro foram selecionados apenas os acórdãos referentes ao Tipo de Processo Representação resultando num conjunto de 2.811 acórdãos. No segundo filtro foram separados apenas os acórdãos que continham a palavra cautelar no Sumário, com um resultado de 1.634. Finalmente, o terceiro filtro selecionou apenas os acórdãos que continham uma decisão quanto à procedência da representação, resultando num conjunto de 855 acórdãos a ser analisado.

Software R

Estatítica Descritiva

Estatística Inferencial

Regressão Logística

Use os botões abaixo para votar:

Tribunais de Contas e Jurimetria: Contas rejeitadas e seus possíveis reflexos eleitorais.

Proposta em 6 de Agosto de 2021 às 21:48.

O objetivo deste trabalho é descrever a lista de responsáveis por contas julgadas irregulares com possíveis reflexos eleitorais entregue pelo Tribunal de Contas da União (TCU) ao Tribunal Superior Eleitoral (TSE) em 2020 em função das variáveis do processo. O problema de pesquisa ou pergunta de partida é: Como se distribui esta lista em função das variáveis? Este é um estudo exploratório, descritivo e quantitativo que utiliza a Jurimetria. Jurimetria é a Estatística aplicada ao Direito. A pesquisa se justifica na medida em que é necessário conhecer a aplicação concreta da lei, para aperfeiçoar o processo legislativo e melhorar a eficiência e eficácia dos Tribunais de Contas através da utilização de matrizes de risco baseadas em dados no planejamento de auditorias. As distribuições da lista de responsáveis em função das variáveis são apresentadas através da Estatística Descritiva (Análise Exploratória de Dados) e, portanto, o objetivo do trabalho é cumprido.

Este é um estudo exploratório e descritivo, que utiliza técnica de pesquisa documental. Tem uma abordagem quantitativa e utiliza a Jurimetria, que é a Estatística aplicada ao Direito. Utilizou-se também a Ciência de Dados, para coleta, tratamento, seleção, filtragem e análise de dados, através do software estatístico livre R versão 4.0.0.

O primeiro conjunto de dados coletado foi a planilha disponibilizada na seção Lista Eleitoral do Sistema de Contas Irregulares do TCU, que traz a lista de responsáveis com contas julgadas irregulares com implicação eleitoral (CJIIE). O sistema permite a atualização diária da lista até 31 de dezembro de 2020. Os dados foram coletados no dia 25 de outubro de 2020, resultando numa lista de 11.491 contas irregulares (BRASIL, 2020b).

A planilha coletada tem apenas 10 variáveis ou colunas (Ficha, Nome, CPF, UF, Município, Processo, Deliberações, Trânsito em julgado, Data final e Função). Por isto foi feita outra coleta na sessão de jurisprudência do sitio eletrônico do TCU para poder dispor de um maior número de variáveis para a análise (BRASIL, 2020c). assim, também no dia 24 de outubro de 2020 foram pesquisados os acórdãos de todos os tipos de processo, com datas entre primeiro de janeiro de 2010 e 24 de outubro de 2020 e os julgados de processos dos tipos Tomada de Contas e Prestação de Contas entre primeiro de janeiro de 2000 e 24 de outubro de 2020, com um resultado de 64.971 acórdãos. Esta nova planilha tem 14 variáveis (Tipo, Título, Data, Relator, Sumário, Processo, Tipo de processo, Interessado / Responsável / Recorrente, Entidade, Representante do Ministério Público, Unidade Técnica, Representante Legal, Assunto, Endereço do Arquivo).

Nesta planilha foi aplicado um filtro, através do pacote data.table do software estatístico R, para deixar para cada processo apenas a linha referente ao acórdão mais recente, uma vez que um mesmo processo dá origem a vário julgados e para o nosso estudo interessa apenas o último julgado, resultando em 45.410 acórdãos. Os dois conjuntos de dados foram unidos através da função inner_join do pacote tidyverse do software R, resultado numa nova planilha de 11.484 linhas e 23 colunas ou variáveis, com a diferença de sete linhas em relação à lista original. Estas linhas se referem a acórdãos de relação, que não trazem sumários na busca, e por isto, tem pouco interesse para o estudo. A diferença (sete linhas em 11.491) representa 0,06% da população e, portanto, não é significativa.

Para conduzir as análises com indicadores e proporções populacionais foram coletadas as planilhas eletrônicas Estimativas da população residente no brasil e unidades da federação e Estimativas da população residente nos municípios brasileiros, com data de referência em 1º de julho de 2020 no sítio eletrônico do Instituto Brasileiro de Geografia e Estatística (IBGE, 2020d). Estas planilhas foram unidas à planilha anterior de 23 colunas através da função inner join.

Software R

Estatística Descritiva

Tabela 3 – Pessoas (PCJIIE) e Contas julgadas irregulares com implicação eleitoral (CJIIE) por Unidade da Federação

Unidade da Federação	Pessoas (PCJIIE)	Contas (CJIIE)	População Estimada*	Pessoas para cada 100.000 habitantes	Contas para cada 100.000 habitantes
Roraima	105	204	631.181	16,6	33,7
Amapá	114	173	861.773	13,2	20,5
Maranhão	652	1337	7.114.598	9,2	18,9
Acre	90	156	894.470	10,1	17,7
Distrito Federal	315	495	3.055.149	10,3	16,4
Tocantins	179	231	1.590.248	11,3	14,7
Paraíba	325	574	4.039.277	8,0	14,3
Amazonas	262	481	4.207.714	6,2	11,6
Piauí	241	346	3.281.480	7,3	10,6
Rondônia	142	187	1.796.460	7,9	10,5
Sergipe	166	224	2.318.822	7,2	9,7
Pará	417	788	8.690.745	4,8	9,2
Ceará	435	714	9.187.103	4,7	7,8
Alagoas	135	249	3.351.543	4,0	7,5
Mato Grosso	196	250	3.526.220	5,6	7,2
Rio Grande do Norte	168	248	3.534.165	4,8	7,1
Pernambuco	322	530	9.616.621	3,3	5,5
Goiás	228	346	7.113.540	3,2	4,9
Rio de Janeiro	528	797	17.366.189	3,0	4,6
Bahia	454	662	14.930.634	3,0	4,5
Mato Grosso do Sul	83	114	2.809.394	3,0	4,1
Paraná	273	365	11.516.840	2,4	3,2
Minas Gerais	476	651	21.292.666	2,2	3,1
Espírito Santo	87	94	4.064.052	2,1	2,3
Santa Catarina	133	163	7.252.502	1,8	2,3
Rio Grande do Sul	178	244	11.422.973	1,6	2,1
São Paulo	591	848	46.289.333	1,3	1,8
Exterior	19	20
Total	7.314	11.491	211.755.692	3,5	5,5

Use os botões abaixo para votar:

USO DA INTELIGÊNCIA ARTIFICIAL NA PREDIÇÃO DA MORTALIDADE INFANTIL NO ESTADO DO CEARÁ

Proposta em 10 de Agosto de 2021 às 14:43.

TIPO: APRESENTAÇÃO

O FOCO desse trabalho é a aplicação da Inteligência Artificial (Machine Learning) na predição da MORTALIDADE INFANTIL no estado do Ceará. Foi utilizado o modelo de APRENDIZADO SUPERVISIONADO com MLP (Multi-Layer Perceptron), visando apoiar as estratégicas da Saúde Pública no combate a esse mal presente nos países do terceiro mundo, especialmente no Nordeste brasileiro.

FASE DO TRABALHO: A pesquisa foi concluída como TESE de Doutorado defendida na Faculdade de Medicina da UFC-CE em maio/2019, e apresentada e publicada nos anais de eventos científicos: 13th CONTECSI - International Conference on Information Systems and Technology Management – USP 2016 e no XI Seminário de Pesquisa da ESTÁCIO 2019.

O OBJETIVO dessa pesquisa multidisciplinar, envolvendo a Ciência da Computação, a Administração, a Estatística e a Saúde Pública, é desenvolver modelos preditivos de mortalidade infantil usando algoritmos da inteligência artificial e mineração de dados, capazes de gerar conhecimentos até então não percebidos ou não utilizados pela gestão da saúde pública para apoiar suas ações, políticas e planejamentos, visando a redução da mortalidade infantil no estado do Ceará ou em qualquer outro estado, pois trata-se de uma pesquisa replicável.

A METODOLOGIA utilizada foi a quantitativa que extrai informações estatísticas relevantes dos algoritmos aplicados, mas apoiada por pesquisas bibliográficas que sustentam as teorias aplicadas. Essa também é uma pesquisa aplicada, pois seus resultados são aplicáveis no mundo real em benefício das nossas comunidades. Os dados usados nesta pesquisa foram coletados da base pública do DATASUS do Ministério da Saúde especificamente dos sistemas SIN (Sistema de Informações de Mortalidade) e SINASC (Sistema de Nascidos Vivos). Os dados foram processados usando comitê de redes neurais, executada em 100 (cem) épocas, utilizando K-Folds (K=10), isto é, cada rede neural usou 10 (dez) arquivos com 70% de aprendizado e 30% para os testes, usando a técnica de Cross Validation.

OS RESULTADOS: Foram utilizados dados do Ceará, onde nascem mais de 130 mil crianças por ano e morrem mais de 1.600 crianças antes de completar um ano de vida, TMI (Taxa de Mortalidade Infantil) médio de 12,3, isto é, a cada 1.000 nascimentos, 12,3 crianças morrem antes de completar um ano. As principais causas da mortalidade infantil observadas são: baixo peso ao nascer, redução das semanas de gestação, poucas ou nenhuma consultas pré-natal, pouca idade e baixa escolaridade das mães, entre outras questões. Quando aplicamos várias vezes os algoritmos de Redes Neurais em 20 variáveis das características de 8.159 óbitos infantis e de 10.235 nascidos vivos que sobreviveram ao primeiro ano de vida, alcançamos acurácia média de 97,41% (+/- 0,40%) na predição do futuro.

CONCLUSÃO, esta pesquisa mostrou grandes possibilidades que a Inteligência Artificial pode oferecer à Gestão da Saúde pública. A partir dos resultados podemos inferir que é possível predizer a mortalidade infantil usando algoritmos de Inteligência Artificial com margem de erro satisfatória, possibilitando o uso dessa tecnologia de baixo custo no apoio às estratégias da saúde pública no Brasil. Os testes mostraram que é possível decifrar os padrões e prever a mortalidade ou risco de mortalidade com alto nível de acerto, entretanto, “NÃO QUEREMOS PREVER MORTES, QUEREMOS PODER EVITÁ-LAS, MITIGANDO OS RISCOS”.

Use os botões abaixo para votar:

USO DA INTELIGÊNCIA ARTIFICIAL NA PREDIÇÃO DE ACIDENTES DE TRÂNSITO NA REGIÃO METROPOLITANA DE FORTALEZA-CE (RMF)

Proposta em 10 de Agosto de 2021 às 14:06.

TIPO: APRESENTAÇÃO

O FOCO desse trabalho é a aplicação da Inteligência Artificial (Machine Learning) na predição de ACIDENTES DE TRÂNSITO na Região Metropolitana de Fortaleza (RMF). Foi utilizado o modelo de APRENDIZADO SUPERVISIONADO com MLP (Multi-Layer Perceptron), para colaborar com a geração de informações estratégicas para a Saúde Pública e segurança Pública combater esse tipo de evento. Para os leigos pode não se apresentar, mas o trânsito e os acidentes de trânsito têm um padrão que podemos detectar e mapear usando as técnicas corretas de IA.

FASE DO TRABALHO: A pesquisa foi concluída em 2019, apresentada e publicada nos anais de eventos científicos: I Congresso Nacional de Gestão Pública para Resultados (ConGpR) 2020, XI Seminário de Pesquisa da ESTÁCIO 2021 e está submetido ao 11º Congresso Brasileiro de Epidemiologia da ABRASCO 2021.

O Objetivo desta pesquisa é auxiliar os órgãos de trânsito e de saúde na geração de conhecimento tático e estratégico para prevenir acidentes de trânsito, utilizando tecnologias modernas, como BIGDATA e algoritmos de inteligência Artificial (IA): Redes Neurais Artificiais (RNA) para predizer onde e quando ocorrerão os acidentes de trânsito; identificando padrões de locais e horários; prevendo locais de possíveis acidentes, auxiliando os órgãos de saúde e de trânsito da nossa região, podendo ser facilmente replicadas para outro municípios.

A Metodologia utilizada foi a quantitativa, pois ela se apoia predominantemente em dados estatísticos, isto é, o problema estudado conduz a um experimento que gera um modelo (processo) a ser aplicado gerando valores estatísticos. Tem como objetivo quantificar um problema que nesse caso são os acidentes no trânsito e entender sua dimensão criando hipóteses explicativas para os acontecimentos. Os dados coletados para as primeiras inferências foram extraídos do site do Observatório de segurança viária de Fortaleza, do período entre 2015 e 2018.

Os resultados, foi usada a estatística descritiva nos dados de 86.041 acidentes de trânsito no município de Fortaleza no período de 2015 a 2018. Em 2018 foram registrados pelo SIAT (Sistema de Informação de Acidentes de Trânsito) 14.694 acidentes. Entre 2017 e 2018, houve redução no número de acidentes com feridos, redução de 18,4%, e no número de acidentes com vítimas fatais, redução de 14,6%. Entre os anos de 2015 e 2018, 8% das ocorrências são atropelamentos, devido à vulnerabilidade do pedestre, este tipo de ocorrência está entre as mais severas. O modelo proposto foi capaz de predizer acidentes de trânsito com uma acurácia de 89.04%, mais ou menos 1,8%.

Concluindo, no Brasil, mesmo com o endurecimento das leis de trânsito e aspectos relacionados à mobilidade urbana, ainda há grande ocorrência de acidentes de trânsito que provocam mortes, lesões e perdas econômicas. As perdas financeiras decorrem dos altos custos com tratamentos, reabilitações e investigações dos acidentes, além da redução/perda de produtividade que pode chegar a 3% do produto interno bruto (PIB). O modelo mostrou boa acurácia, mostrando grandes possibilidades de auxiliar a gestão pública na redução de acidentes de trânsito, consequentemente reduzindo os impactos na saúde pública. “NÃO QUEREMOS PREVER ACIDENTES, QUEREMOS PODER EVITÁ-LOS”.

Use os botões abaixo para votar:

USO DA INTELIGÊNCIA ARTIFICIAL NA PREDIÇÃO DE ASSALTOS À BANCOS NO ESTADO DO CEARÁ

Proposta em 9 de Agosto de 2021 às 14:50.

O FOCO desse trabalho é a aplicação da Inteligência Artificial (Machine Learning) na predição de eventos de ASSALTOS À BANCOS em pequenas comunidades do interior do Nordeste do Brasil. Foi utilizado o modelo de APRENDIZADO SUPERVISIONADO com MLP (Multi-Layer Perceptron), para colaborar com a geração de informações estratégicas para a Segurança Pública combater esse tipo de delito. A tecnologia atingiu altos níveis de disponibilidade, armazenamento, processamento e grande redução nos custos de operação, possibilitando o uso com qualidade de algoritmos de Inteligência Artificial (IA) em várias áreas. Os assaltos à bancos tem um padrão que podemos detectar usando as técnicas corretas.

FASE DO TRABALHO: A pesquisa já foi concluída, apresentada e publicada nos anais de dois eventos científicos em 2019: no 16th CONTECSI - International Conference on Information Systems and Technology Management – USP 2019 e no XI SEMINÁRIO ESTÁCIO DE PESQUISA CIENTÍFICA 2019.

Os Objetivos dessa pesquisa multidisciplinar: Ciência da Computação, Administração, Estatística e Segurança Pública, é aplicar técnicas modernas da computação para combater os crimes de assaltos à bancos no estado do Ceará utilizando modelos preditivos de IA capazes de gerar conhecimentos até então não percebidos ou não utilizados pela gestão da Segurança pública, visando apoiar suas ações, políticas e planejamentos, reduzindo essas práticas na nossa região e em outros estados, por tratar-se de uma pesquisa facilmente replicável.

A Metodologia A metodologia utilizada foi a quantitativa e aplicada para apresentar os resultados estatísticos apurados pelos algoritmos de IA. Os dados utilizados na pesquisa foram coletados do site do Sindicato dos Bancários do estado do Ceará, que registra todos os assaltos à bancos ocorridos no estado logo que eles ocorrem. Os dados foram processados usando Deep Learning, executado em 200 (duzentas) épocas em um comitê de cinco redes neurais, com a base de 250 assaltos ocorridos entre 2015 e 2019.

Os resultados apurados mostram um padrão de comportamento dos criminosos: 54,6% dos assaltos são em localidades com menos de 30 mil habitantes, 46,2% usam explosivos, 61% durante a madrugada e 93% em dias úteis, sendo 45,4% nos primeiros cinco dias ou nos últimos cinco dias do mês e 77% dos casos em agências do Banco do Brasil ou Bradesco. Quando aplicamos os modelos preditivos obtivemos um nível de acurácia de 85,43% mais ou menos 3,25% de variação, isto é, podemos ter uma boa avaliação dos riscos de ocorrer um assalto com margem de acerto de quatro assaltos em cada cinco ocorridos.

Concluindo, esta pesquisa mostrou possibilidades que a Inteligência Artificial pode oferecer à Segurança pública. Após a aplicação do aprendizado de máquina e testes de acurácia, podemos inferir que quatro em cada cinco assaltos à bancos no estado do Ceará apresentará um padrão conhecido e que a aplicação das técnicas corretas poderá prever com boa margem de acerto. Dados oficiais e mais robustos trarão maior assertividade às predições, entretanto não obtivemos acesso a esses dados.

“NÃO QUEREMOS PREVER ASSALTOS, QUEREMOS EVITÁ-LOS”, os efeitos nas localidades atacadas são violentos e prejudiciais ao comércio e empregos, deixando essas populações sem o sistema bancário por vários meses, eventualmente para sempre.

Use os botões abaixo para votar:

USO DA INTELIGÊNCIA ARTIFICIAL NA PREDIÇÃO DO DESFECHO DE PACIENTES COM COVID-19 EM SOBRAL-CE NA PRIMEIRA ONDA EM 2020

Proposta em 16 de Agosto de 2021 às 17:16.

TIPO: APRESENTAÇÃO

O FOCO desse trabalho é a aplicação da Inteligência Artificial (Machine Learning) na predição do desfecho: ALTA ou ÓBITO, em pacientes com COVID-19 no município de Sobral na Zona Norte do estado do Ceará. Nesta pesquisa aplicada no mundo real, foi utilizado o modelo de APRENDIZADO SUPERVISIONADO com MLP (Multi-Layer Perceptron), visando apoiar a Secretaria de Saúde do município no combate a pandemia na região em busca de reduzir a mortalidade provocada pela doença.

FASE DO TRABALHO: O projeto de pesquisa foi aplicado no mundo real, durante a primeira grande onda de mortalidade da COVID-19 no Brasil entre abril e julho de 2020, buscando identificar entre pacientes acometidos da doença os que tinham maior probabilidade do desfecho de óbito, para que mais esforços fossem realizados para reverter a predição do algoritmo.

O Objetivo dessa pesquisa multidisciplinar, envolvendo a Ciência da Computação, Estatística e a Saúde Pública, foi desenvolver modelos preditivos do desfecho de óbito ou alta em pacientes da COVID-19 usando algoritmos da inteligência artificial capazes de gerar conhecimentos até então não percebidos ou não utilizados pela gestão da saúde pública no Município de Sobral no Ceará para apoiar suas ações, políticas e planejamentos, visando a redução da mortalidade causada pela pandemia durante a primeira onda.

A Metodologia utilizada foi a quantitativa que extrai informações estatísticas relevantes dos algoritmos aplicados, mas apoiada por pesquisas bibliográficas que sustentam as teorias aplicadas. Essa também é uma pesquisa aplicada, pois seus resultados foram aplicados no mundo real em benefício dos pacientes de CVID-19 em Sobral-CE. Os dados usados nesta pesquisa foram coletados na atenção básica de saúde pela secretaria de Saúde do município. Os dados foram processados usando comitê de redes neurais, executada em 100 (cem) épocas, utilizando K-Folds (K=10), isto é, cada rede neural usou 10 (dez) arquivos com 70% de aprendizado e 30% para os testes, usando a técnica de Cross Validation.

Os resultados: Em Sobral, a maior incidência de casos de COVID-19 na primeira onda ocorreram entre 18 e 23/05/2020, e consequentemente cerca de 15 (quinze) dias depois, chegava a maior incidência de óbitos entre os dias 31/05 e 05/06/2020, confirmando a média apurada de 15,6 dias entre os primeiros sintomas e o óbito na região. Nesse momento passamos a utilizar todos os recursos possíveis e a inteligência Artificial foi usada. Embora os dados disponíveis não fossem os ideais, foi obtido acurácia de 83,3% de acerto durante os treinamentos e testes. Seguem os resultados obtidos nas primeiras inferências com dados reais: em 26/06/2020 de 4.639 pacientes avaliados, 139 foram identificados de alto risco, representando 2,9%; em 19/07/2020 de 1.695 pacientes avaliados, 136 de alto risco, cerca de 8,0% e em 14/08/2020 de 411 pacientes avaliados, 48 de alto risco, cerca de 11,6% que infelizmente 30 (trinta) destes pacientes vieram a óbito 48 horas depois da inferência.

Concluindo, esta pesquisa mostrou grandes possibilidades que a Inteligência Artificial pode oferecer à Saúde pública. A partir dos resultados foi possível verificar o quanto os algoritmos infelizmente acertavam os desfechos de óbitos, mas foram muito úteis para aqueles que foram salvos pela predição do risco. Assim, podemos inferir que é possível predizer a mortalidade por COVID-19 usando algoritmos de Inteligência Artificial com margem de erro satisfatória, possibilitando o uso dessa tecnologia de baixo custo no apoio às estratégias da saúde pública no Brasil. Os testes no campo de batalha da pandemia mostraram que é possível decifrar os padrões e prever a mortalidade ou risco de mortalidade com alto nível de acerto, entretanto, “NÃO QUEREMOS PREVER MORTES, QUEREMOS PODER EVITÁ-LAS, MITIGANDO OS RISCOS”.

Use os botões abaixo para votar:

USO DE APP MOBILE PARA O GEORREFERENCIAMENTO DO LIXO PLÁSTICO EM PARQUES URBANOS EM FORTALEZA-CE

Proposta em 12 de Agosto de 2021 às 18:27.

TIPO: APRESENTAÇÃO

O FOCO desse trabalho é ajudar na conquista do Objetivo 14 (Vida na Água) da Agenda 2030 que visa conservar e promover o uso sustentável dos oceanos, dos mares e dos recursos marinhos para o desenvolvimento sustentável. O Lixo plástico produzidos pela sociedade degrada o meio-ambiente de várias maneiras: difícil decomposição; agressão às plantas e animais; polui os lençóis freáticos; polui oceanos, mares e recursos marinhos etc.

FASE DO TRABALHO: A pesquisa está em fase de execução, iniciada em 2020 com o desenvolvimento do Aplicativo em sua primeira versão, que já possibilitou a coleta de dados em mais de 15 (quinze) visitas de campo com a equipe de pesquisa, que já permitiu e realização dos primeiros cálculos e inferências estatísticas sobre o tema.

O OBJETIVO desse Projeto é usar a tecnologia da informação como aliada no defesa do Parque do Cocó, que envolvem suas matas, grande diversidade de animais, manguezais, nascentes, o próprio Rio Cocó e sua desembocadura na Praia da Sabiaguaba no Oceano Atlântico, para mapear, denunciar e gerar conhecimentos estratégicos que auxiliem à tomada de decisão contra o Lixo Plástico descartado pela população no entorno do parque, causando danos à natureza.

A METODOLOGIA utilizada foi do tipo experimental e aplicada. Um protótipo foi criado para possibilitar o teste do modelo e tratamento das informações visando gerar esses benefícios concretos para a comunidade em que estamos inseridos. A coleta dos dados vem sendo realizada em campo com o envolvimento dos alunos pesquisadores voluntários. A pesquisa aplicada é motivada pela necessidade de resolver problemas concretos, mais imediatos ou não.

OS RESULTADOS: Os primeiros dados coletados são alarmantes, com detecção de mais de 100 (cem) pontos de lixo plástico no percurso padrão de 2.500 metros no entorno do parque nas últimas três coletas de campo. As coletas são registradas no aplicativo e georreferenciados lixos de três categorias: Plásticos rígidos, como garrafas pets e tampinhas; Plásticos moles, como sacos e isopores, e Outros tipos, como latinhas, garrafas de vidros e depósitos de alumínio. Cada categoria de lixo, ainda é classificada em: Reciclável; Em Decomposição e Decomposto. Na coleta realizada em abril/2021 foram registrados 107 pontos de lixo com média de um lixo plástico a cada 23,36 metros, na coleta seguinte, no início de maio/2021, foram registrados 156 pontos de lixo e em média, um lixo a cada 16,02 metros. Na última coleta no final de maio/2021 foram registrados 163 pontos, com média de um lixo a cada 15,33 metros.

Os Softwares utilizados no projeto são de uso público, como: R 3.5.1, ANACONDA para usar PYTHON3 com biblioteca PANDAS; JAVA 8 update 191; Banco de Dados livre MYSQL 8.0 e a Ferramenta JIRA para o Gerenciamento do Projeto de Pesquisa.

CONCLUSÃO, nas últimas coletas realizadas em campo, foi possível observar que o relaxamento e flexibilização da quarentena de isolamento imposta pela pandemia da Covid casou aumento na quantidade de lixo plástico descartado no entorno do parque, consequentemente, esses lixos vão para o mangue, depois para o Rio Cocó que desemboca no mar. O lixo plástico não desaparece, não some depois de descartado, ele continua na natureza causando estragos em sua rota que pode durar até 300 anos. Essa pesquisa é facilmente replicada para outras cidades ou países, podendo em breve, gerar um comparativo entre cidades do Brasil e do mundo com o indicador: Quantidade de pontos de lixo plástico descartados no percurso de 2.500 metros ou Quantidade média de metros entre pontos de lixo plástico georreferenciado.

Use os botões abaixo para votar:

USO DE CLUSTERIZAÇÃO PARA IDENTIFICAÇÃO DE SIMILARIDADE EM PRODUTOS ADQUIRIDOS PELA ADMINISTRAÇÃO PÚBLICA, VISANDO A DETECÇÃO DE ANOMALIAS PARA SUBSIDIAR A ATUAÇÃO DOS ÓRGÃOS DE CONTROLE.

Proposta em 15 de Setembro de 2021 às 11:45.

Tipo: Apresentação

FOCO

O objetivo deste trabalho é disponibilizar aos órgãos de controle diretrizes para elaboração de estratégias na identificação de irregularidades no processo de aquisição de produtos pela Administração Pública. Desta forma, aplica-se a técnica de Clusterização, com o uso de Algoritmos de Aprendizagem de Máquina (AM) seguindo o paradigma do Aprendizado não supervisionado, para agrupar produtos similares e descrições diversas visando proporcionar comparação entre eles. O resultado é o conjunto de situações anômalas cujo indício de irregularidade pareça evidente. Apresentamos uma metodologia para a realização dos agrupamentos de um produto alvo bem como o resultado obtido após o uso dos algoritmos de clusterização. Os eventos suspeitos estarão disponíveis em uma planilha consolidada e a análise da amostra é disponibilizada em diversos gráficos proporcionando uma visão global das aquisições. Os levantamentos foram realizados em ambiente RStudio e todos os pacotes utilizados são de uso gratuito favorecendo a replicação do método.

FASE DO TRABALHO

Este trabalho vem sendo utilizado como apoio na seleção de objetos de auditoria na escolha de potenciais credores suspeitos.

DESCRIÇÃO DA APRESENTAÇÃO

1 INTRODUÇÃO

Neste trabalho, apresentamos uma solução de Machine Learning, baseada em clusterização, a fim de analisar o comportamento dos preços dos produtos adquiridos e determinação de situações atípicas. O objetivo é subsidiar os órgãos de controle de informações organizadas de maneira a facilitar a percepção de situações com indícios de irregularidades para elaboração de suas estratégias. O desafio proposto é possibilitar a comparação de produtos de descrições similares em uma interface de fácil compreensão e demonstrar os comportamentos atípicos que ensejarão em diretrizes para verificação destes comportamentos suspeitos.

2. METODOLOGIA

A solução apresentada está baseada na utilização da técnica do uso de Clusterização e seus diversos algoritmos disponíveis. Utilizamos o ambiente gratuito RStudio e alguns pacotes necessários a implementação. O desafio é o estudo detalhado de produtos similares disponíveis em grandes bases de dados.

2.1 ESCOLHA DO PRODUTO

Devido ao grande volume de informações característico neste tipo de aplicação, a estratégia utilizada foi definir antecipadamente o produto a ser estudado. Em geral, a diversidade de sistemas computacionais executados nos jurisdicionados geram uma infinidade de descrições diferentes para um mesmo produto. Assim, podemos exemplificar, ao se trabalhar com um estudo de leite em pó integral, embalagem de 400 mg, produto corriqueiro nas merendas escolares, vamos simplesmente iniciar a busca pelo leite. Esta seria a chave de pesquisa inicial que contemplaria quaisquer descrições para este produto. Esta simplificação visa apenas reduzir o esforço computacional para a realização dos agrupamentos.

2.2 PREPARAÇÃO DOS DADOS

A preparação dos dados é muito simples, desde que os registros estejam disponíveis em formato adequado para o processamento. Utilizamos arquivos com a extensão “.csv”. Os atributos essenciais para a análise são: a descrição completa do item, o valor unitário e a quantidade adquirida. É conveniente atributos complementares para enriquecer a análise como credor, jurisdicionado além das informações do procedimento licitatório. Estas informações complementares serão utilizadas ao final, após a detecção das anomalias, a fim de apontar diretamente para o órgão de controle onde aconteceu e qual processo e procedimento licitatório deverá ser analisado. A implementação da etapa de preparação utiliza o pacote : ”tm” - Text Mining Package[1]. Alterações na descrição detalhada das ocorrências selecionadas visam permitir uma busca e agrupamentos mais adequados.

2.3 IMPLEMENTAÇÃO DOS AGRUPAMENTOS

2.3.1 CRIAÇÃO DO VETOR CARACTERÍSITCA

A elaboração dos agrupamentos é realizada a partir da construção de um modelo vetorial, implementado em uma matriz, onde denominamos de vetor característica. Esta técnica é usada para definição de similaridade entre documentos. No caso em questão, “nossos documentos” são as descrições a serem agrupadas. Um registro contendo uma descrição será considerado um “documento”. O que faremos é modelar cada documento(descrição) em um vetor característica[2] para futura comparação.

A matriz característica implementada contemplará em cada linha correspondente a uma descrição e em cada coluna todos os termos extraídos das diversas descrições do subgrupo de registros selecionados.

2.3.2 GERAÇÃO DOS AGRUPAMENTOS

A tarefa de geração dos agrupamentos é realizada a partir do uso dos algoritmos de clusterização disponíveis para o ambiente RStudio.

Kmeans[3] – Algoritmo Particional Baseado em Erro Quadrático[4]. O objetivo desse algoritmo é obter uma partição que minimiza o erro quadrático para um número fixo de clusters. O erro quadrático para um agrupamento contendo k clusters é a soma da variação dentro dos clusters. Esta variação é a distância de cada ponto do clusters ao centróide (ponto referência).

Critérios para escolha do melhor número de partições

Calinski-Harabasz

Utilização da função calinhara() para obtenção do valor do índice Calinski-harabasz para escolhar do melhor k.

2.3.3 ANÁLISE DOS AGRUPAMENTOS

A análise dos resultados gerados, independente do algoritmo utilizado, consiste na verificação dos agrupamentos e da possibilidade de junção de agrupamentos ou mesmo repetição do algoritmo em um agrupamento específico para obtenção do melhor resultado. O objetivo é identificar o melhor resultado testando os diversos algoritmos conforme as características do produto em estudo.

2.3.4 GERAÇÃO DOS GRÁFICOS PARA ANÁLISE

A solução implementada no ambiente RStudio, utiliza o pacote “ggplot2” para elaboração dos gráficos.

O objetivo dos gráficos gerados é apresentar uma visão global das ocorrências mais relevantes dentro de uma amostra selecionada. São utilizados o desvio padrão, valor máximo, valor mínimo e o quartil (Divisão da amostra em quatro partes iguais). Cada caso merece uma análise específica para ajustar o conjunto de ocorrências de maneira a minimizar os erros informados pelos jurisdicionados, diminuindo desta forma as distorções. É importante lembrar que o objetivo principal é a possibilidade de uma visualização global dos dados afim de descobrir as situações suspeitas. Estas merecem uma análise em campo pelas equipes de auditoria para o melhor entendimento das anormalidades detectadas.

3 IMPLEMENTAÇÃO DA METODOLOGIA

Apresentamos um caso prático para validação do modelo proposto implementado em RStudio e utilizando os pacotes já mencionados.

3.1 CASO PRÁTICO

3.1.1 BASE DE DADOS

O caso prático de estudo tem como Base de Dados as informações disponibilizadas em sites cujas fontes estão em dados abertos para o cidadão.

Trabalhamos com os Exercícios 2020 e 2021 e diversas unidades gestoras.

Esta base após a importação dos registros resultaram em torno de 2,5 milhões de registros incluindo os exercícios de 2020 e 2021. Temos portanto uma amostra bem robusta para estudo.

3.1.2 EXECUÇÃO DA IMPLEMENTAÇÃO

Escolhemos para análise o produto Leite Integral 400 mg .

Este gênero alimentício é muito adquirido para composição das merendas escolares dos municípios. Nossa descrição original, é apenas uma referência, pois devido aos inúmeros sistemas existentes e ausência de padrão, vamos identificar diversas denominações para este produto. Diante desta dificuldade usaremos a técnica de clusterização visando o agrupamento de descrições similares.

3.1.3 MONTAGEM DOS BIGRAMAS

A partir da amostra selecionada, a implementação montará os bigramas para cada descrição. O objetivo é trabalhar com palavras compostas e identificar seu número de ocorrências para melhor seleção.

O nosso caso teremos conforme abaixo os bigramas com maior relevância para “leite”.

bigrama qtd

leite po 3932

soro leite 2032

leite integral 1714

validade minima 1575

creme leite 1502

Os bigramas escolhidos foram :”leite po” e “leite integral”.

O agrupamento será realizado em 5646 registros contendo as descrições selecionadas.

3.1.4 Resultados dos Agrupamentos

Escolha do número de agrupamentos conforme parâmetro Calinski_Harabasz após rodar diversos valores para o agrupamento. Neste exemplo temos valores de k até 20, sendo o escolhido k=14.

Parametro_k Valor_Calinski_Harabasz

4 19.9179555806979

5 17.6638055970403

6 18.5708527159444

7 17.157170144061

8 19.8426624785044

9 17.3781937824101

10 20.7326727450985

11 20.3325488404998

12 17.9055665540894

13 17.8040201328406

14 21.6090244892363

15 21.0433676992116

16 19.595869832852

17 15.7008951436671

18 18.5760534730874

19 17.5263861960249

20 16.6658973730055

A geração dos 14 agrupamentos teve o seguinte resultado.

Agrupamento Quantidade

1 1355

2 245

3 139

4 73

5 54

6 53

7 27

8 19

9 19

10 11

11 10

12 6

13 3

14 3

Ao analisar o agrupamento 5 gerado temos o seguinte resultado com as respectivas variações de preços encontradas.

leite po ( Medida = pacote ) ( Amostra = 54 ) ( Qtd = 127724 ) ( Media = 11.36 ) ( Dp = 5.57 ) ( Vlrmax = 26.68 )

it....... Descrição........................................................................................................... valor............. %Ac

24..... leite po adocado 400 grs................................................................................. R$ 5,49....................

25..... leite po integral pacotes 400 grs...................................................................... R$ 7,63......... 38,98%

13..... leite po integral embalagem 400 grs registro ministerio saude........................... R$ 8,19......... 49,18%

3....... leite po integral pct 400 grs leite po integral pct 400 grs.................................... R$ 8,74......... 59,20%

43..... leite po integral 400 grs................................................................................... R$ 8,90......... 62,11%

49..... leite po integral 400 grs................................................................................... R$ 8,99......... 63,75%

19..... leite po desnatado pcte 500 grs....................................................................... R$ 9,50......... 73,04%

26..... leite po pcte 400 grs....................................................................................... R$ 9,78......... 78,14%

44..... leite po integral embalagem registro ministerio saude....................................... R$ 9,80......... 78,51%

45..... leite po integral embalagem registro ministerio saude cota reserva.................... R$ 9,80......... 78,51%

23..... leite po integral pct c 400 gr registro inspecao ministerio agriculturasif co........... R$ 9,86......... 79,60%

16..... leite po 500 grs............................................................................................... R$ 9,94......... 81,06%

20..... leite po integral 400 grs................................................................................... R$ 9,94......... 81,06%

37..... leite po integral 400 grs................................................................................. R$ 10,10......... 83,97%

2....... leite po integral pct 400 grs leite po integral pct 400 grs................................... R$ 10,17......... 85,25%

28..... leite po embalagem pacotes 400 grs.............................................................. R$ 10,60......... 93,08%

18..... leite po pacote 400 grs.................................................................................. R$ 10,65......... 93,99%

1....... leite po leite po integral comum composto lacteo leite integral po pct 400 g...... R$ 10,83......... 97,27%

27..... leite po leite po integral comum composto lacteo leite integral po pct 400 g...... R$ 10,83......... 97,27%

42..... leite po integral 400 grs................................................................................. R$ 10,90......... 98,54%

9....... leite po integral embalagem 400 grs registro ministerio saude......................... R$ 11,00........ 100,36%

4....... leite po integral pct 400 grs leite po integral pct 400 grs................................... R$ 11,32........ 106,19%

31..... leite po integral pacotes 400 grs.................................................................... R$ 11,47........ 108,93%

51..... 014178 leite po integral 400 grs..................................................................... R$ 11,80........ 114,94%

7....... leite po integral conteudo materia gorda minima 26 400 grs............................. R$ 12,20........ 122,22%

30..... leite po integral 400 grs................................................................................. R$ 12,20........ 122,22%

38..... leite po integral 400 grs................................................................................. R$ 12,22........ 122,59%

8....... leite po instantaneo 400 grs........................................................................... R$ 12,35........ 124,95%

33..... leite po integral 400 grs................................................................................. R$ 12,58........ 129,14%

5....... leite po integral pct 400 grs leite po integral pct 400 grs................................... R$ 12,70........ 131,33%

17..... leite po pacote 400 grs.................................................................................. R$ 12,71........ 131,51%

29..... leite po integral 400 grs................................................................................. R$ 12,78........ 132,79%

50..... leite po integral 400 grs................................................................................. R$ 12,99........ 136,61%

39..... leite po integral teor materia gorda menor 15 lata 400 grs............................... R$ 13,00........ 136,79%

53..... leite po integral pct 400 grs............................................................................ R$ 13,12........ 138,98%

15..... leite po integral pct c 400 g registro inspecao ministerio agriculturasif .............. R$ 13,17........ 139,89%

52..... 014178 leite po integral 400 grs..................................................................... R$ 13,95........ 154,10%

21..... leite po integral 400 grs................................................................................. R$ 15,20........ 176,87%

10..... leite po integral embalagem 400 grs registro ministerio saude......................... R$ 16,00........ 191,44%

47..... leite po lactoseemb 300 grs........................................................................... R$ 16,80........ 206,01%

46..... leite po ninho 3 400 grs................................................................................. R$ 17,48........ 218,40%

48..... leite po lactoseemb 300 grs........................................................................... R$ 18,45........ 236,07%

12..... leite po lactoseembalagem 300 grs................................................................ R$ 18,85........ 243,35%

14..... leite po sustagem 400 grs............................................................................. R$ 21,40........ 289,80%

11..... leite po sustagem 400 grs............................................................................. R$ 21,70........ 295,26%

41..... 043350 leite po ninho prebio 2 400 grs........................................................... R$ 25,74........ 368,85%

40..... 043350 leite po ninho prebio 2 400 grs........................................................... R$ 26,68........ 385,97%

4 Considerações Finais

A técnica apresentada é instrumento eficiente para identificação de distorções em preços de produtos adquiridos pela Administração Pública, no entanto não é suficiente para definir possíveis ações de controle. É necessário o uso como ponto de partida que servirá como amostra para possíveis fornecedores alvos de análise. Assim otimizamos o escopo de fornecedores com maior potencial de risco. A complementação de outras tipologias para identificação de fornecedores de alto risco garantirá um maior grau de sucesso nas ações de controle.

DETALHES TÉCNICOS

Utilização do ambiente R_Studio e pacotes gratuitos inerentes ao ambiente.

REFERÊNCIAS

[1] Ingo, Feinerer.Text Mining Package. 2018. Disponível em :https://cran.r-project.org/web/packages/tm/tm.pdf. Acesso :29/07/2019

[2] Ning,Pang.Introduction to Data Mining.Disponível em :https://www-users.cs.umn.edu/~kumar001/dmbook/ch7_clustering.pdf.Acesso :29/07/2019

[3] R-core@R-project.org,K-Means Clustering.Disponível em : https://www.rdocumentation.org/packages/stats/versions/3.6.1/topics/kmeans. Acesso:29/07/2019

[4] Katti Faceli..[et al] ,Inteligência Artificial:Uma Abordagem de Apredizado de Máquina, Katti Faceli..[et al] – Rio de Janeiro:LTC, 2017 – p 213

Use os botões abaixo para votar:

Uso de ferramentas de Geoprocessamento para a identificação de problemas ambientais na escala municipal

Proposta em 11 de Setembro de 2021 às 13:49.

Tipo: Oficina

Duração: 2 horas

O uso de ferramentas de Geoprocessamento para a análise do ambiente urbano é importantes pois auxilia no desenvolvimento de métodos para avaliar a qualidade ambiental e a geração de indicadores de análise espaço-temporal das cidades.

A Lei Complementar Federal nº 140/2011 estabelece como competência municipal legislar sobre assuntos ambientais de interesse local. Assim, é de grande importância que os gestores públicos das prefeituras estejam familiarizados com o uso de softwares de Geoprocessamento como uma ferramenta de auxílio na mensuração e identificação dos problemas ambientais urbanos.

A presente oficina desenvolverá um exercício de análise espacial urbana na temática dos resíduos sólidos, apresentando uma proposta de identificação de focos de resíduos sólidos urbanos em vias públicas. Como produto final dessa oficina, será gerado um Mapa de Kernel (mapa de ilhas de calor), indicando as áreas do município em análise que foram registradas as maiores concentrações de descartes irregulares de resíduos sólidos urbanos. Serão abordadas as diversas etapas necessárias para a obtenção dos dados de localização das áreas com descarte irregular, sendo elas: 1) obtenção de informações junto à Prefeitura; 2) análise espacial a partir de imagens do Google Earth e do Google Street View; 3) análise em campo e registro dos locais com descarte de resíduos sólidos urbanos; 4) processamento dos dados no Qgis para a geração do Mapa de Kernel.

Através dessa oficina espera-se apresentar uma proposta de levantamento de dados ambientais no ambiente urbano e que, após ser processada por meio de softwares de Geoprocessamento, apresenta potencial de gerar indicadores de acompanhamento da dinâmica de focos de resíduos sólidos na escala municipal.

EMENTA:

- Google Earth e Google Street View como ferramentas de análise ambiental urbana;

- Como fazer roteiro de campo e registro de focos de lixo;

- Processamento dos dados no Qgis e geração do Mapa de Kernel.

Obs.: Será forncecida apostila da oficina.

Use os botões abaixo para votar:

Uso de Machine Learning para a avaliação de escolas sob o princípio da equidade

Proposta em 17 de Agosto de 2021 às 17:25.

- tipo de proposta: apresentação

- descrição: O trabalho tem como inspiração o Indicador Efeito Escolar criado pelo Doutor Amaury Patrick Gremaud, Fabiana de Felicio, Roberta Loboda Biondi e o exame nacional do Saeb, principalmente.

Considerando que o fator socioeconômico (estrutura da família, renda, escolaridade dos pais, etc) seja determinante para o desempenho dos alunos em provas avaliativas, seria superficial considerarmos que apenas a nota obtida no Saeb ou em qualquer outro exame seria suficiente para avaliarmos as escolas. Se fizermos isso, não consideraríamos que as escolas partem de realidades diferentes e estaríamos beneficiando aquelas que já possuem uma vantagem inicial, sem atentarmos para as questões relativas à equidade.

Dado isso, o modelo preditivo elaborado pretende calcular o valor agregado pelas escolas ao rendimento dos alunos considerando os fatores extraescolares, identificando aquelas que mais se destacaram das escolas com perfil socioeconômico semelhante de alunos.

Os pilares técnicos foram:

Uso de variáveis socioeconômicas do questionário do Saresp como renda e situação de trabalho dos pais: e do questionário socioeconômico da Prova Brasil (atual Saeb)

Sumarização de variáveis dos alunos para escolas, com criação de variáveis dummy: conseguimos considerar os dados de todos os alunos, transformando variáveis originalmente categóricas em % de alunos que responderam dada alternativa naquela questão (ex: % alunos de pardos, % de alunos negros, % alunos brancos por escola).

Criação de pilares (macrovariáveis): Feature Engineering com Decision Tree para combinar variáveis que façam mais sentido usadas em conjunto. Exemplo: Criação de pilar que reflita estrutura da família combinando as variáveis: % alunos que moram com a mãe, % de alunos que moram com o pai, % de alunos que moram com o irmão, % de alunos que moram com os avós.

Uso de técnicas mais complexas: Uso de Cross-Validation para validação e técnicas de ML para treino (Decisiton Tree, Random Forest, Gradient Boosting, Lasso, dentre outras.).

Os resultados são bem interessantes, vemos que não necessariamente as melhores escolas são aquelas que obtiveram as melhores notas, e vemos escolas que a princípio eram medianas surgirem como destaques devido ao valor agregado que conseguiram fornecer aos seus alunos.

- foco principal da apresentação: Apresentar uma metodologia alternativa e mais completa na avaliação de escolas que possa ser usada pelos demais órgãos de controle ao selecionar uma amostra de escolas para fiscalização ou mesmo para identificação de melhores práticas para estudo, o que poderia ser usado por qualquer interessado em avaliar políticas públicas, por exemplo.

- fase do trabalho apresentado: parte técnica está concluída e já foi apresentada internamente no órgão. Atualmente, o ranking de escolas construído está sendo usado para seleção de casos para estudo/fiscalização que começará em setembro.

- detalhes técnicos: Foi utilizado R para análise exploratória, feature engineering e desenvolvimento de modelo preditivo.

Use os botões abaixo para votar:

Uso de modelos preditivos de machine learning para seleção de amostra de auditoria de processos de pedidos de transposição de servidores oriundos dos ex-territórios federais do AP, RO e RR pelo TCU

Proposta em 11 de Setembro de 2021 às 18:26.

Tipo de proposta: apresentação

Como exceção ao instituto do concurso público, a Constituição Federal de 1988 permite o ingresso nos quadros federais de servidores públicos dos estados do AP, RO, e RR, desde que eles tenham trabalhados nesses estados na época em que esses eram ainda territórios federais (antes de 88) ou em seus períodos de instalação. Para exercer esse direito, é necessário que o servidor estadual tenha formulado um pedido de transposição à Comissão Especial dos Ex-Territórios Federais (CEEXT), órgão pertencente ao Ministério da Economia, que possui cerca de 28 mil processos com pedidos desse tipo a serem apreciados, totalizando uma previsão de impacto anual nos cofres públicos federais de R$ 2.471.375.233,20 (2,5 bilhões de reais).

De forma a monitorar a efetividade de controles determinados a essa Comissão, a SecexAdministração/TCU, em parceria com o CePI/ISC, desenvolveu modelos de machine learning e realizou a extração em massa, por meio de técnicas de OCR e NLP, de dados de 27.069 processos contidos em atas em PDF no site do Ministério da Economia.

A partir dos dados colhidos, foram treinadas 133 combinações diferentes de modelos de aprendizado supervisionado de máquina, dadas pelos tipos de modelos de machine learning, hiperparâmetros e features selecionadas, de modo a se determinar o risco de um processo ter sido erroneamente deferido, quando, na verdade, deveria ter sido indeferido pela Comissão (falso-positivo).

A hipótese foi que o uso de inteligência artificial na seleção de processos deferidos outliers (com probabilidade de confiança de infedeferimento grande dada pelos modelos) seria melhor do que a seleção de objetos de auditoria por meio de amostragem aleatória convencional.

Dos 133 modelos treinados, selecionou-se os 8 modelos com melhor acurácia (todos com mais de 87,30%), dada por um processo de cross-validation com 10 compartimentos, para os quais foram submetidos os 10.909 processos deferidos do total de 27.069 processos extraídos. A partir do cálculo de risco desses modelos, foram selecionados duas amostras de um grupo de risco e de um grupo de controle, utilizando um gerador de números verdadeiramente aleatórios (TRNG) dado pelo site random.org, com base no ruído atmosférico.

Esses processos foram então analisados pela equipe de fiscalização, a fim de identificar melhorias no processo de julgamento desses pedidos de transposição pela Comissão auditada.

Resultados:

O uso de inteligência artificial na seleção de amostra de auditoria mostrou bem sucedido, tendo sido validada a hipótese formulada. Analisando o grupo de controle com a amostragem aleatória convencional feita em fiscalizações anteriores nesse mesmo tema, verificou-se uma alavancagem de 2,26x na eficiência do processo de fiscalização. Ao todo foram encontrados 25 processos com deferimento indevido. Com efeito, se fosse realizada uma amostragem aleatória convencional seria necessário analisar 375 processos, sendo que foi necessário analisar apenas 166.

Além disso, foi verificado que os controles implantados pela Comissão, determinados pelas fiscalizações realizadas, permitiu uma redução da taxa de deferimento indevido de 0,88%, no pior caso, o que corresponde a um benefício anual atual de R$ 5.095.853,81 (R$ 5 milhões por ano), que vai chegar em R$ 18.446.227,36 (R$ 18,5 milhões por ano), quando todos os pedidos de transposição forem julgados.

Por fim, o trabalho foi apreciado pelo TCU por meio do Acórdão 936/2021-TCU-P, tendo sido elogiado pelo Relator, Min Vital do Rêgo, oralmente em sessão plenária do Tribunal e por escrito em seu voto, no qual propõe que essa metodologia de uso de inteligência artificial em fiscalizações seja estimulada no Tribunal, pois "pode trazer resultados muito expressivos aos trabalhos desenvolvidos pelo TCU, tornando mais eficientes os processos de análise levados a efeito pelo Controle Externo".

Detalhes da fiscalização:

Processo: TC 028.963/2020-2

Modalidade: Monitoramento

Relator: Min. Vital do Rêgo

Acórdão 936/2021-TCU-Plenário

Detalhes técnicos:

Linguagem de programação: Python

Frameworks/tecnologias utilizadas: Jupyter; Pandas; NLTK; OpenCV; Tesseract; e Scikit-learn.

Fonte dos dados: https://www.gov.br/economia/pt-br/assuntos/comissao-ex-territorios/atas

Modelos de machine learning utilizados: KNN, SVM, LogReg, Naives Bayes, Decision Tree, Random Forest

O relatório de fiscalização, que contém essas informações, é público e pode ser obtido por meio de solicitação à SecexAdministração/TCU (secexadmin@tcu.gov.br).

Use os botões abaixo para votar:

Uso de XAI (Inteligência Artificial Explicável) na construção de políticas públicas baseadas em evidências

Proposta em 14 de Setembro de 2021 às 09:38.

A política pública baseada em evidências é uma necessidade cada vez maior de qualquer orgão ou governo. A transformação digital tem produzido informações em volumes nunca antes vistos, mas ao mesmo tempo os algoritmos e modelos que realmente tiram vantagem da massiva quantidade de dados utilizam deep learning, caixas preta por natureza devido às múltiplas interrelações entre os nós de uma rede neural.

O uso de SHAP, que utiliza Shapley Values, um conceito da Teoria dos Jogos, é uma das maneiras mais eficientes até agora para explicar o funcionamento de um modelo por meio dos efeitos e importância de seus atributos. Na Aneel, aplicamos esse modelo em uma pesquisa anual de satisfação do consumidor, cujo modelo atual utiliza Equações Estruturais (construtos) para identificar relações e até causalidades. Ao invés disso, utilizamos uma RNN, cujo uso proporciona uma visão de importância e efeitos de features específicas e ao mesmo tempo permite incorporar um elemento temporal, de modo que a explicitação dos efeitos das features possa ser utilizado para regulação. Tal uso (XAI) se faz necessário já que o que se procura não é só uma predição de resultados mas um entendimento das relações entre cada feature, por sua vez um aspecto regulatório ou da jornada do consumidor que se quer enfatizar. Além disso, outros submodelos podem ser utilizados para obter "actionable insights" em relação às políticas regulatórias, especialmente aquelas voltadas para a jornada do consumidor de energia elétrica.

O trabalho proposto conjuga dois artigos, "Inside the black box: using Explainable AI to improve Evidence-Based Policies", apresentado na IEEE CBI 2021 (https://cbi2021.events.unibz.it/program/) e "Consumer journey as a regulatory tool: a model for emulating competition in a monopolist market", a ser apresentado ainda em novembro próximo.

A utilização prática se dá pelo uso de deep learning e avanços no entendimento da importância da jornada do consumidor e é um primeiro passo para incorporação das várias fontes derivadas do big data, de acordo com o EBPM (evidence based policymaking movement) e propondo algumas incorporações úteis.

Use os botões abaixo para votar:

Utilização de análise de séries temporais na previsão do percentual de gastos com pessoal

Proposta em 19 de Agosto de 2021 às 14:20.

Descrição da apresentação:

O gasto com folha de pagamento consiste num dos principais componentes do orçamento de qualquer órgão público, chegando a comprometer até 60% da RCL no âmbito de Estados e Municípios.

Sendo assim, o presente trabalho objetiva a criação de um serviço de previsão e acompanhamento dos gastos com pessoal e Receita Corrente Líquida (RCL) do Estado do Espírito Santo e de seus municípios, bem como monitoramento da conformidade com os limites estabelecidos na Lei de Responsabilidade Fiscal.

Para o desenvolver esse serviço, tomamos como premissa que registros dos gastos e da RCL, por si mesmos, permitiriam criar projeções de seu comportamento futuro. Portanto, torna-se pertinente a análise de séries temporais. Para preparar os dados para uso nos algoritmos de séries temporais, realizamos ajustes, padronizando a periodicidade dos registros, aplicando fatores de correção do aporte previdenciário e corrigindo valores discrepantes. O estudo técnico realizado concentrou-se em dois algoritmos: SARIMA e Holt-Winter’s Exponential Smoothing. Estes representam duas tradicionais técnicas de análise de séries temporais compatíveis com o comportamento observado nas séries de gastos e RCL (tendência crescente e sazonalidade anual).

Como forma de entregar as projeções, foi elaborado um dashboard, apresentando os registros históricos e a projeção para cada série, além de um quadro de alerta que indica quais entes/poderes tendem a ultrapassar o limite estabelecido em lei o período projetado.

O dashboard de projeções de gastos está disponível para o público interno do TCE-ES, porém há planos para disponibilizá-lo também para os jurisdicionados. Dessa forma, espera-se que o dashboard possibilite o controle prévio das contas públicas e o aconselhamento dos entes na execução orçamentária. Também é esperado que no futuro, o dashboard auxilie a projeção de cenários econômicos e facilite a identificação de desvios.

Detalhes técnicos: Os dados utilizados foram obtidos a partir do Sistema Integrado de Gestão das Finanças Públicas do Espírito Santo (SIGEFES) para a esfera estadual e do Controle Informatizado de Dados do Espírito Santo (CidadES) para os órgãos municipais; Utilizou-se interpolação linear na preparação dos dados municipais; Foi utilizado o algoritmo Holt-Winter’s Exponential Smoothing para obter as projeções disponibilizadas no dashboard; A aplicação foi construída utilizando a linguagem Python e as bibliotecas Pandas, Statsmodels, Prophet, Matplotlib, Streamlit e SQLAlchemy; Implantação utilizando Docker.

Foco principal da apresentação: técnico;

Fase do trabalho apresentado: trabalho ou projeto em andamento;

Use os botões abaixo para votar:

Utilização de inteligência artificial em trilha de auditoria na área de acumulação de cargos públicos, para expurgo automático de situações legais nas áreas de Educação e Saúde

Proposta em 23 de Setembro de 2021 às 08:41.

Tipo de proposta: apresentação

Foco: gerencial

Fase: trabalho concluído e solução disponibilizada para os auditores

Tópico de interesse: Aplicações de Inteligência Artificial na atuação do Estado

Motivação do uso de análise de dados: minimizar ocorrências de falsos positivos na trilha de auditoria de acumulação de cargos públicos, através do uso de inteligência artificial, quando um ou mais vínculos do servidor é/são em cargos das áreas de educação e/ou saúde. Os falsos positivos são frequentes em função da diversidade de grafias utilizadas na descrição dos cargos, considerando que o cruzamento de dados envolve sistemas de diferentes esferas e entes, onde não há padronização na descrição dos cargos. Em muitos casos, informações de carga horária e outras características fazem parte da descrição do cargo registrada nos sistemas.

Técnicas e ferramentas utilizadas: banco de dados em Microsoft SQL Server, scripts em Python para tratamento dos dados e aprendizado de máquina utilizando Deep Learning, além da ferramenta de Analytics IBM Cognos para disponibilização e análise dos resultados pelos auditores, integrada ao Sistema de Observação das Contas Públicas (MIRANTE) do TCE/BA.

Descrição da apresentação: As ações de controle para coibir situações de acumulação de cargos por servidores públicos é de grande importância, não só sob o aspecto da legalidade, mas para promoção do princípio da moralidade na administração pública.

O TCE/BA já possui há alguns anos uma trilha de auditoria que identifica casos em que servidores recebem pagamentos num mesmo mês em decorrência de mais de um vínculo tanto com Governo do Estado como com Prefeituras Municipais do estado da Bahia, condição primária para identificação de situações de acumulação de cargos.

Essa trilha, entretanto, identifica e apresenta grande número de situações em que a acumulação de cargos é permitida por lei, por serem cargos de professores ou da área de saúde, gerando um esforço grande do auditor para identificar e separar, por meio de procedimentos de auditoria, as situações permitidas das situações ilegais, sendo que, em alguns jurisdicionados, a quantidade de situações permitidas suplanta as situações ilegais.

Diante do esforço para separação dos casos permitidos dos casos ilegais, alguns auditores passaram a avaliar somente situações em que havia o recebimento decorrente de 3 vínculos ou mais em um único mês, ou situações em que os valores recebidos fossem acima de determinado valor. Alguns auditores passaram também a priorizar outros exames com melhor relação entre o esforço aplicado e o resultado obtido.

Com a utilização da IA para aprimorar a identificação dos casos de acumulações permitidas, apresentando somente indícios com maior probabilidade de se tratar de uma acumulação ilegal, espera-se que a trilha de acumulação de cargos possa ser utilizada amplamente de forma prática e eficiente.

Resultados atingidos: redução de 62%, no exercício de 2020, e de 64% no exercício de 2021, no número de ocorrências de indícios de acumulação apresentado na trilha de auditoria de auditoria de acumulação de cargos do Sistema Mirante, em relação à versão sem utilização de inteligência artificial.

Detalhes técnicos: utilização de modelo de Deep Learning escrito em Python, para aprendizado no reconhecimento de vínculos nas áreas de Educação e Saúde, cobrindo a diversidade de cargos existentes, bem como grafias utilizadas. Banco de dados de vínculos em banco de dados Microsoft SQL Server e consumo e análise pelos usuários através do Sistema de Observação das Contas Públicas (MIRANTE) do TCE/BA, que possui como engine o Analytics IBM Cognos.

Use os botões abaixo para votar:

Utilizando análise de dados e Economia Comportamental para erradicar a pobreza

Proposta em 6 de Agosto de 2021 às 09:36.

Queremos contar o processo de criação de um modelo otimizado e replicável de prosperidade individual e coletiva da favela (Gerando Falcões Index) utilizando análise de dados, inteligência artificial, machine learning e ciência comportamental. As etapas que seguimos para criar o modelo estão abaixo:

Modelo Otimizado. Entendemos e dimensionamos o impacto de cada R$ investido na prosperidade individual e coletiva (Gerando Falcões Index) para determinar o valor mínimo com o maior retorno

Modelo Replicável. Criamos um modelo preditor de prosperidade individual e coletiva (Gerando Falcões Index) da favela de acordo com o investimento disponível

Utilizando Análise de dados, inteligência artificial, machine learning. Utilizamos modelos matemáticos avançados para treinar o computador (machine learning) em quais os fatores são mais relevantes para predizer o Gerando Falcões Index Modelo que usa

Ciência Comportamental. Com o intuito de obter insights mais precisos de como as pessoas realmente se comportam, mapeamos e propomos os comportamentos de famílias de baixa renda com o intuito de quebrar o ciclo da pobreza

Use os botões abaixo para votar: