6º Seminário Internacional sobre Análise de Dados na Administração Pública
O Evento
A sexta edição do Seminário Internacional sobre Análise de Dados na Administração Pública será transmitida por streaming pelo canal YouTube do TCU nos dias 29 e 30 de setembro de 2020.
O Seminário tem por objetivo promover o compartilhamento de experiências e boas práticas relacionadas ao uso de técnicas de análise e mineração de dados, enquanto instrumento para melhoria da gestão e do controle de entidades e políticas públicas. O evento é organizado conjuntamente pelo TCU e CGU.
O site www.brasildigital.gov.br traz maiores detalhes sobre o evento e suas edições passadas, com acesso ao conteúdo das palestras dos anos anteriores.
Chamada de trabalhos
A chamada de trabalho estará aberta até às 23h da terça-feira 15 de setembro, para submissão de propostas de oficinas e/ou de palestras. Ela busca identificar palestrantes de instituições de controle, de entidades da administração direta e indireta, bem como do meio acadêmico e do terceiro setor, para apresentar casos práticos e respectivos resultados, envolvendo a análise de dados da Administração Pública nas três esferas.
São de interesse do Seminário quaisquer trabalhos que se enquadrem no amplo leque temático de análise de dados da Administração Pública. Exemplos de tópicos de interesse:
- Processamento de linguagem natural (Natural Language Processing - NLP);
- Geoprocessamento e geotecnologias;
- Aplicações de Inteligência Artificial na atuação do Estado;
- Detecção de padrões e relacionamentos úteis à formulação ou execução de políticas públicas;
- Detecção de anomalias, abusos ou fraudes na arrecadação ou no gasto de recursos públicos;
- Priorização, por critérios de risco, urgência ou importância, de casos para auditoria, análise ou investigação pelo poder público;
- Otimização de processos repetitivos, como atendimento a demandas, triagem de denúncias ou confecção de peças processuais;
- Mineração de textos e outras fontes de dados não estruturados, para geração de insumos para processos de análise;
- Utilização de Sistemas de Informação Georreferenciadas (SIG) no planejamento, implementação, execução e monitoramento das políticas públicas;
- Utilização de geoprocessamento com a finalidade de descoberta e interpretação de informações relevantes para o controle ao longo de diversos períodos (espaço-tempo);
- Utilização de imagens de satélite e sensoriamento remoto como ferramentas para o monitoramento das políticas públicas ou situações de interesse público, por exemplo, na área ambiental, agrícola, de defesa ou de infraestrutura;
- Apoio à tomada de decisão em políticas públicas baseada no uso de visão computacional ou no processamento de imagens;
- Monitoramento ambiental e de risco de desastres por meio de sensoriamento remoto;
- Análise de redes (network analysis); e
- Análise de séries temporais.
Observações importantes:
- a apresentação deverá abordar, no mínimo, a motivação do uso de análise de dados, as técnicas e ferramentas utilizadas e os resultados atingidos (ou esperados, no caso de trabalhos ainda em curso);
- não serão aceitos trabalhos ou propostas de oficina que tenham como único objetivo a comparação entre ferramentas ou a divulgação de ferramentas específicas, gratuitas ou comerciais;
- não há exigência de que o trabalho tenha sido descrito em artigo científico ou realizado com rigor acadêmico, visto que o foco será no compartilhamento de experiências práticas;
- serão aceitos trabalhos realizados por entidades públicas, universidades, organizações do terceiro setor ou pessoas físicas independentes, desde que tenham sido utilizados dados do setor público para alcance de resultados de interesse público;
- o evento será transmitido pela internet, assim os palestrantes precisarão ter disponibilidade para transmitirem sua apresentação no dia e horário programado, com compartilhamento das transparências e vídeo ao vivo, pela aplicação Teams da Microsoft.
Cada trabalho deve ser submetido de forma independente na plataforma, informando, pelo menos:
- tipo de proposta: apresentação (20 minutos na programação principal do evento) ou ação educacional prática (tutorial ou oficina, com duração entre 1 a 4 horas em sala de aula "virtual" no Teams);
- título da apresentação/oficina;
- foco principal da apresentação: se técnico, para facilitar a realização de trabalhos semelhantes por analistas e cientistas de dados, ou gerencial, para demonstrar a gestores públicos os resultados potencializados pela análise de dados;
- fase do trabalho apresentado: estudo de caso com resultados práticos; trabalho ou projeto em andamento ou proposta em estudo para implementação;
- descrição da apresentação (em até 2000 caracteres sem espaço). Se possível, descreva os impactos vislumbrados ou que de fato foram alcançados pela proposta, estudo, trabalho ou projeto a ser apresentado;
- detalhes técnicos: métodos estatísticos ou modelos de aprendizagem utilizados; softwares e linguagens de programação utilizados;
- em se tratando de oficina, descreva: uma breve ementa, detalhando o conteúdo que pretende apresentar, duração necessária para a oficina, entre 1 a 4 horas;
- nome completo, instituição, dados para contato (email institucional, email privado e whatsapp) e mini-currículo (destacando sua experiência acadêmica e/ou profissional no tópico apresentado): essas informações devem estar presentes apenas na seção "Mais informações" visível unicamente pela organização do evento; as votações na plataforma serão realizadas com anônimato do palestrante proponente, assim procure evitar referências diretas à autoria no texto aberto da proposta.
Seleção dos trabalhos
A seleção das propostas será realizada por júri composto por representantes dos órgãos patrocinadores, considerando: votação da proposta na plataforma Speakerfight; impacto esperado do trabalho; originalidade; replicabilidade; e pertinência temática às áreas do Seminário.
Propostas
600 mil indícios de irregularidades na concessão do Auxílio Emergencial: lições aprendidas e diferenciais da abordagem adotada pelo TCU
Machine Learning, NLP, Redes Neuronais, deep learning, bancos de dados orientados a grafos, geoprocessamento, linguagens SAS, Python e R: isso é tudo que você não vai encontrar nesta apresentação. Embora o hype das técnicas e ferramentas seja o que mais chama a atenção, excelentes resultados são obtidos com técnicas simples de análise e cruzamentos de dados. Neste trabalho, desejamos apresentar como foram implementadas análises e cruzamentos de dados, por meio de tipologias (trilhas de auditoria), que identificaram 620.299 beneficiários do auxílio emergencial com indício de recebimento indevido do benefício. O trabalho envolveu o cruzamento de mais de 80 bases de dados e gerou benefício potencial de cerca de R$ 1,2 bilhão.
A ideia é apresentar os diferenciais, da abordagem utilizada pelo TCU e que pode ser replicada em trabalhos de natureza semelhante e, claro, contar o que aprendemos com a execução do trabalho.
A Abertura do sigilo fiscal para a apuração de superfaturamento em obras envolvidas na Operação Lava Jato
Metodologia:
Consiste no uso de Notas Fiscais Eletrônicas (NF-e) para o cálculo de superfaturamento. Os resultados foram obtidos mais rápida e assertivamente do que com os métodos baseados em referenciais oficiais de preços e engenharia de custos, que usualmente demandam vários meses de trabalho. Os dois primeiros processos de tomadas de contas especial a usar essa metodologia tiveram um aumento de 32% nos itens amostrados e de 27% no valor do sobrepreço, o que representa um prejuízo de R$ 462 milhões aos cofres públicos, identificados graças ao uso das NF-e, somente em 3 contratos da Refinaria Abreu e Lima. O dano final ainda está apuração.
Aspectos jurídicos:
O desafio técnico dependia da superação de um entrave jurídico, ocorrido em 2015, com o entendimento inequívoco de que o inciso II do § 1º art. 198 do Código Tributário contempla o compartilhamento de sigilo fiscal mediante solicitações de autoridade administrativa. Assim, sempre um superfaturamento for identificado numa contratação púbica, é juridicamente possível o compartilhamento do sigilo das NF-e que têm o sujeito passivo como destinatário ou emissor. Mais recentemente, o Decreto 10.209/2020 positivou as condições que obrigam o atendimento, pela Receita Federal do Brasil (RFB), de solicitações e requisições de compartilhamento de sigilo fiscal oriundas da CGU e do TCU.
Detalhes Técnicos:
As NF-e são arquivos eletrônicos contendo as informações fiscais da operação comercial, produzidos pelas empresas emissoras, que são assinados digitalmente e transmitidos para a Secretaria da Fazenda de jurisdição do contribuinte, que e o transmite para a RFB, que detém o repositório nacional de todas as NF-e emitidas (Ambiente Nacional).
O banco de dados compartilhado recebeu tratamento de Dataquality. Como ferramenta de busca foi elaborada uma planilha em VBA do Excel orientada à base de dados, por critérios diversos definidos pelo usuário, de modo a facilitar e potencializar a busca dos itens desejados.
Para o cálculo dos preços unitários dos produtos foi elaborado um algoritmo que, ponderando os erros no valor total da nota, agregou os diversos tributos “por fora”, fretes, isenções fiscais e demais despesas, custos e descontos aos preços unitários calculados.
Ferramentas utilizadas: Banco de dados Oracle, Softwares Dataquality, Excel, Linguagens SQL e VBA Excel.
ABTracker: Mensurando a audiência da Agência Brasil em mais de 5 mil sites
A Agência Brasil é um dos maiores portais jornalísticos do Brasil.O conteúdo publicado no site é de livre replicação, tornando a Agência uma das principais fonte de notícias para sites e portais.
O ABTracker é uma solução desenvolvida em Python, pela equipe de TI da EBC, para mensurar a utilização das matérias da Agência Brasil em outros sites. Utilizando técnicas web scrapping, mineração de dados e de análise de logs e conteúdos, a ferramenta consegue mensurar a quantidade de replicações de matérias em sites jornalisticos e também o volume de acesso que cada matéria recebe nesses sites.
A partir dessas informações, são gerados, de forma automatizada, relatórios que trazem as informações que auxiliam na elaboração de pautas e matérias e também que demonstram, através de dados, a importância da Agência Brasil como fonte de notícias para portais do Brasil e do mundo.
A Contratação de Leitos para Tratamento da Doença provocada pelo COVID -19: O uso do Sistema de Controle Gerencial de Custos dos Hospitais Públicos.
O Trabalho teve como objetivo, de forma exploratória, levantar o custo de diárias de leitos em enfermarias ou UTIs relacionados a pandemia para tratamento da doença provocada pelo vírus COVID – 19 na rede hospitalar pública. O gestor necessita de informações para a tomada de decisão se deve contratar leitos da iniciativa privada, ou aumentar a quantidade de leitos em hospitais públicos ou se contrata leitos em hospitais de campanha. Uma certeza já temos, qualquer decisão a ser tomada, deverá ser justificada posteriormente aos órgãos de controle. O gestor público necessita conhecer o “quanto” custa a contratação de leitos, haja vista não ser muito comum a contratação de leitos para atendimento de uma pandemia. A literatura reforça sobre a necessidade e a importância de organizações hospitalares possuírem um sistema de controle gerencial de custos (SCGC), o que poucos da federação possuem. O estudo se baseou em informações do SCGC de uma unidade da federação. As informações foram geradas por três estudos. O primeiro estudo baseado no Boletim COVID- 19 Mai/2020 - Agência Nacional de Saúde Suplementar (ANS). No segundo estudo pesquisado, como fonte de origem trata-se de empresas como o DRG e Planisa onde Vieira, Agostini, Carnielo, Marimon & Ramos (2020). A terceira fonte é originária de um SCGC de uma unidade da federação onde três unidades hospitalares demonstram os custos experimentado durante março a maio de 2020, início da pandemia. Nos levantamentos na rede estadual a diária de UTI experimentados no Hospital B e C já sofrem o impacto dos custos da COVID-19 com aumento de gastos com EPIs e material de consumo, além de outros custos não evidenciados no trabalho. No Hospital A, referência no tratamento da COVID -19, foi possível verificar o crescimento dos custos comparativamente a outros períodos.
A Criação de um Sistema de Inteligência em Ouvidoria Pública - case da Ouvidoria-Geral do Estado de Minas Gerais
A proposta é de apresentação, com foco gerencial, para demonstrar os resultados de trabalho realizado na Ouvidoria-Geral de Minas Gerais na construção de um sistema de inovação e inteligência; motivados pela percepção do alto valor agregado das informações registradas pelos manifestantes, e a possibilidade de gerar insights com alta precisão e tempestividade para os gestores públicos e ouvidores, materializados em relatórios com formato Business Intelligence, através do sistema Microsoft PowerBI. Portanto, trata-se de um caso prático, com seu framework e plano de ação descritos.
O sistema permitiu que servidores sem conhecimentos avançados nas áreas de ciências da programação e tecnologia da informação construíssem relatórios dinâmicos com informações de alto nível, dado que o PowerBI, apesar de ter as linguagens de programação M e DAX no pano de fundo, tem o processamento dos dados de forma intuitiva.
Foram especificados seis áreas de atuação e produtos que deveriam ser entregues de forma a fazer com que o sistema de inteligência tivesse êxito: banco de conhecimento (aprendizagem organizacional); metodologia de gestão de riscos em ouvidoria; vocabulário controlado (governança); matriz de indicadores e métricas de compliance; metodologia de classificação de informações (controle e monitoramento); machine learning na padronização e estruturação de textos desestruturados nos relatos dos manifestantes e desenvolvimento dos relatórios de gestão no Microsoft PowerBI (ciência de dados);
Os resultados foram percebidos assim que os relatórios e indicadores foram sendo operacionalizados e inseridos no dia a dia da Ouvidoria Geral de MG. A possibilidade de visualizar dados que antes sequer haviam sido pensados, com a amplitude do self service analytics permitido pelo Power BI, expandiram a disponibilidade de informações e capacidade de análise das equipes. A utilização da informação para a melhoria dos processos internos de Ouvidoria propiciou a melhor alocação dos analistas por área prioritária, redistribuindo o trabalho de forma equilibrada, na relação com os órgãos e gestores públicos facilitou a percepção e sensibilização da necessidade de conformidade e para o público externo permitiu à OGE maior disseminação da informação, dando transparência ao processo de ouvidoria.
A essencialidade no uso de softwares Qualitative Data Analysis e de Business Intelligence no cruzamento de dados para detecção de padrões, identificação de relacionamentos e descumprimentos legais.
O sistema judiciário, o orçamento público e a avaliação qualiquanti das políticas públicas socioassistenciais no Município do Rio de Janeiro: a essencialidade no uso de softwares Qualitative Data Analysis e de Business Intelligence no cruzamento de dados para detecção de padrões, identificação de relacionamentos e descumprimentos legais.
Dentro da perspectiva de atuação de Ministérios Públicos, a investigação baseada em dados permite analisar e concluir como o governo planejou e executou políticas públicas prioritárias do ordenamento jurídico, de acordo com a competência local de atuação dos municípios. Com o objetivo de evidenciar quais os Programas de Governo e Ações Governamentais estão sob a responsabilidade de cada estrutura administrativa, este modelo de avaliação orçamentária de políticas públicas obrigatórias dimensiona as destinações de recursos, com o propósito de individualizar possíveis incorreções de contingenciamentos excessivos, sem a devida justificativa, portanto, de frustração de receitas por Fontes de Recursos vinculadas, e/ou remanejamentos orçamentários que tornaram a política inexequível. Trata-se, portanto, de pesquisa documental com abordagem qualitativa e quantitativa que tem como fontes principais os dados oficiais extraídos do Portal Rio Transparente, acerca das “Receitas”, “Despesas”, Contratos” e “Favorecidos” do município do Rio de Janeiro, para o período de 2017 a 31/08/2020. No total, 24 Programas de Governo e 149 Ações Governamentais foram avaliados, dentro do acumulado aplicado de R$ 2,316 bilhões. Observou-se, ainda, a inexecução de 96 políticas públicas (64,42%) por total ausência de recursos, em razão de remoção de orçamento ao longo do seu exercício corrente. Conclui-se com um diagnóstico do quantum fora aplicado, por quem, para quê, de que forma, com quais fontes de custeio e em quais áreas específicas das políticas socioassistenciais (Assistência aos Idosos, às Crianças e Adolescentes, às Pessoas com Deficiência e Comunidade em geral).
Tipo de proposta: Apresentação.
Foco principal da apresentação: Técnico e Gerencial.
Fase do trabalho: Estudo de Caso com resultados práticos.
Detalhes técnicos: Utilização de software para avaliação qualitativa dos objetivos e finalidades das políticas públicas socioassistenciais (ferramenta de Qualitative Data Analysis, com adoção do software WebQDA) e posterior cruzamento das informações quantitativas extraídas de 4 (quatro) bases de dados do município do Rio de Janeiro (por meio do software de Business Intelligence Tableau), mediante adoção dos elementos-chave “codificação e descrição da Ação Governamental” e “codificação e descrição da Fonte de Recursos”.
Ágata (Aplicativo Gerador de Análise Textual Automatizada)
O projeto Ágata (Aplicativo Gerador de Análise Textual Automatizada) tem como principal objetivo viabilizar o processo de geração de um classificador textual por pessoas leigas (sem conhecimento aprofundado de tecnologia da informação). Em linhas gerais, o usuário precisa apenas fornecer os parâmetros iniciais de busca e, em seguida, rotular trechos de documentos encontrados pelo sistema. A cada iteração, o Ágata utiliza um mecanismo de aprendizado ativo para selecionar quais os próximos trechos deverão ser rotulados, considerando os critérios aprendidos com as classificações realizadas pelo usuário. Esta abordagem tende a reduzir o número de rotulagens necessárias para se obter um classificador com qualidade aceitável. Ao final, a base rotulada produzida é utilizada para treinar um classificador capaz de monitorar os documentos inseridos em uma base textual. Sempre que o interesse do usuário for identificado em novos documentos, e-mails são enviados com os trechos destacados. Há um processo adicional de validação, no qual o usuário pode concordar ou rejeitar os resultados enviados no e-mail, permitindo uma constante melhoria do classificador.
Até o momento, dezenas de usuários desenvolveram várias pesquisas com o Ágata considerando a base de documentos do Comprasnet, obtida por meio do sistema Alice (Análise de Licitações e Editais). Em especial, algumas buscas foram treinadas sobre licitações relacionadas ao enfrentamento contra a Covid-19. Os resultados preliminares indicam que o uso desta ferramenta tende a ser muito mais produtivo e eficiente quando comparado com o emprego de expressões regulares (metodologia anteriormente usada para realizar as pesquisas). Adicionalmente, acreditamos que o uso de algumas técnicas de "gameficação" permitiram um maior engajamento dos usuários na utilização da ferramenta. Vislumbramos que o Ágata venha a simplificar a criação de tipologias textuais e, assim, aumentar consideravelmente o número de análises textuais realizadas em outros sistemas.
Tipo de proposta: Apresentação (20 minutos)
Foco: Técnico
Fase: Trabalho em andamento
Detalhes técnicos: Aprendizado Ativo, Clusterização, Classificação, Python, Nltk, ScikitLearn, Flask, Apache Solr
A importância da avaliação da legislação de controle interno do setor público para utilização do COSO
TIPO DE PROPOSTA: Apresentação
TÍTULO DA APRESENTACAO: A importância da avaliação da legislação de controle interno do setor público para utilização do COSO
Foco principal da apresentacao: tecnico
Fase do trabalho apresentado: Caso De Estudo com resultados práticos
Descrição da apresentação 2000 caracteres:
Esta pesquisa tem por objetivo analisar qual é o grau de adequação da legislação de controle interno utilizado pela Controladoria Geral do Município do Rio de Janeiro – CGM, aos critérios e determinações do The Committee of Sponsoring Organizations – COSO. Os objetivos específicos identificados foram: analisar os indicadores de prestação de contas dos agentes públicos que constam da CGM; propor indicadores para o aprimoramento dos controles internos; avaliar a qualidade e suficiência dos controles internos no tocante as 5 dimensões: ambiente de controle, avaliação de riscos, atividades de controle, informação, comunicação e monitoramento.
A pesquisa relaciona-se com o problema quanto à redução da fraude, uma melhor eficiência do controle interno para atender a eficácia do setor público municipal. Por isso, torna-se importante este estudo para as organizações e quanto à obrigatoriedade da meta em atingir uma forma eficiente de redução de riscos nas atividades em qualquer esfera governamental. O Green Book foi observado nesta pesquisa de forma a atentar como foco no Controle Interno, fundamental para contribuir com o desenvolvimento do modelo do Enterprise Risk Management – ERM, o novo Framework vinculado a estratégia e liderança. Desta forma, foram feitas análises da legislação de controle interno e identificado os mecanismos adotados pela CGM com o resultado na melhoria do controle interno. Nesta pesquisa foi utilizada a Pesquisa Descritiva, visando enfatizar o assunto relacionado quanto ao mapeamento de risco tendo como um entendimento sobre a aplicabilidade da utilização da metodologia do Green Book como um caso prático. Após as análises realizadas observou-se que a Controladoria Geral do Município - CGM atende parcialmente o COSO para o setor público com o foco no Controle Interno, sendo necessário que a organização implemente e identifique a necessidade de mudanças nos procedimentos de trabalho em relação a monitoramento e avaliação de riscos.
Metodologia
Quanto aos objetivos: Exploratória e descritiva.
Quanto aos Procedimentos: Pesquisa Bibliográfica e Documental
Limitação: Lei da Transparência - Lei Nº 12.527, de 18 de novembro de 2011 e a adequação dos mecanismos estabelecidos no Green Book, elaborado pelo GAO, comparando com a normatização vinculada ao controle interno para a CGM.
Análise do conteúdo: Legislações, livros, artigos, revistas, jornais, Anais de Congressos, Relatórios e/ou Documentos Oficiais publicados na Internet. Período desta pesquisa até 30 de novembro de 2017. 2.089 identificadas e excluídas 251 que foram revogadas até a presente data. Após a categorização dos elementos pela análise de conteúdo foram excluídas 900, observando 938 legislações.
Teoria da Inovaçao - Proposta de avaliação da eficiência e da eficácia do mapeamento de risco para atender o desempenho do resultado da missão da organização, ou seja, a relação desta teoria com o COSO são à compatibilidade da implementação e quais os benefícios e/ou eficiência que podem proporcionar a utilização desta ferramenta estratégica para o setor público.
Resultados:
Primeira etapa - avaliamos a eficácia e adequação dos procedimentos para a Controladoria Geral do Município em relação à conformidade ao mapeamento de risco.
Segunda etapa - Como a Teoria da Inovação pode contribuir para uma proposta de adequação da análise dos critérios e determinações estabelecidas pelo COSO para que a Controladoria Geral do Município do Rio de Janeiro – CGM possa implementar como melhoria do controle interno com o foco na metodologia do GAO. Terceira etapa
Terceira etapa - Identificar a necessidade de adoção de mapeamento de risco na governança pública pelos órgãos reguladores; Analisar os indicadores de prestação de contas dos agentes públicos que constam da CGM; Propor indicadores para o aprimoramento dos controles internos e Avaliar a qualidade e suficiência dos controles internos no tocante as 5 dimensões ambiente de controle, avaliação de riscos, atividades de controle, informação e comunicação, e monitoramento.
Algoritmos de inteligência artificial para automação da tomada de decisão e os riscos de vieses: estudos de caso
O uso de algoritmos baseados em inteligência artificial para apoiar a tomada de decisão por agentes públicos tem se tornado uma realidade incontornável.
Ainda que o tema seja abordado com frequencia nos últimos anos - principalmente na mídia não especializada - o debate acerca dos impactos do uso de algoritmos de inteligência artificial - por exemplo, seu uso para definição de parâmetros de implementação de políticas públicas ou os potenciais efeitos anticompetitivos advindos do uso algoritmos de precificação - tem avançado de maneira mais consistente e estruturada na academia e no mercado, ainda que iniciativas oficiais tenham, recentemente, tentado superar esse hiato.
O fato de algoritmos de inteligência artificial serem fortemente dependentes de dados nos traz uma questão relacionada à forma pela qual características de tais dados podem impactar a qualidade dos resultados obtidos.
Em suma, em um contexto no qual agentes públicos passam a adotar ferramentas baseadas em algoritmos de inteligência artificial para implementar políticas públicas, eventuais erros e vieses existentes nos dados que alimentam e treinam tais algoritmos podem produzir resultados iníquos e com baixa acurácia, impactando a qualidade do resultado da ação pública.
Nesse sentido, diante do crescente risco de políticas públicas tornarem perenes erros e vieses, é relevante que tais algoritmos sejam analisados sob a ótica de critérios de equidade, transparência e accountability.
Em outras palavras, surge um potencial conflito entre propostas de regulação e governança de algoritmos de inteligência artificial, de um lado, e princípios orientadores de outras políticas públicas - como por exemplo, os dispositivos contidos na Lei Geral de Proteção de Dados Pessoais (LGPD) -, de outro.
Propõe-se aqui que sejam apresentados 03 (casos) concretos nos quais o uso de algoritmos - para automação da tomada de decisão por agentes públicos - resultou em dilemas oriundos de possíveis resultados iníquos.
A.M.A.N.D.A (Automatização de Monitoramento de Deliberações de Atos de Pessoal)
O crescimento do estoque de deliberações a serem monitoradas pela Secretaria de Fiscalização de Pessoal (Sefip) do Tribunal de Contas da União (TCU) mostra-se enorme desafio, agravado pela tendência de racionalização de recursos.
Este trabalho tem como objetivo fornecer insumos para tornar mais eficiente o monitoramento de acórdãos de pessoal, permitindo assim a redução do estoque de deliberações monitoradas.
Para isso, foi proposto um modelo baseado em aprendizagem de máquina, empregando combinação de algoritmo não supervisionado e supervisionado, com fins de automatizar o monitoramento de deliberações acerca de cessação de pagamentos de atos de admissão e de concessão de aposentadoria e de reforma de pessoal, por meio de tipologias relacionadas a determinações sobre cessação de pagamento. Os resultados visam o levantamento de indícios e direcionar o planejamento de ações de controle.
Foram obtidos os seguintes resultados: 1.120 deliberações foram selecionadas por meio de tipologia, do total de 5.900 classificadas como versando sobre pagamento. As tipologias propostas foram capazes de abranger 19% do domínio de deliberações rotuladas como sendo acerca de cessação de pagamento, das quais 45% foram selecionadas como indícios para procedimento investigativo. Os demais serviram para minimizar o estoque de monitoramentos pendentes, uma vez terem sido conferidas pelo modelo proposto.
A proposta de apresentação (e não de oficina) foi baseada em trabalho de monografia acadêmica de curso de pós-graduação "lato sensu". Link disponível na biografia do autor, em atendimento às orientações para publicação da proposta.
Análise de dados de imagens radiológicas para apoio ao diagnóstico de Covid-19 utilizando algoritmos de inteligência artificial em Medicina
O Instituto de Radiologia (INRAD) [1] do Hospital das Clínicas da Faculdade de Medicina da Universidade de São Paulo (HCFMUSP) [2] vem desde a sua criação através do decreto nº 39.469, datado de 04 de novembro de 1994, cumprindo perante o Sistema FMUSP/HC e a sociedade a sua missão de promover o conhecimento científico, por meio as atividades de ensino, pesquisa, formação e capacitação de recursos humanos, prestação de serviços de atenção à saúde e tratamento na área de diagnósticos e terapêutica. O InRad tem o Centro de Diagnóstico por Imagens e o Núcleo Técnico-Científico de Diagnóstico por Imagem (NDI). Esse último implementou o sistema de armazenamento e distribuição digital de imagens, que dá acesso às informações para qualquer unidade do hospital e dispensou a impressão dos laudos e imagens dos exames. O InRad tem como foco a qualidade do atendimento, e isso, demanda um contínuo investimento em infra-estrutura, aquisição de tecnologia de ponta, expansão dos seus serviços e, principalmente, a manutenção do seu capital intelectual, alinhado a um corpo de profissionais altamente qualificado. Uma característica importante é o investimento em parcerias público-privadas, que permitem viabilizar projetos de vanguarda. Em 2020 foi criado o Projeto RADVID-19 (Ver https://radvid19.com.br/). O RadVid-19 é uma ação entre os radiologistas brasileiros apoiados pelo Colégio Brasileiro de Radiologia para coletar exames de raio X e tomografia confirmados ou suspeitos de COVID-19. A plataforma é um repositório de casos de COVID no Brasil, feita por uma ação conjunta dos radiologistas brasileiros e está aberta para aplicação de inteligência artificial para auxílio à decisão clínica, com a finalidade de tornar este diagnóstico mais preciso e, no caso de tomografia, automatizar dados quantitativos do acometimento da doença. A base de dados é construída com a coleta dos casos num primeiro momento, para então anotar e classificar imagens através de iniciativa nacional de radiologistas. Então, a base de imagens classificadas foi disponibilizada para o desenvolvimento e validação de algoritmos de Inteligência Artificial e Machine Learning. O primeiro algoritmo implantado na plataforma faz a análise das imagens de tomografia coletadas, gerando um relatório que pode ser acessado pelo radiologista, com o objetivo de auxílio na decisão clínica. Esta iniciativa busca suporte à decisão clínica, e não substituição do Médico profissional. Este projeto implementou plataforma para diagnóstico automatizado da SARS-CoV2 Covid19 utilizando métodos e técnicas de Inteligência Artificial. Até a data de 21/08/2020 foram analisadas 16.023 imagens de Raio-x e Tomografia Computadorizada de tórax por algoritmos computacionais da Siemens e Huawei. Análise e resultados preliminares mostram que os algoritmos conseguem detectar e diagnosticar a SARS-CoV2 Covid19 com acerto próximo de 80% dos casos analisados. Esta iniciativa de inovação e pesquisa aplicada tem como meta e fundamento a melhoria e o avanço da Medicina e Saúde no país. Após este primeiro case de sucesso de diagnóstico automatizado, nosso objetivo é evoluir para outras especialidades em Medicina.
Com o objetivo de auxiliar o diagnóstico e a decisão clínica o RadVid-19 foi elaborado entre os radiologistas brasileiros apoiados pelo CBR para coletar, organizar e classificar os exames de raio X e tomografia confirmados ou suspeitos de COVID-19. Essas imagens são disponibilizadas em uma plataforma única de casos de COVID no Brasil para o desenvolvimento e validação de algoritmos com Inteligência Artificial. Este trabalho iniciou em 04/05/2020 e em 21/08/2020 tínhamos hospitais e centros de diagnóstico conectados em todo o Brasil. Abaixo seguem dados coletados sobre a
Dentre os resultados obtidos temos a construção de um grande datalake institucional. Este contém dados de imagens radiológicas, textos, laudos, informações de laboratório, bioquímica, microbiologia, etc. Implementação de plataformas computacionais e infraestrutura em cloud para treinamentos, desenvolvimento de novos algoritmos, data lakes e pipeline testando e anotando hiper parâmetros para os principais diagnósticos em medicina. É utilizada a Classificação Internacional Estatística de Diagnósticos (CID-10) da Organização Mundial de Saúde (OMS). Esta classificação possui 22 capítulos, sendo cada capítulo uma especialidade em Medicina.
O Datalake está funcionando em ambiente cloud. Conta com apoio da técnicos e empresas especializadas para suporte, manutenção, organização, upload arquivos, acesso e utilização dos dados. Trata-se de ambiente que atende aos requisitos de segurança, sigilo, privacidade e confidencialidade dos dados e a Lei Geral de Acesso e Proteção de dados (LGPD) Lei 13.709/2018.
Nos demais anos a meta é expandir para mais cinco capítulos, por ano. Em 5 anos devemos contemplar todos os capítulos. Devemos gerar um número de algoritmos e patentes. Trabalharemos preferencialmente com diagnósticos que possuam exames de imagens radiológicas e laboratorial (bioquímica, microbiologia, etc.). Como resultados gerais esperados deste projeto serão desenvolvidos métodos, técnicas, algoritmos, patentes de produtos e publicações científicas. As patentes e produtos gerados renderão recursos financeiros em retorno às instituições parceiras. Hoje, o modelo e algoritmos de machine learning já estão em pleno funcionando para o diagnóstico automático da COVID-19. Durante essa pandemia do COVID19, fomos capazes de desenvolver uma plataforma atualmente em pleno funcionamento com mais de 8 mil exames de imagem COVID que utilizam algoritmos de aprendizado de máquina para o diagnóstico automático do COVID-19. Esse modelo e a metodologia desenvolvida, já em operação, reforçam nossa capacidade de atingir os objetivos deste novo projeto (https://radvid19.com.br/?page_id=170).
Referências
- Radiology 2019; 291:781–791 • https://doi.org/10.1148/radiol.2019190613
- Luca M, Kleinberg J, Mullainathan S (January–February 2016). "Algorithms Need Managers, Too". Harvard Business Review. Retrieved 2018-10-08.
- Coiera E (1997). Medical informatics, the Internet and telemedicine. Chapman & Hall, Ltd.
- Power B (19 March 2015). "Artificial Intelligence Is Almost Ready for Business". Massachusetts General Hospital.
- Bahl M, Barzilay R, Yedidia AB, Locascio NJ, Yu L, Lehman CD (March 2018). "High-Risk Breast Lesions: A Machine Learning Model to Predict Pathologic Upgrade and Reduce Unnecessary Surgical Excision". 286 (3): 810–818. doi:10.1148/radiol.2017170549. PMID 29039725.
- Bloch-Budzier S (22 November 2016). "NHS using Google technology to treat patients".
- Lorenzetti L (5 April 2016). "Here's How IBM Watson Health is Transforming the Health Care Industry".
- Kent J (2018-08-08). "Providers Embrace Predictive Analytics for Clinical, Financial Benefits". HealthITAnalytics. 2018.
[1] http://inrad.hc.fm.usp.br/
Análise de Redes: identificando reflexos do cenário pandêmico no comportamento dos teletrabalhadores do Tribunal de Contas do Estado do Espirito Santo (TCE-ES).
Tipo de proposta: apresentação
Foco da apresentação: gerencial
Fase do trabalho: estudo de caso com resultados práticos
Descrição da apresentação: Desde 2018, o TCE-ES adota com sucesso o teletrabalho para servidores ligados as suas atividades finalísticas. Com o início do isolamento social, o TCEES ampliou o teletrabalho para todos os seus servidores ativos. Estudos indicam que o teletrabalho pode provocar tanto impactos benéficos quanto negativos. Aliado a isso, o cenário afetado pela Covid-19 gera um ambiente de ansiedade e incertezas modificando também as estruturas familiares. Assim, questionou-se: o cenário atual potencializou esses impactos? Conduziu-se análise de redes por meio do método EBICglasso e percebeu-se que:1) conciliar as tarefas familiares com as do trabalho tem sido difícil, principalmente para os servidores do sexo masculino; 2) o cansaço gerado pelo teletrabalho relaciona-se com o esgotamento mental que por sua vez influencia a dificuldade de dormir; 3) o esgotamento mental tem relação com a ansiedade que impacta na dificuldade para dormir; 4) o cansaço provocado pelo teletrabalho teve reflexos na capacidade de conciliar a vida pessoal e influenciou no esgotamento mental. Com base nos resultados e no modelo conceitual da psicologia positiva, a gestão do Tribunal adotou uma série de intervenções tais como: redução de fatores estressores; reativação do programa de qualidade de vida virtual; acompanhamento médico virtual; palestras virtuais visando promover a saúde mental; reativação de ginástica laboral (virtual), criação de eventos virtuais para compartilhamento de experiências entre os servidores; estimulo para envolvimento dos servidores em campanhas internas de doação; happy hour virtual para estimular a integração.
Detalhes técnicos: Para investigar, aplicou-se pesquisa quantitativa visando identificar (a) se afetos positivos e negativos impactaram os resultados do teletrabalho no TCEES; (b) as variáveis com efeitos sobre a ansiedade e o esgotamento mental; (d) a relação da dificuldade de dormir com o teletrabalho; (e) o engajamento atual, a percepção sobre a importância do trabalho desenvolvido e possíveis influências provocadas pelo cenário. Para análise dos dados, conduziu-se análise de redes com o auxílio do software JASP por meio do método EBICglasso. Optou-se pela representação das redes na forma ponderada, sendo a cor azul das linhas representando a relação positiva e a cor vermelha a relação negativa. Para auxiliar na identificação das variáveis mais importantes e no seu papel na rede, utilizou-se as medidas de centralidade: o grau de conectividade (betwenness); a proximidade (closeness) e a força ( strength).
Análise dos Contratos na Administração Pública
Esta é uma proposta de trabalho utilizando a base de dados escolhida é de contratos da Administração Pública cuja fonte: http://dados.gov.br/dataset/compras-publicas-do-governo-federal . A análise e preparação dos dados estão de acordo com o método CRISP-DM. Será feita visualização para responder as questões como: quais são os órgãos que fazem mais dispensa de licitações; verificar se na modalidade de licitação a dispensa para obras e serviços de engenharia e para a compra e serviço estão dentro dos limites de acordo com a lei de licitações 8.666/93; quais as modalidades de licitações têm mais aditivos de contrato; qual o melhor algoritmo de classificação. Será utilizada a ferramenta Weka, tabelas dinâmicas e gráficos para demostrar os resultados.
Análise dos territórios-rede do crime organizado no Estado do Rio de Janeiro
O objetivo do trabalho é analisar a territorialização violenta das Organizações Criminosas para a exploração de mercados ilícitos nos aglomerados humanos de exclusão e outras ações delitivas resultantes do negócio no Estado do Rio de Janeiro entre os anos de 2007 e 2018. Para tanto, valendo-se de métricas de análise de redes, e utilizando-se como proxy rastros criminais que indicam a atividade de tais organizações.
Ao se estruturarem em rede, tais organizações espalham suas influências, gerando um nível de conectividade extremamente resiliente. O mapeamento das redes criminosas de 2007, 2012 e 2017 evidenciam como o território-rede criminal se modificou em decorrência do Programa de Governo de Pacificação (Unidades de Polícias Pacificadoras), ampliando sua atuação para outras regiões do Estado
A rede se encontra em franca expansão para a Região do Norte Fluminense, o que poderá fomentar novas disputas territoriais e uma abrupta quantificação de homicídios dolosos, roubos e mortes decorrentes de intervenção policial; uma dinâmica de violência similar ao cenário de insegurança recentemente evidenciado no Sul Fluminense e há décadas na Região Metropolitana.
Análise do uso da Coleta de Sangue utilizando a Captação de Doadores como referencia - Um estudo de caso na Fundação Hemocentro de Brasília
Esta é uma proposta de apresentação, com aplicação de Inteligência Artificial na atuação do Estado, com o seguinte contexto:
A Fundação Hemocentro de Brasília (FHB) assegura o atendimento da demanda e a disponibilidade de sangue, hemocomponentes e hemoderivados à população do Distrito Federal, com a qualidade exigida pelas normas vigentes e de acordo como desenvolvimento científico e tecnológico atual, nos termos da Constituição Federal, da Lei Orgânica da Saúde e demais normas legais. Com estas determinações legais a FHB tem de garantir o menor índice de descarte possível de hemocomponentes e hemoderivados por meio de controle dos indicadores de produção, utilização e descarte. O propósito deste é identificar padrões, por meio de Inteligência Artificial, entre a captação de doadores com o uso dos hemocomponentes da FHB, tendo em vista a definição de um modelo de análise para que se possa melhorar o aproveitamento do sangue coletado. Para tanto, o modelo proposto utilizará o processo analítico que consistirá em explorar a base de dados da Fundação, na busca de padrões consistentes e/ou relacionamentos sistemático entre as variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados.
Análise espacial da dinâmica de focos de Resíduos Sólidos Urbanos em um município utilizando ferramentas de Geoprocessamento
Foco principal da apresentação: técnico
Fase do trabalho apresentado: estudo de caso com resultados práticos
Detalhes técnicos: geração de mapas temáticos com o software QGIS
Esta pesquisa está sendo desenvolvida pelo Setor de Fiscalização Ambiental de uma Secretaria Municipal de Meio Ambiente, unindo a experiência da fiscalização em focos de Resíduos Sólidos Urbanos (RSU) em conjunto com a utilização de ferramentas de Geoprocessamento. O setor recebe diversas denúncias referentes ao descarte irregular de RSU em diversos locais da cidade, isso sem considerar as áreas afastadas da cidade que são alvo contínuo do descarte de resíduos mas que não são objeto de denúncias por parte da população. Muitas dessas áreas afastadas são o habitat da flora e fauna silvestre.
A Lei N° 12.305/2010 instituiu a Política Nacional de Resíduos Sólidos, apresentando os instrumentos básicos para o gerenciamento dos resíduos em todo o território nacional. Dentre esses instrumentos destaca-se o Plano Municipal de Gerenciamento de Resíduos Sólidos (PMGRS), o qual deve ser revisado a cada 10 anos.
O presente trabalho realizou a análise espacial da dinâmica dos focos de RSU no município, comparando o ano de 2010 e 2020. Para a análise, foram utilizados dados referentes ao histórico de denúncias sobre RSU; imagens de satélite do Google Earth (anos de 2010 e 2020); malha digital dos setores censitários no formato shapefile (IBGE, 2010); dados tabulares com informações demográficas e socioeconômicas dos setores censitários (IBGE, 2010); software QGIS.
A partir da análise das imagens e dados de denúncias foram identificados os focos de RSU do município nos anos de 2010 e 2020, possibilitando analisar a dinâmica espacial dos focos no período. Os pontos com as coordenadas dos focos de RSU foram exportados para o QGIS, onde foram sobrepostos à malha digital dos setores censitários com informações demográficas e socioeconômicas, para a geração de mapas temáticos.
Com base na análise dos mapas foram identificadas áreas com maior concentração de focos de RSU e iniciadas discussões referentes a implementação de ações de combate ao descarte irregular de RSU no município. Dentre essas ações destaca-se: instalação de centros de triagem de RSU; instalação de câmeras de videomonitoramento em áreas críticas; atualização do PMGRS vigente; convênios com cooperativas de reciclagem.
Aplicação de Reconhecimento de Entidades Nomeadas e Apriori para identificar alterações nas frequências de Queixas Técnicas de Dispositivos Médicos
Motivação: Os Dispositivos Médicos (DM) são produtos de natureza muito distintas. Variam desde uma máscara cirúrgica, um termômetro, até um tomógrafo. Quando passam a ser utilizados em larga escala, na população, é possível que ocorram Eventos Adversos (EA) ou Queixas Técnicas (QT) não previstas no momento do seu desenvolvimento. Nesses casos, a ANVISA pode abrir uma investigação e tomar as providências cabíveis para proteção da saúde da população. Essas investigações estão condicionadas a: (1) existência de relação direta com óbitos ou lesões graves e (2) um aumento na frequência dos EA ou QT. Como as notificações são descritas em texto livre, é extremamente custosa e difícil a identificação das alterações nessas frequências.
Objetivo: Desenvolver uma solução automática para a identificação de alterações nas frequências dos EA e QT, utilizando Reconhecimento de Entidade Nomeadas (NER) e o algoritmo Apriori.
Métodos e ferramentas: A primeira etapa do projeto é comparar as performances da aplicação do modelo Conditional Random Fields (CRF) com o modelo BiLSTM + CRF, para a identificação das Entidades Evento e Objeto. Para o treinamento e teste dos modelos, foi constituído um corpus, anotado manualmente, de 1.700 notificações. Técnicas de Cross-validation e Dropout foram utilizadas para evitar Overfitting durante o treinamento dos modelos. A performance dos modelos foi avaliada pelas métricas de Precision, Recall e F1. A segunda etapa do trabalho é composta pela identificação das associações entre as Entidades (Evento e Objeto). Nessa etapa será utilizado o algoritmo Apriori. A última etapa é a identificação nas alterações absolutas e percentuais Nas frequências Evento-Objeto.
Resultados preliminares: O modelo CRF alcançou a métrica de 0.87 de F1 na tarefa de NER. O modelo BiLSTM + CRF, ainda sem transfer-learning, alcançou até o momento 0.85 de F1.
Impactos esperados: Identificação automatizada das alterações de frequência de ocorrência de EA e QT visando permitir uma atuação ainda mais tempestiva da ANVISA, evitando maiores danos à saúde da população que são expostas a tais produtos.
Arquétipo do exame das licitações da Contadoria e Auditoria-Geral do RS a partir da análise de dados
Proposta: Apresentação
1 Introdução
No Poder Executivo do Estado do Rio Grande do Sul, os procedimentos licitatórios são encaminhados à Contadoria e Auditoria-Geral do Estado (CAGE) para auditoria prévia.
O arquétipo de analisar todos os processos licitatórios previamente pode sobrecarregar o setor responsável, tornando as atividades menos eficientes e eficazes.
Deste modo, foi elaborado um novo modelo de atuação para analisar todos os expedientes dentro do contexto acima, porém sem olvidar dos riscos inerentes ao processo de licitação pública.
2 Metodologia
Trata-se de um relato de experiência da construção do modelo de análise dos processos licitatórios executado pela CAGE.
Para elaboração do modelo, foi realizado um levantamento de dados referente aos processos licitação de aquisição de bens e prestação de serviços de 2018 no Sistema de Compras do Estado – RS. Concluída a mineração, com auxílio do software Excel promoveu-se uma análise estatística das licitações e dos recursos envolvidos.
3 Resultados
Os dados extraídos do Sistema de Compras do Estado do RS foram divididos em quartis para proporcionar uma análise da dispersão do conjunto, principalmente da simetria ou assimetria da distribuição dos recursos públicos nos processos licitatórios.
Foram identificadas 680 licitações para aquisição de bens, todavia, verificou-se que 116 processos representavam 89% do valor total licitado. Lado outro, foram encontrados 397 processos para contratação de serviço, porém, observou-se que 99 processos continham 94% do valor total negociado.
O modelo desenvolvido categorizou os processos em duas faixas de valor: A e B, conforme a média histórica. Além disto, foi definido dois tipos de análise das licitações: a) ordinária - realizada por Auditores; b) sumária – feita pela equipe de apoio, coordenada pelos Auditores.
A análise sumária consiste em exames simplificados quanto ao modelo de edital utilizado, a instrução do processo a partir da lista de verificação e a validade dos documentos apresentados pelas licitantes.
Por fim, os demais processos são submetidos à análise detalhada que abrange todos os aspectos legais e econômico-financeiros conforme os parâmetros legislativos vigentes e as orientações dos órgãos de controle externo.
Auditoria Contínua com uso de Data Analytics: Experiência do Centro de Controle Interno da Marinha (CCIMAR)
O Centro de Controle Interno da Marinha do Brasil (CCIMAR) é órgão responsável pelas auditorias internas e pelo controle interno da Marinha do Brasil. Criado em 2012, o CCIMAR tem como missão assessorar o Comandante da Marinha e executar as atividades de Auditoria Interna Governamental, a fim de aprimorar o controle interno, preservar e agregar valor à gestão da Marinha do Brasil.
Ao longo dos últimos anos, este Centro de Controle Interno implementou a Auditoria Contínua com uso de Data Analytics nas seguintes áreas de gestão: Execução Orçamentária e Financeira; Folha de Pagamento de Pessoal; Patrimônio e Licitação e Contratos.
A situação encontrada anteriormente no Centro de Controle Interno da Marinha do Brasil era a necessidade de realizar mais auditorias, de forma mais frequente e com a comunicação dos resultados mais rápida, considerando a falta de pessoal para compor mais equipes de auditoria e a insuficiência de recursos orçamentários para a realização de auditorias no país e no exterior.
Diante desse cenário, decidiu-se alterar o paradigma de processo de auditoria da Marinha do Brasil, implementando a Auditoria Contínua para ser executada paralelamente aos trabalhos de Auditoria Tradicionais.
A Auditoria Contínua consiste em uma técnica de auditoria que realiza testes utilizando bases de dados informatizadas, mediante ferramentas de extração, análise e mineração de dados, com base na avaliação de riscos e controles internos.
Seu processo compreende as funções do processo de auditoria periódica, usando um sistema de supervisão de transações, com software que monitora continuamente as transações e compara as suas características com os resultados esperados.
Atualmente, o processo de auditoria na Marinha do Brasil mudou significativamente. As Auditorias Contínuas permitem a realização de auditorias em todas as unidades da Marinha, inclusive navios, com maior frequência e os resultados são comunicados mais rapidamente por meio do envio de Notas de Auditoria aos gestores, para prevenção e/ou correção de falhas.
Além disso, novas tipologias (trilhas de auditoria) vem sendo criadas para atender as necessidades de controle da Força, de modo que a Auditoria Interna da Marinha possa atuar fundamentalmente na prevenção de falhas na gestão dos recursos públicos.
Cabe, ainda, destacar, que este Centro de Controle Interno foi agraciado em 2018, pela Escola Nacional de Administração Pública (Enap), em Brasília, com o Prêmio referente ao 22º Concurso Inovação no Setor Público, na categoria “Inovação em Processos Organizacionais no Poder Executivo Federal”.
Além disto, em 2020, o CCIMAR implantou uma Divisão de Ciência de Dados dentro da Auditoria Interna, com um profissional dedicado e, ainda, implementamos novas ferramentas no nosso processo tais como: Python e Apache Airflow.
Os resultados obitidos ao longo dos últimos anos foram muito satisfatórios, apoiando a gestão na melhoria dos Controles Internos da Marinha do Brasil.
TIPO DE PROPOSTA: Apresentação - 20 minutos.
Auditoria Operacional: Aplicando o princípio da efetividade em um estudo de caso
Com o objetivo de analisar o resultado decorrente da adoção de livros didáticos
privados para a rede pública de ensino fundamental em um município do Sul do Brasil,
aplicou-se uma metodologia de avaliação conhecida como diferença-em-diferenças aos
dados do Sistema Brasileiro de Avaliação da Educação Básica (disponíveis até 2017).
Com o uso do software Excel, revelou-se o impacto nas notas das escolas municipais
decorrente do uso de material didático diferente do que é fornecido gratuitamente pelo
governo federal.
Auxílio Emergencial: A prova de fogo para a Análise de Dados na Administração Pública
A experiência do Auxílio Emergencial desafiou todos os envolvidos, por se tratar de uma política criada e operacionalizada em tempo recorde envolvendo coleta, tratamento e análise de dados de mais da metade da população brasileira.
Mais de 67 milhões de elegíveis ao recebimento do auxílio, aproximadamente 120 milhões de pessoas beneficiadas. Mais de 50% da população brasileira atendida através de uma política criada para amenizar os impactos da Pandemia.
Um benefício pessoal, porém, com limitação familiar de renda e de dois beneficiários por família. Uso do Cadastro Único como base para alcançar rapidamente a população mais necessitada, uso de um serviço digital disponibilizado através de aplicativo para solicitação do benefício através de autodeclaração por parte do requerente.
Cruzamento das mais diversas bases governamentais para comprovar as informações autodeclaradas, garantir focalização do auxílio e evitar fraudes. Tudo isso sendo construído, aprimorado ao longo da execução da política.
No primeiro mês todo o trabalho construído pelo Ministério da Cidadania, CAIXA e Dataprev alcançou mais de 50 milhões de beneficiários, 75% do público-alvo, mais de 90 milhões de brasileiros amparados (beneficiários + membros de sua família), o que representa mais de 42% da população brasileira.
A taxa de pagamentos indevidos encontrada por órgãos de controle para o primeiro mês do auxílio foi menos de 1%. O que demonstra o esforço grandioso de focalizar o auxílio para aqueles que mais precisam e ter controle em um curto espaço de tempo através do cruzamento por diversas bases governamentais em diversos níveis de maturidade.
Esta apresentação visa compartilhar todo este trabalho para que os pontos fortes sejam replicados e os pontos fracos sejam aprimorados para futuros benefícios dessa mesma natureza.
Tipo de proposta: Apresentação (20 minutos na programação principal do evento);
Título da apresentação: Auxílio Emergencial: A prova de fogo para a Análise de Dados na Administração Pública;
Foco principal da apresentação: Técnico;
Fase do trabalho apresentado: trabalho em andamento.
Banco de dados orientado a grafos: um novo paradigma de armazenamento ao TCE/BA
- tipo de proposta: apresentação;
- título da apresentação/oficina: Banco de dados orientado a grafos: um novo paradigma de armazenamento ao TCE/BA;
- foco principal da apresentação: Gerencial;
- fase do trabalho apresentado: Projeto em andamento;
- descrição da apresentação: A apresentação visa demonstrar o potencial do uso da tecnologia de grafos numa instituição de controle externo, descrevendo como essa tecnologia foi incorporada ao sistema de Business Intelligence/Analytics em uso na organização, de forma inovadora, permitindo que o usuário da aplicação faça pesquisas no banco de grafos sem a necessidade de conhecimento técnico e com tempo de resposta superior aos bancos de dados tradicionais. Ademais, a apresentação fará uma síntese das etapas necessárias para a realização do projeto, demonstrará uma possibilidade de aplicação prática na organização, assim com as perspectivas futuras;
- detalhes técnicos: O banco de dados orientado a grafos é o NEO4J, usando a linguagem Cypher para pesquisa no banco de grafos. Sistema de Business Intelligence/Analytics feito na ferramenta COGNOS da IBM;
BB Valor de Bens Rurais - Valoração de imóveis rurais direcionada por dados (data-driven)
O BB Valor de Bens Rurais ( https://valordebensrurais.bb.com.br) é uma solução digital que disponibiliza a valoração de um bem imóvel rural e suas benfeitorias, de forma online para agentes do agronegócio, por meio de uma plataforma Aplicação Web ou API. Esta foi a primeira solução de Open Banking para o Agronegócio no Brasil.
Em relação ao valor do imóvel rural gerado pela ferramenta, os testes de acurácia e as provas de conceito, demonstraram que a metodologia possui uma fundamentação técnica apurada, de forma que o BB decidiu implementar nos seus processos em outubro de 2016. Este é um case de sucesso, sendo um projeto implementado em sua totalidade internamente, sendo que esta solução até o final de Ago/2020 permitiu a valoração de 1,3 milhão de imóveis, com R$240 milhões em redução de custos para o BB.
A automação do processo de avaliação de bens rurais, além de trazer maior agilidade na análise das garantias de operações e impactos positivos na redução dos custos envolvidos, possibilitou a redução dos riscos operacionais na manutenção do cadastro, permitindo que o BB atenda requisitos para a candidatura ao Acordo de Basiléia II, que exige um aprimoramento da gestão da base de garantias e mitigadores de risco de crédito.
Capacitação relâmpago em Machine Learning com projeto pessoal
Experiência de como capacitar dezenas de servidores públicos de diversos órgãos em Machine Learning (ML) de forma rápida (30h de aulas práticas em um mês) numa abordagem de aprendizado baseado em projeto (PBL, da sigla em inglês Project Based Learning), em que os alunos trazem uma proposta de aplicação de ML em uma área relevante para eles ou suas instituições e são guiados no desenvolvimento de modelos preditivos, em aprendizagem supervisionada utilizando as bibliotecas python pandas e scikit-learn em ambiente Jupyter, para rápida iteração experimental e compreensão conceitual e prática das técnicas mais relevantes para seu problema.
Ao final do mês os alunos apresentam seus protótipos funcionais de modelos preditivos, publicando dados brutos, dados tratados, código de pré-processamento, análise e treinamento, assim como o modelo preditivo final em plataformas de desenvolvimento colaborativo (github, kaggle) para fácil reuso por outros interessados no problema ou nas técnicas utilizadas, reforçando assim o ecossistema de desenvolvedores de ML no Brasil.
Os resultados atingidos com os protótipos desenvolvidos durante o curso, os ganhos de conhecimento sobre o problema/desafio trazido nos projetos e o desenvolvimento de capacidade técnica em ML dos alunos e sua autonomia em tocar novos projetos de ML aplicado permitem uma rápida e pouco custosa incursão na área, facilitando a transição cultural das instituições para o uso mais sistemático de ML em suas operações.
- tipo de proposta: apresentação (20 minutos na programação principal do evento)
- título da apresentação: "Capacitação relâmpago em Machine Learning com projeto pessoal"
- foco principal da apresentação: gerencial, para demonstrar a gestores públicos os resultados potencializados pela análise de dados;
- fase do trabalho apresentado: estudo de caso com resultados práticos;
- descrição da apresentação (em até 2000 caracteres sem espaço): ver acima.
- detalhes técnicos: bibliotecas python pandas e scikit-learn em ambiente Jupyter. Técnicas de importação de dados, análise exploratória, transformação e limpeza, imputação dados faltantes, numericalização de dados categóricos e textuais. Conceitos: modelos paramétricos, treinamento/teste, avaliação de desempenho, validação cruzada, overfit, pipeline, otimização de híper-parâmetros, ensemble, bootstrap/bagging. NLP: pré-processamento, bag-of-words e tf-idf para classificação. Modelos: KNN, regressão linear e logística, árvore de decisão e Random Forest. Interpretação dos modelos e comunicação dos resultados para público não especialista.
- nome completo, instituição, dados para contato e mini-currículo: informado apenas no campo "mais informações" da nova proposta e não na descrição geral aberta ao público!
Chicoteando a máquina para extrair dados: como manipular grandes bases em computadores de pouca capacidade
Título: Chicoteando a máquina para extrair dados: como manipular grandes bases em computadores de pouca capacidade
Nada de Iris, Crimes e Titanic... aqui você utiliza base de dados reais, na prática!
Público: Analistas e Gestores e público gera que sejam entusiastas do tema Analytics.
Requisito: É desejável conhecimento básico em R e SQL
Foco da ação educacional: técnico
Ementa da Oficina (detalhando o conteúdo que pretende apresentar):
Entender as limitações do software R para computadores de baixa capacidade;
Analisar problemas relacionados a manipulação de grandes bases de dados;
Implementar soluções quando o tamanho dos dados excede a capacidade de memória.
Duração necessária: 3 horas (hands on), incluindo 3 intervalos de 15 min.
Detalhes técnicos:
Bases de dados: Cadastro Nacional Pessoa Jurídica (qsacnpj) da Receita Federal do Brasil (RFB), microdados da Relação Anual de Informações Sociais - RAIS e Cadastro Geral de Empregados e Desempregados (CAGED)
Softwares: SQLite, R
Linguagens de programação: SQL, R
Classificação automatizada de reclamações de passageiros aéreos
- tipo de proposta: apresentação
- título da apresentação: Classificação automatizada de reclamações de passageiros aéreos
- foco principal da apresentação: menos técnico, mais gerencial, mas pode ser ajustado ainda
- fase do trabalho apresentado: estudo de caso com resultados práticos
- descrição da apresentação: Será apresentada a motivação de classificação das reclamações dos passageiros aéreos, e o aumento de número delas, justificando uma tentativa para classificação automatizada. Também será justificada a escolha de ULMFiT como método, os resultados do projeto, os benefícios obtidos e o futuro da aplicação do modelo atual.
- detalhes técnicos: método de classificação ULMFiT; python
Classificação de notícias com objetivo de identificar fatos, denúncias ou informações relevantes para órgão de controle
Tipo proposta: apresentação;
Foco principal da apresentação: técnico;
Fase do trabalho apresentado: trabalho;
Descrição da apresentação:
Demonstrar o trabalho realizado para classificar notícias publicadas nos meios de comunicação brasileiros. O objetivo principal é identificar fatos, denúncias ou informações relevantes para órgão de controle. No estudo foram comparados os principais modelos preditivos, na busca do melhor desempenho para a solução do problema em tela;
Detalhes técnicos:
Python com aplicação dos modelos preditivos multinomial naive bayes, Logistic Regression, support-vector machine, random forest e long short-term memory (RNN-LSTM).
Como coibir privilégios na construção de horários em universidades federais?
Um dos problemas muito comuns nas universidades públicas é a construção dos horários dos professores. A construção dos horários impacta diretamente na atividade fim da universidade, disciplinas e vagas que não são abertas, aumento da evasão, diminuição do número de alunos formados, descumprimento de resoluções e outra série questões colidem frontalmente com o tema. Apesar da importância, a falta de transparência dessas informações por parte de algumas universidades públicas dificulta a ampliação do debate e a busca por uma solução. A questão constitucional da isonomia, por vezes, é ignorada. Especificamente no contexto da Universidade Federal Rural do Semi-Árido (UFERSA) alguns professores ministram aulas 1 dia na semana, enquanto outros ministram aulas de segunda à sábado. O que por si só é incoerente, mas é ainda agravado pelos motivos supramencionados. De modo a medir essas discrepâncias desenvolveu-se um arcabouço capaz de coletar, estruturar e analisar a distribuição de cargas horárias dos professores ao longo dos anos. Desde uma perspectiva interna, este trabalho é capaz de auxiliar chefias de departamento e órgãos de controle a equalizarem as cargas de trabalho permitindo decisões com base na carga horária histórica. Desde de uma perspectiva externa, este trabalho é capaz de empoderar alunos e cidadãos de forma geral, cumprindo papel pedagógico, dando transparência às construções de horários, evitando excessos e combatendo privilégios. Atualmente, o arcabouço desenvolvido vem sendo utilizado em uma proposta de construção automática de horários de modo a eliminar interferências políticas, minimizar choques entre disciplinas, ampliar a quantidade de alunos matriculados e maximizar o número de alunos formandos por semestre.
Como utilizar inteligência digital para as mídias sociais no setor público | Case TCE-PR
As mídias sociais têm potencial para ir além da simples comunicação institucional no setor público. Com inteligência digital, é possível construir um trabalho de branding, objetivando desenvolver posicionamento e propósito mais abrangentes à marca, com foco no interesse público.
A mudança de visão sobre as mídias sociais no setor público passa por uma série de aprendizados e diagnósticos, como, por exemplo, identificação de objetivos, levantamento de números dos canais existentes, além das análises de público-alvo e conteúdo. Somente, então, é possível desenvolver um planejamento estratégico baseado em dados e mensurável.
Na apresentação proposta, será demonstrada essa lógica do uso de inteligência digital nas mídias sociais do setor público, a partir do case do Tribunal de Contas do Estado do Paraná – TCE-PR. Entre as informações, falaremos sobre o planejamento estratégico, quais as métricas utilizadas, como os resultados práticos foram escalados após 4 anos deste trabalho (como triplicamos nossa audiência e quadruplicamos as interações) e como é feita a análise e o replanejamento periódicos.
O modelo que será apresentado pode ser aplicado e mensurado por qualquer entidade do setor público interessada em proporcionar um trabalho de conteúdo digital voltado aos interesses do seu público-alvo.
- Tipo de proposta: apresentação;
- Foco: gerencial, para demonstrar a gestores públicos os resultados potencializados pela análise de dados;
- Fase do trabalho apresentado: estudo de caso com resultados práticos.
Covid-19 - Framework de Risco para solução de GRC
Tipo de proposta: Ação Educacional prática de até 02 horas
Oficina: Duração de até 02 horas. Apresentação dinâmica e prática percorrendo as principais etapas necessárias para compreensão do caso proposto.
Descrição:
Apresentação de um Framework 100% web, para Gestão de Riscos Estratégicos com avaliações orientadas a produção de KRIs automatizados, que impactam positivamente a avaliação de risco. Demonstração prática de como um motor de Analytics busca dados abertos para confecção de estatísticas dos números globais e/ou locais da covid-19, com o objetivo de criar KRIs que possam ser utilizados para o monitoramento de Riscos. Os Riscos mapeados sejam eles quais forem podem ser integrados aos KRIs, ou seja, fatores tais como Impacto e Probabilidade podem ser dinamicamente pesados para produzir um Score com base no Risco Inerente e Residual. Com base nesse aspecto inovador pode-se transformar uma avaliação de risco manual e subjetiva para uma avaliação automatizada, ou a combinação de ambos os cenários dependendo do escopo. Esse cenário irá munir uma condução de avaliação de riscos orientada a dados, ou o termo por ora conhecido de Data Driven GRC, implementando com eficiência um IRM, ERM e até mesmo um ORM.
Foco da apresentação: Híbrido, mostrando recursos e funcionalidades, entretanto, com discurso voltado ao negócio, em um formato que não exige a necessidade de compreensão técnica.
Detalhes técnicos: Conectores de dados para extração de informações abertas via API no formato JSON. Aplicação de Regras para obtenção de KRIs, integrando esses resultados à Gestão de Riscos, criando componentes automatizados, 100% web sem quaisquer necessidades de estruturar um plano de processamento local
Discussões/dúvidas: 10min
Descoberta e Monitoramento de Barragens de Rejeito de Minério e Minas de Superfície Utilizando Imagens de Satélite Gratuitas e Deep Learning
Tipo da Proposta: Apresentação
Foco: Técnico
Fase de trabalho: Método implelementado com resultados práticos e código disponibilizado para uso público
Descrição da apresentação:
Este projeto de pesquisa explorou a combinação de computação em nuvem gratuita, software livre de código aberto e métodos de aprendizado profundo para analisar um problema real em grande escala: a identificação e classificação automática de minas de superfície e barragens de rejeitos de mineração. O trabalho teve como foco o Brasil, embora os métodos propostos possam ser aplicados em qualquer região do planeta. As localizações das minas e barragens oficialmente registradas junto ao governo brasileiro foram obtidas a partir de dados abertos e serviram como ponto de partida para criação de uma base de exemplos. Imagens de satélite Multispectral Sentinel-2, obtidas e processadas na plataforma Google Earth Engine, foram usadas para treinar e testar redes neurais profundas usando a API TensorFlow e a plataforma Google Colab. Redes Neurais Profundas Convolucionais foram utilizadas de forma inovadora na busca por minas e barragens de rejeitos de minério não registradas em grandes áreas do território brasileiro. A eficácia da abordagem é demonstrada pela descoberta de 263 minas que não têm concessão oficial de mineração, diversas delas em áreas de proteção ambiental e reservas indígenas. Este trabalho exploratório destaca o potencial de um conjunto de novas tecnologias, disponíveis gratuitamente, para a construção de ferramentas de ciência de dados de baixo custo e alto impacto social. Ao mesmo tempo, discute e busca sugerir soluções práticas para o complexo e grave problema da mineração ilegal e da proliferação de barragens de rejeitos de minério, que apresentam elevados riscos à população e ao meio ambiente, principalmente nos países em desenvolvimento. A metodologia se mostrou particularmente eficaz na região amazônica, para a qual imagens gratuitas de alta resolução, como a do Google Earth, tendem a ser muito defasadas devido à dificuldade em obter imagens livres de cobertura de nuvens. Foram implementados métodos inovadores, baseados no processamento de alto desempenho em nuvem, que partindo de grandes coleções de imagens de satélite gratuitas confeccionam mosaicos livres de nuvens, permitindo a identificação de focos de mineração recentes mesmo nas regiões mais inacessíveis da floresta. Nesse aspecto, o projeto é de particular interesse também para os países vizinhos da América do Sul, que têm em comum conosco não só o grave problema da mineração ilegal e informal, como também biomas terrestres, clima e cobertura vegetal.
Detecção automática de grupos econômicos
As parcerias entre empresas é algo natural e geralmente positivo. Em grande medida, acordos comerciais visam minimizar os custos, melhorar a produtividade, garantir posição de mercado e maximizar o lucro entre as empresas sócias. A preocupação inicia quando os grupos econômicos exercem o seu poder de mercado de forma anticompetitiva, a partir da fixação de preço, quantidade diferente do equilíbrio de mercado. Este trabalho apresenta uma proposta de coleta, limpeza, estruturação e exploração de dados fornecidos publicamente pelo site da Receita Federal para auxiliar o processo de análise de grupos econômicos. A proposta em questão pode ser utilizada por órgãos da administração pública para analisar relações societárias automaticamente, confrontar informações apresentadas pelas empresas, minimizar o tempo dispendido, melhorar a precisão de análise e construir o cenário para a aplicação de multas por infrações à ordem econômica.
Tópicos Relacionados:
• Detecção de padrões e relacionamentos úteis à formulação ou execução de políticas públicas;
• Análise de redes (network analysis).
Tipo: Apresentação
Divulgação de Informações Hospitalares como instrumento de transparência em tempos de pandemia
Informações estratégicas são fatores críticos de sucesso para a gestão de qualquer negócio. Na área de saúde pública, mais ainda. Entretanto, a saúde tem muitos dados, mas poucos sabem utilizar esses dados para gerar informações que podem fazer melhor a gestão das suas unidades hospitalares, informar o público, manter informado os gestores, bem como órgãos de controle sobre sua atuação e como está a unidade em termos de taxa de ocupação, quantidade de atendimentos, tempo médio de permanência do paciente no leito, giro de leitos, etc.
Pensando nisso, um hospital público do Distrito do DF desenvolveu uma página apresentando seus principais indicadores e divulgando os mesmos mensalmente. São informações desenvolvidas a partir de aplicativos gratuitos (app do Google Docs), de forma que tanto os gestores como suas principais unidades tivessem acessos a esses dados em qualquer lugar e a qualquer momento, seja pelo celular, tablet ou computador, bem como disseminar essa informação para os demais stakeholders. A página principal de Indicadores Hospitalares do referido hospital pode ser acessada pelo link.
A equipe de Planejamento do hospital sempre prezou por divulgar dados corretos, que refletissem o momento pelo qual o País estava passando – o de pandemia, da covid-19. Em destaque, informamos nessa página principal do hospital, bem como de suas unidades assistenciais, que a taxa de ocupação do hospital foi afetada pelo lockdown da cidade, fazendo com que a mesma caísse em aproximadamente 45%, principalmente nos meses de abril e maio. Isso foi de encontro ao que a grande maioria dos hospitais públicos pelo País estavam divulgando como verdade: que os hospitais estavam lotados, quando na verdade, foi o contrário, conforme constatado pelos órgãos de controle.
Além disso, divulgamos na porta das unidades assistenciais (UTI, Pronto Socorro, Enfermarias, Laboratório, dentre outros), acesso as páginas de Indicadores hospitalares dessas unidades, demonstrando informações como quantidade de entradas e altas de pacientes, taxa de ocupação, tempo médio de internação, taxa de mortalidade, dentre outros, para ser vista e acessada tanto pela equipe interna (profissionais do hospital), quanto pelos pacientes e/ou acompanhantes. As páginas são acessadas via QR Code, bastando o usuário apontar a câmera do seu celular para a imagem. É o compromisso do hospital público em informar bem seus gestores, a população que dele depende, bem como os órgãos de controle, para qual informações como essas são relevantes e necessárias.
Efeitos Gravitacionais da Cultura e a Migração Interna no Brasil
Esta proposta de apresentação técnica tem por objetivo mostrar os resultados sobre o papel da cultura na migração interna no Brasil. Para isso, implantamos microdados do Projeto de Opinião Pública da América Latina (LAPOP) e do Censo Brasileiro de 2010. No contexto do modelo teórico gravitacional, adotamos o método estatístico de probabilidade denominado pseudo-máximaverossimilhança de Poisson com efeitos fixos (PPMLFE) para dar conta de questões econométricas. O software utilizado foi o Stata. Os resultados obtidos fornecem novas evidências sobre a influência das percepções dos migrantes sobre os fatores push-pull dos municípios brasileiros. Tradicionalmente, os modelos gravitacionais aplicam recursos como Produto Interno Bruto per capita, taxa de desemprego e densidade populacional para medir a atratividade das cidades. Em suma, essas ideias sobre os traços e percepções dos migrantes sobre a cultura abrem o caminho para elaborar políticas de migração apropriadas no nível municipal, uma vez que a migração apoia, entre outros, a renovação do tecido socioeconômico.
Eliminação dos Falsos-Positivos dos Testes de Auditoria com Machine Learning e Evidências utilizando RPA
Tipo de proposta: Ação Educacional prática de até 02 horas
Oficina: Duração de até 02 horas. Apresentação na prática mostrando as principais etapas e os processos de garantia de itens reais.
Descrição: Solução utilizando Aprendizado de Máquina (Machine Learning) em resultados pós-análise de dados, levando para a área de negócio otimização financeira e de tempo através de resultados assertivos, ou seja, focando somente nos testes que foram indicados como positivos encontrados em monitoramentos contínuos, eliminando o esforço dos falsos positivos. A solução é complementada através do uso de RPA para a criação de evidências, obtidas em sistemas legados, comprovando a positividade dos itens elencados.
Foco da apresentação: Machine Learning substituindo análise manual de um Auditor em Testes que não são positivos, minimizando esforços, focando apenas nas situações reais.
Detalhes técnicos: Ferramenta de Análise de Dados com modelos de aprendizagem de máquina, Software de RPA e Gerenciamento, Apresentação dos Resultados em ferramentas gráficas e de workflow.
FARO: Ferramenta de Análise de Risco de Obras
Os contratos de obras públicas movimentam somas importantes de dinheiro. A limitação de recursos humanos determina que somente uma parcela desses contratos seja fiscalizada. Extensas tabelas orçamentárias, entregues em arquivos-texto e sem formatação definida, podem esconder sobrepreços ou outras desinformações utilizadas em esquemas de corrupção.
A Ferramenta de Análise de Risco de Obras (FARO) tem como objetivo automatizar a análise das planilhas de 100% dos contratos de obras, tornando a fiscalização mais abrangente e efetiva, promovendo a transparência desses dados e inibindo ações de corrupção.
Nesta apresentação, iremos abordar os desafios enfrentados no seu desenvolvimento, os aspectos técnicos da captação, tratamento e consolidação de dados, bem como os métodos estatísticos utilizados no apontamento de discrepâncias e direcionamento das atividades fiscalizatórias.
- Foco principal da apresentação: gerencial, apresentando aos gestores a efetividade esperada pelo uso da ferramenta nas atividades de fiscalização, sem deixar de abordar os aspectos técnicos da solução.
- Fase do trabalho apresentado: projeto em andamento.
- Detalhes técnicos: Análise de Benford, Curva ABC, R, Grails, Golang, Spring, Hibernate, API Rest, Microsserviços.
Ferramenta de investigação baseada em Grafos de relações entre Pessoas Físicas e Jurídicas inferidas a partir de Processos da Lava Jato
O TCU possui a custódia de mais de 163.000 documentos oriundos de pouco mais de 1.800 processos da Justiça Federal de Curitiba referentes à Operação Lava Jato.
A extração de informação sobre pessoas físicas e jurídicas a partir dos documentos para auxílio em instrução de processos no Tribunal era realizada através apenas de pesquisa textual nos documentos indexados. O processo era manual, tinha um custo bastante elevado para obtenção da informação e o resultado não tinha muita profundidade, pois dependia de esforço humano de leitura de inúmeras peças sem nenhum conhecimento prévio para gerar conhecimento para outro auditor instruir seu processo.
Para enriquecer a informação extraída, automatizar e reduzir drasticamente seu custo de obtenção, foi desenvolvida uma solução que utilizou Part-of-speech tagging (POS Tagging) e Regex para inferir relacionamentos binários entre Pessoas Físicas e Jurídicas que foram descobertas usando Named Entity Recognition (NER) ao processar os documentos. O resultado foi disponibilizado em uma aplicação web que exibe Grafos de relacionamentos inferidos entre as pessoas descobertas. Isso permite que usuários sem conhecimento especializado em Ciência de Dados possam pesquisar e investigar ligações entre pessoas de forma interativa com um design minimalista que abstrai a complexidade envolvida e torna a interação acessível a todos.
- tipo de proposta: apresentação
- foco principal da apresentação: grande parte técnico, mas com os resultados úteis para o nível gerencial por mostrar a geração de conhecimento a partir de documentos não estruturados que podem ser usados em suas instituições.
- fase do trabalho apresentado: projeto com primeira fase entregue e ainda em andamento com as fases seguintes
- detalhes técnicos:
Stack utilizada no projeto:
IPED (Polícia Federal) - Extração de índices do Lucene
Kotlin
Python com Jupyter Notebooks
Solr e Elasticsearch (Cruzamento de dados)
LeNER-Br (Tensorflow)
Fuzzy Match (fuzzywuzzy)
Pandas
ReVerb Algorithm (POS-Tag + Regex com nltk e spacy)
Banco de Grafo: OrientDB
React e Cytoscape.js (Visualização)
Docker + Kubernetes (deploy da aplicação final)
Ferramenta Monitor de Aquisições Covid – Estudo de caso do TCE/MG para o acompanhamento de aquisições públicas relacionadas à COVID-19 em Minas Gerais
Descrição da Proposta
Este estudo de caso tem como objetivo apresentar os resultados do trabalho realizado pelo Tribunal de Contas de Minas Gerais (TCE-MG) para o acompanhamento de aquisições de materiais, insumos e serviços relacionadas à pandemia do novo Coronavírus (COVID-19) por todos os seus jurisdicionados distribuídos pelos 853 municípios e também pelo Estado de MG. O projeto consistiu na construção de uma ferramenta denominada Monitor de Aquisições Covid, que implementa um processo de trabalho com diversas etapas, desde a coleta de dados brutos em diários oficiais e outras fontes não estruturadas, passando pelo processamento através do cruzamento com outras bases de dados e priorização de acordo com critérios de materialidade, relevância e risco, finalizando na análise estruturada da regularidade da aquisição por analistas de controle externo. Este trabalho permitiu ao Tribunal ter uma visão panorâmica e ao mesmo tempo detalhada dos processos de compras e contratações, monitorando constantemente os riscos assumidos pelos jurisdicionados.
Informações da Proposta
- Tipo de Proposta: Apresentação
- Título da apresentação: Ferramenta Monitor de Aquisições Covid – Estudo de caso do TCE/MG para o acompanhamento de aquisições públicas relacionadas à COVID-19 em Minas Gerais
- Foco principal da apresentação: Gerencial
- Fase do trabalho apresentado: Estudo de caso com resultados práticos
- Detalhes Técnicos: Tecnologias envolvidas: Linguagem de programação Python, Framework de desenvolvimento Web Python-Django; Biblioteca de processamento de texto TIKA; Inteface Web com HTML, CSS e Javascript (JQuery); Tableau; Banco de Dados Oracle; Servidor Linux Cent-OS;
Filtrando matérias relevantes no Diário Oficial da União com Machine Learning
Criamos um modelo de machine learning que, diariamente, captura as matérias do Diário Oficial e as ordena por relevância (com base em classificações manuais). De cerca de 850 matérias diárias, aproximadamente 60 são selecionadas e passam por um pente fino manual. A seleção final é enviada a qualquer interessado em listas de whatsapp e no Twitter. O modelo se mantém num ciclo de aprimoramento contínuo, aprendendo com o feedback dado no pente fino.
Pretendo apresentar essa ferramenta, disponível a qualquer pessoa, demonstrar a gestores públicos os resultados potencializados pela aprendizagem de máquina e dar detalhes da implementação para facilitar a realização de trabalhos semelhantes por analistas e cientistas de dados.
GASTÔMETRO: UMA APLICAÇÃO DE DATA WAREHOUSE PARA ANÁLISE DE GASTOS E REEMBOLSOS DE DEPUTADOS
Tipo de proposta: Apresentação
Título da apresentação: GASTÔMETRO: UMA APLICAÇÃO DE DATA WAREHOUSE PARA ANÁLISE DE GASTOS E REEMBOLSOS DE DEPUTADOS.
Foco: Técnico
Fase de trabalho: Estudo de caso com resultados práticos
Descrição da apresentação:
Com a promulgação da Lei de Acesso à Informação, em 2011, a transparência de gastos passou a ser obrigatória no Brasil. Desde então, vários conjuntos de dados estão sendo disponibilizados por várias agências públicas, o que tem proporcionado à população brasileira o acesso a dados públicos sobre os mais variados temas.
Dentre as informações publicadas, existe um conjunto de dados bastante relevante que descreve as despesas dos deputados federais no desempenho de suas funções. Esses dados podem ser livremente obtidos a partir do sítio da Câmara dos Deputados e descreve os gastos realizados por cada parlamentar desde o ano de 2009.
No Brasil, a Cota para Exercício da Atividade Parlamentar (CEAP) foi instituída como um valor mensal destinado a cada deputado para custear os seus gastos no âmbito do exercício da atividade parlamentar. Esse valor pode ser usado para o custeio de despesas com alimentação, combustíveis e lubrificantes, divulgação da atividade parlamentar, fretamento de aeronaves, entre outras. Embora os dados da utilização da CEAP por cada parlamentar estejam disponíveis para consulta, ainda é difícil para a população fiscalizar a maneira como os deputados usam esse recurso.
Destarte, este trabalho apresenta uma aplicação de Business Intelligence (BI) apoiada em um Data Warehouse (DW) para facilitar a visualização e a análise dos dados sobre os gastos parlamentares a partir dos conjuntos de dados que se encontram disponíveis.
O trabalho apresentado abordará:
- a modelagem e implementação de um esquema dimensional para o armazenamento dos dados e realização de consultas;
- o desenvolvimento de uma ferramenta para realizar a extração, transformação e carga dos dados no banco de dados;
- o desenvolvimento da aplicação web para a fiscalização do uso do dinheiro da CEAP por parte dos deputados.
Detalhes técnicos: modelo de dados ou modelos de aprendizagem utilizados; softwares e linguagens de programação utilizados;
Modelo de dados: Data warehouse em banco de dados relacional
Linguagens: Java, SQL, JavaScript, HTML
Frameworks e Libraries:
1. front-end: React.Js
2. back-end: Sparkjava, Spring Context, JDBC
Banco de dados: PostgreSQL
Governança de dados no enfrentamento à pandemia de COVID-19 no estado de Alagoas
Tipo da Proposta: Apresentação
Foco principal da apresentação: Técnico
Fase do trabalho apresentado: Concluído
Breve descrição da apresentação:
Com a disseminação da COVID-19 pelo mundo e a previsão de chegada da pandemia ao Brasil, a secretaria de planejamento do estado de Alagoas, passou a realizar estudos prévios sobre as possíveis formas de disseminação do vírus no território alagoano. Nesse contexto, o cenário encontrado, não era favorável. Principalmente, no que se refere a ausência de padrões e processos organizacionais que contribuíssem para as necessidades que estavam por vir.
Desse modo, foi desenvolvida uma parceria entre as Secretarias de Saúde (SESAU) e planejamento (SEPLAG), com intuito de disseminar governança de dados no enfrentamento do COVID-19. A princípio, as informações sobre os casos de infectados eram transmitidas por meio de planilhas Excel. Para processar os dados, foi estabelecida três frentes de trabalho: 1) Responsável por receber, revisar, realizar a limpeza e aplicação de pseudonimização nos dados; 2) Receber os dados e posteriormente geolocalizar os pacientes que testaram positivo para a COVID-19; 3) Encarregada de estudar e implementar formas de visualizações.
Diante da demora no processamento dos dados e visando a diminuição da interferência humana em todos os processos, foi criado um sistema onde a fonte insere os dados que são transferidos via API. Além disso, os dados unificados em uma única base para centralizar todas as informações de logradouros dos casos, facilitando a consulta e evitando a repetição desnecessária de processos.
Sendo assim, passamos a divulgar diariamente os dados abertos, provendo assim suporte para a comunidade acadêmica e demais interessado, em plataforma de dados abertos CKAN onde se destaca o processo simplificado de publicação e documentação dos datasets e os diversos recursos para catalogação e recuperação de informações. Ademais, o processo de gestão dos dados, possibilitou ao Estado de Alagoas atingir o primeiro lugar no Ranking de Transparência da OpenKnowledge, em maio deste ano. Por fim, com o processo de constante evolução elaboramos cinco painéis de visualização como produtos destes dados, sendo três privados (Quadro Geral COVID-19 para a governança, Regula Leitos para a SESAU, e Situação da COVID-19 em Aglomerados Subnormais do estado em parceria com ONU-Habitat) e dois painéis públicos (Situação Geral da COVID-19 no Estado e Quadro da COVID-19 entre Povos Indígenas no Território).
Detalhes Técnicos: API do Power BI para visualização dos dados (painel), QGIS para o tratamento do.shp (shapefile), Google Earth para geolocalizar o casos de covid-19. Arquivos CSV para alimentação do banco de dados, armazenados no sistema CKAN (Comprehensive Knowledge Archive Network) onde oferece ferramentas para publicação, compartilhamento, descoberta e uso de dados.
I2E Integridade Inteligente e Eficiente: Detecção de Jogo de Planilha utilizando Modelo Baseado em Regras na Petrobras
A Operação Lava Jato revelou ao grande público esquemas de fraudes contratuais como, por exemplo, o direcionamento de edital, sobrepreços e superfaturamentos. Dentre esses esquemas, a modalidade de “jogo de planilhas” foi foco de artigos e publicações recentes sobre auditoria de obras públicas e é o tema do presente estudo.
O jogo de planilhas consiste na existência num mesmo contrato de itens com preços majorados (com sobrepreço em relação ao mercado) e que serão consumidos além das quantidades previstas em edital e de itens com preços abaixo do mercado (subpreço) que serão consumidos em quantidades aquém das previstas em edital.
A proposta de Detecção de Jogo de Planilhas desenvolvida pela equipe de análise de dados da Petrobras utiliza um modelo baseado em regras, desenvolvido na linguagem Python, que tem como objetivo representar o modo de raciocínio e o conhecimento aplicado por especialistas na detecção deste tipo de fraude. O modelo se propõe a apontar, através da análise de red flags (ou indicadores/marcadores), contratos com características de ocorrência de “jogo de planilhas” firmados pela Petrobras e pode ser aplicável potencialmente a qualquer ente da Administração Pública.
O estudo baseou-se na ideia de um referencial interno de preço para estabelecer o limiar de sobrepreço e subpreço. Para isso, propõe-se o cálculo de uma média dos preços pagos internamente pela Petrobras para cada material, utilizando referenciais estatísticos como média e desvio padrão.
O projeto encontra-se em fase preliminar de testes, mas já apresenta resultados promissores quanto à redução do tempo de análise (em torno de 99%) e volume de contratos (redução de 95%) para verificação da suspeita de existência de Jogo de planilha. A próxima etapa contemplará a verificação da lista de contratos com tais características apontadas pelo modelo para verificação de sua acurácia.
Tipo de proposta: Apresentação (20 minutos na programação principal do evento)
Título da apresentação: I2E Integridade Inteligente e Eficiente: Detecção de Jogo de Planilha utilizando Modelo Baseado em Regras na Petrobras
Foco principal da apresentação: Gerencial
Fase do trabalho apresentado: Trabalho ou projeto em andamento ou proposta em estudo para implementação
Detalhes técnicos:
• Linguagem de programação python
• Bancos de dados sqltite e Oracle.
• Técnicas de benford e detecção de outlier
• Referenciais estatísticos: Média e desvio padrão
IAPTUS Olga: Uma abordagem baseada em Processamento em Linguagem Natural para apoio do controle externo da atividade policial e no sistema prisional realizado pelo Ministério Público Federal
As atividades realizadas por órgãos da Administração Pública, em sua grande maioria, são expressas por meio da produção de documentos os quais obedecem uma forma, tais como ofícios, memorandos, manifestações, etc. Dessa maneira, há uma grande produção de informação na forma de dados não estruturados. No Ministério Público Federal não seria diferente, já que a atuação do órgão se manifesta com a edição desses documentos, e mesmo que armazenados eletronicamente, os dados ali contidos (textos em geral) são de difícil extração quando o objetivo é a estruturação desses dados para produção de relatórios estatísticos. Sendo assim, o Projeto IAPTUS Olga tem por objetivo o desenvolvimento de metodologia utilizando as técnicas de machine learning, text minig, text analytics para, a partir de critérios busca, selecionar e classificar automaticamente documentos cujo objeto seja um determinado tema prioritário, por exemplo, classificar automaticamente procedimentos que fazem menção a prática de violência praticada por agentes públicos. E a partir dos documentos classificados, extrair automaticamente dados de interesse para produção de indicadores. O projeto IAPTUS Olga já possui um protótipo funcional demonstrando resultados promissores. Está implementado em Python, utilizando técnicas de NLP (Características baseadas em Gramática, Phrase Chunking, word embedding ou WordToVec, Doc Similarity, Word Similarity with Cosine Similarity, Uso de Redes Neurais para criação de espaço vetorial do vocabulário do Ministério Público Federal, reconhecimento de Entidades Nomeadas, etc).
Informações georreferenciadas como insumo para Inteligência de Negócio
Esta é uma proposta de apresentação de solução com foco gerencial em estudo de caso construído em ferramenta de Data Discovery que permite a análise e cruzamento de informações georreferenciadas.
Será apresentado um produto baseado em tratamento de dados, georreferenciamento e Data Discovery que permitirá o acesso à informações enriquecidas capazes de serem insumos de suas análises de dados como fontes secundárias de informação na construção de inteligência de negócio.
A análise de dados que visa incrementar as informações estratégicas das organizações utiliza informações de duas fontes: primárias e secundárias. Enquanto a fonte primária se trata de uma coleta em forma de pesquisa totalmente direcionada ao problema que se pretende conhecer, portanto cara, a fonte secundária se utiliza de dados que não foram gerados exclusivamente para esse fim.
A partir da base da frota nacional de veículos, foi realizados diversos tratamentos dos dados, como: higienização, identificação das informações de bairro dos veículos utilizando Machine Learning para comparar informações existentes de bairro oriundos dos Detrans Estaduais com bases de bairros e coordenadas, associação à respectiva coordenada geográfica de centro de bairro, entre outros procedimentos, agregando valor ao dado.
O resultado desses tratamentos é um produto que disponibiliza para o Denatran e o mercado uma fonte secundária de informações com alta qualidade, como insumo para qualificar a análise da frota nacional de veículos. A ferramenta de Data Discovery utilizada é de fácil navegação e possui uma característica na seleção de valores em seus filtros que facilita a descoberta de dados e gera insights.
Esse produto visa atender a política pública de melhoria do ambiente de negócios (Decreto nº 8.414/2015) e segue o disposto na Portaria DENATRAN nº 15, de 18 de janeiro de 2016. O Denatran já está usufruindo de seus benefícios para o planejamento e execução de políticas de melhoria do trânsito e do transporte brasileiro.
Infraestrutura e Análise de Múltiplas Bases de Dados para Apoio à Gestão Territorial Brasileira
Tipo da proposta: apresentação
Foco principal: Majoritariamente técnico, com aplicações gerenciais
Trabalho em andamento
A Agência de Inovação, Geotecnologia e Sistemas Inteligentes (ZETTA), da Universidade Federal de Lavras (UFLA), uniu experiências acumuladas em projetos de inovação tecnológica para o desenvolvimento de uma Plataforma de Infraestrutura de Dados (estruturados, não estruturados e espaciais). A Plataforma, com foco no suporte à políticas públicas e na transformação digital da administrações diretas estadual e federal, tem o objetivo de potencializar projetos de pesquisa, inovação e ciência de dados. Espera-se estruturar um Big Data estratégico - composto por múltiplas bases de dados para apoio à gestão territorial Brasileira, configurar ferramentas analíticas avançadas, modernizar e dar transparência às atividades como gestão ambiental, recursos hídricos, agropecuária, meteorologia. Um novo futuro a partir deste novo combustível: os dados.
- Linguagem de programação: Python
- SGBD: PostgreSQL + PostGIS
- DMS: Ckan + GeoNode
- Análise de dados e aprendizagem de máquina: Bibliotecas Python: pandas, pandas-profiling, scikit-learn
- Análise de Dados Espaciais e Sensoriamento Remoto: ArcGIS PRO, QGIS, eCognition, ENVI
Inteligência Forense no Brasil - Sistema Delphos e Integração Pericial
Tipo de proposta: apresentação
Foco principal: gerencial
Fase do trabalho: projeto em andamento
Trata-se de um modelo de atuação baseado no uso de infraestrutura de TI para utilização de forma útil das evidências produzidas pela perícia. A Perícia Criminal no Brasil abrange 18 áreas de conhecimento que produzem evidências que podem tomar uma nova compreensão por meio da integração de áreas que de forma isoladas podem não ter um sentido global. A integração entre áreas é base para o processo em que o foco na solução do problema passa a ser visualizada sob novas formas. A Perícia Criminal no Brasil está presente em todas as Unidades da Federação e a quantidade de dados produzidos das mais diversas naturezas precisam estar sistematizadas e integradas. O modelo proposto utiliza uma infraestrutura robusta de servidores atuando em camadas que passam por um processo de seleção e integração para solução de casos. Além da metodologia de trabalho e infraestrutura de TI, se desenvolveu o sistema Delphos para integração de bases de dados estruturadas e não estruturadas que podem ser utilizadas em qualquer contexto de atuação pericial. Trata-se de um modelo em desenvolvimento com modelos em funcionamento em algumas unidades de criminalística e que tem o potencial de integração em todas as unidades. O modelo tem como premissa a aplicação da ciência forense com a utilização da tecnologia nas diversas áres do conhecimento técnico-científico.
Lei 13.303/2016: Usando Grafos para Identificar Empresas Impedidas de ser Contratadas
Os critérios que, conforme o artigo 38 da Lei 13.303/2016, impedem uma empresa de participar de licitações e de ser contratada por empresa pública ou sociedade de economia mista envolvem uma rede de relacionamentos entre:
1. os empregados da empresa contratante;
2. as empresas licitantes ou contratadas;
3. os sócios responsáveis pelas empresas licitantes ou contratadas;
4. as sanções aplicadas às empresas.
Nesse sentido, será apresentado um Estudo de Caso com resultados práticos, que utilizou a Teoria de Grafos para analisar as redes de relacionamentos e identificar as situações que denotam empresas impedidas de ser contratadas.
O grafo foi modelado complementando os dados internos de contratação com dados abertos externos disponibilizados pela Receita Federal e pelo Portal da Transparência.
As bibliotecas Pandas, NLTK e IGraph da linguagem Python foram utilizadas para conciliar os dados coletados, aplicar algoritmos no grafo modelado e analisar os resultados.
Tipo de Proposta: Apresentação
Foco Principal: Técnico, para facilitar a realização de trabalhos semelhantes por analistas e cientistas de dados
MINERAÇÃO DE DADOS COM O SOFTWARE R
Tipo de proposta:
Oficina com duração de 4 horas
Título da oficina:
MINERAÇÃO DE DADOS COM O SOFTWARE R
Foco principal:
O R se destaca como uma ferramenta estatística e esse estigma já é suficiente para desestimular o seu uso por profissionais de outras áreas. Ocorre que os seus comandos e a elevada capacidade de processamento podem facilitar a execução de atividades completamente distintas do segmento estatístico, sendo úteis inclusive para uso no ambiente doméstico de uma família. Uma vez ultrapassada essa barreira inicial, deparamo-nos com dois outros dificultadores: a importação de bases dos sistemas corporativos, que possuem as mais variadas particularidades, e a descoberta das funções mais adequadas para os nossos propósitos. Essa oficina se propõe a apresentar ensaios de mineração de dados fazendo uso das suas funções mais básicas descritas no “Short R Reference Card”. Embora o guia de referência completo tenha mais de 3.600 páginas e exija um longo percurso de aprendizado, nada impede que o usuário iniciante utilize essa ferramenta a partir de algumas funções mais simples e atinja excelentes resultados em diversas atividades profissionais.
Fase do trabalho:
Estudo de caso com resultados práticos
Descrição da oficina:
A oficina consiste no compartilhamento de experiências vividas na prática pelo instrutor, em ambiente corporativo de grande porte, abordando dificuldades e soluções na importação de bases, mineração de dados e detecção de transações atípicas.
Detalhes técnicos:
Utilizaremos computador com o software R instalado. O participante pode fazer o download gratuito do R no endereço: https://www.r-project.org/.
Será disponibilizada apostila em PDF contendo o passo-a-passo das atividades desenvolvidas no decorrer da oficina.
Ementa:
- Introdução à mineração de dados
- Detecção de transações atípicas
- Importação de bases atípicas
- Desmonte de spool file
- Uma função curinga do R
- Uso do R para gestão financeira
Modelo Preditivo para sugestão de Roteamento Rodoviário de cargas considerando dados históricos, sócio-ambientais e de redes sociais.
Tipo de proposta: Apresentação
Foco principal da apresentação: Técnico
Fase do trabalho apresentado: Estudo de caso com resultados práticos
Descrição da apresentação:
As rodovias federais que atravessam as Regiões Metropolitanas das grandes cidades brasileiras estão constantemente congestionadas, não apenas pela quantidade de veículos, mas por serem alvo de paralisações das mais diversas matizes, como protestos de trabalhadores, greves, acidentes, danos na via, intempéries naturais e outros fatores de congestionamento. Em situações extremas esses problemas poderiam paralisar até a produção das fábricas no seu entorno, causando grandes prejuízos. Para dirimir alguns destes problemas, esta pesquisa tem por objetivo propor e testar conceitos para uma plataforma autoadaptável que contemple um modelo preditivo de comportamento das rodovias federais brasileiras que atravessam os Estados e regiões de norte a sul, de leste a oeste Brasil, de modo que seja possível, antecipar eventos que possam vir a causar constrangimentos, como retenção, redução do fluxo de tráfego (gargálos) e paralisação. A fonte primária de dados desta pesquisa provém da base de dados da Polícia Rodoviária Federal de cada Estado.
Os dados abertos da PRF estão disponíveis desde 2007 até os dias atuais, tendo sua base de dados considerado veículos, traçado da via e trechos da rodovia relacionados a acidentes dentre outros.
Com base nas informações obtidas, pretende-se demonstrar uma Mineração de Dados utilizando a metodologia CRISP-DM, além de Mineração de Textos para encontrar padrões comportamentais nas rodovias e em seu entorno vindos de redes sociais.
As tecnologias empregados para a mineração de dados são: Árvores de Decisão, Naïve Bayes e Redes Neurais. Os valores da área sob a curva ROC (AUC) obtidos acima de 80% dão um bom grau de confiabilidade. A PRF utliza constantemente a rede social do Twitter para informar os condutores, então foram coletados todos os tweets referentes a cada palavra chave, até ao limite imposto pelo aplicativo. Para mineração em textos tecnologias utilizadas foram Naïve Bayes, TF-IDF e, para exibir a geolocalização, foi utilizado o software de georreferenciamento Google Maps. Todos os algoritmos descritos foram implementados principalmente no software R, e como plataforma de teste no Weka.
Em comparação com abordagens usuais de navegação, o modelo de predição proposto representa um avanço em termos de mobilidade e gestão do transporte, tráfego em rodovias, uma vez que possibilita antecipar eventos e comportamentos, favorecendo a escolha de rotas alternativas e ampliando o espaço temporal de escolha para determinadas rotas.
Com este trabalho pretende-se sugerir ao entes governamentais uma ferramenta que lhes auxilie a tomar decisões quando a operacionalidade e fluidez no transito que trafega nas BRs brasileiras. Vislumbra-se também a possibilidade de previsibilidade do acometimento de acidentes rodoviários, servindo assim para fazer políticas públicas, políticas de seguros dentre outras.
Detalhes técnicos:
Para a mineração de dados foram utilizadas as técnicas: Árvores de decisão, Naïve Bayes e Redes neurais.
Para mineração em textos: TF-IDF.
Para comprovação dos resultados foi utilzado o modelo Matriz de confusão e curva ROC
Para rodar os algoritmos (IDE): R-studio e Weka.
Palavras-chave: Modelo de Predição, Mineração de dados, CRISP-DM, Controle de tráfego rodoviário.
OAO & OSG - Oficinas de Análise Orçamental & Orçamentação Sensível ao Género
Tipo de Proposta: Apresentação 20 minutos no Plenário.
Título da Apresentação: OAO & OSG - Oficinas de Análise Orçamental & Orçamentação Sensível ao Género
Eixo Temático: Finanças Públicas - Metodologias, técnicas, ferramentas e critérios de análise dos principais documentos orçamentais e de género ao longo do ciclo orçamental.
Foco Principal da Apresentação: Apresentação e socialização da metodologia de análise dos principais documentos orçamentais ao longo do ciclo orçamental e do modelo de integração da abordagem género nos documentos de planificação e orçamentação. Integra ainda na análise orçamental a apresnteção dos criterios PFC - Prazo, Estrutura Formal e Conteído, os Standard Operations Procedure (SOP) com destaque para o Guião Metodológico de análise preliminar e na análise de género a apresentação da ferramenta Gender Marker desenvolvido e operacionalizado nos sistemas informaticos de execução orçamental nos PALOP-TL, bem como os indicadores de peso relativo e de desempenho.
Fase do Trabalho Apresentado: Em implementação nos PALOP-TL desde 2014 até ao presente momento.
Descrição da Apresentação: A metodologia contextualiza o quadro normativo para a análise orçamental (OAO) e o regime jurídico de fiscalização das despesas publicas adaptados ao contexto regional de cada um dos países PALOP-TL e os compromissos e as prioridades internacionais para a igualdade de género ratificados pelos países PALOP-TL (CEDAW, Plataforma de Beijing, ODS, nomeadamente o ODS 5) e refletidos no Programa do Governo da presente Legislatura e no Plano Nacional para a Igualdade e Equidade de Género (PNIEG) para a Orçamentação Sensível ao Género (OSG).
Para a analise orçamental (OAO) recorre aos critérios PFC da análise Orçamental - Prazos, Estrutura Formal e Conteúdo - Que permite uma análise preliminar, bem como a identificação e apropriação dos aspectos mais críticos e das principais insuficiências, incongruências e omissões de informações nos principias documentos orçamentais ao longo do ciclo rçamental. Para a análise de Orçamentação Sensível ao Género (OSG) aplica o modelo standard de integração da abordagem de género no ciclo orçamental e na planificação que facilita a institucionalização dos mecanismos referenciados pela CEDAW, como promotores da igualdade de género.
A finalidade última das OAO & OSG é sistematizar a metodologia de análise dos principais documentos orçamentais ao longo do ciclo orçamental e apresentar propostas de SOP como o Guião Metodológico em resposta ao reforço da fiscalização administrativa, jurisdicional, legislativa e cívil das despesas públicas nos PALOP-TL para a apreciação, apropriação e análise mais autónoma dos oito (8) documentos orçamentais referidos pelo International Budget Partnership, contribuindo assim para o alcance resultados e metas de um (1) dos ODS 5 referenciados nos Objetivos de Desenvolvimento Sustentável (ODS).
Detalhes Técnicos da Apresentação: Para a análise orçamental recorre a métodos e técnicas de desagregação de dados consolidados, análise comparativa e evolutiva, com cálculos de taxas e pesos parciais e totais nas rubricas e subrubricas por àreas orçamentais de Receita, de Despesa, de Operações de Tesouraria, da Dívida Pública e das constatações e recomendações do Relatório Parecer sobre a Conta Geral do Estado integrando os modelos anexos de check list e aplicação de exercícios práticos com propostas de soluções tendo como produto final, o SOP - Guião Metodológico para a analise dos principais documentos orçamentais ao longo do ciclo orçamental. Para a análise das verbas alocadas ao género utiliza critérios como o indicador de peso relativo e de desempenho, bem como aplica a ferramenta gender marker concebidos e operacionalizados nos sistemas informativos de execução orçamental pelos respectivos governos dos PALOP-TL
Observatório Legislativo: como IA está ajudando o Tesouro a automatizar a análise de proposições legislativas que possuem impacto fiscal
Proposições legislativas do Congresso Nacional, tais como projetos de lei, emendas constitucionais, medidas provisórias, dentre outros tipos, podem ter impacto fiscal para o Governo Federal. Isto significa que novas proposições podem diminuir ou aumentar gastos e arrecadações. A Secretaria do Tesouro Nacional (STN), que tem como missão a manutenção do equilíbrio fiscal do Governo brasileiro, necessita, portanto, realizar acompanhamento e análise antecipada destes novos projetos legislativos para fins de planejamento e controle.
Diante desta necessidade, o Tesouro e o Serviço Federal de Processamento de Dados (SERPRO) desenvolveram o Observatório Legislativo. O software automaticamente coleta novas proposições da Câmara e do Senado e, usando técnicas de inteligência artificial (IA) no domínio de processamento de linguagem natural (PLN), indica quais destas proposições são do interesse da STN, além de descobrir assuntos nos textos, identificar novas proposições similares a outras já analisadas anteriormente pelo Tesouro e ainda recomendar as coordenações internas da STN mais adequadas para a análise das proposições de interesse. Além de tudo, o Observatório Legislativo conta com painéis analíticos que permitem o acompanhamento da qualidade em operação dos modelos de aprendizado de máquina desenvolvidos.
Do ponto de vista técnico, o Observatório Legislativo foi majoritariamente desenvolvido em Python 3, usando uma grande variedade de bibliotecas para PLN. Conta com dezenas de modelos de aprendizado de máquina, incluindo vários modelos de classificação de texto, técnicas de similaridade textual e modelos de descoberta de tópicos. Atualmente está em processo de implantação, mas já vislumbra novas funcionalidades para desenvolvimento futuro, como o cálculo de estimativa de impacto fiscal de proposições e análise de probabilidade de aprovação das proposições no Congresso.
Esta palestra tem como objetivo apresentar o Observatório Legislativo, esta importante ferramenta do Tesouro Nacional que permite a atuação proativa e ágil do órgão nas casas legislativas, auxiliando na construção de políticas públicas mais efetivas em prol da qualidade dos gastos públicos e equilíbrio fiscal.
----------------------------------------
Tipo de proposta: Apresentação
Foco principal: Técnico
O Subsistema de Informações de Custo no Setor Público como suporte para o Planejamento, a Organização, a Gestão e o Controle das Políticas Públicas.
Tópico de interesse: Detecção de padrões e relacionamentos úteis à formulação ou execução de políticas públicas.
Tipo de proposta: apresentação (20 minutos na programação principal do evento).
Foco principal: Gerencial, para demonstrar a gestores públicos os resultados potencializados pela análise de dados.
Fase do trabalho: proposta em estudo para implementação.
Descrição:
A legislação brasileira define o uso do formato econômico-contábil dos valores investidos em políticas públicas por meio de regras de planejamento público (PPA, LDO e LOA, art. 165, CF/88) e de consolidação das contas públicas (art. 51, da LRF), mas esse formato não apresenta os requisitos necessários para a Gestão e Controle da aplicação dos recursos públicos, bem como os produtos e serviços viabilizados por eles, na perspectiva de uma Escola, por exemplo.
As dimensões conhecidas como Funcional, Programática ou Institucional, não permitem recuperar informações do planejamento, da organização, da gestão e do controle de Unidades Administrativas onde são executadas as políticas públicas, local específico onde as unidades monetárias são convertidas em unidades não monetárias.
O estudo analisou como algumas Unidades Administrativas de uma Prefeitura fazem a gestão e o controle de suas atividades. Identificamos que para se obter uma Prestação de Contas que apresente “o cumprimento do programa de trabalho expresso em termos monetários e em termos de realização de obras e prestação de serviços”, conforme previsto no inciso III, art. 75, da LF nº 4.320/1964, bem como exerça o controle “em termos de unidade de medida, previamente estabelecidos para cada atividade”, em alinhamento com o Parágrafo Único, do art. 79, essas áreas utilizam planilhas eletrônicas como um “subsistema complementar de informações”.
Na busca de uma solução organizacional para suprir essa necessidade e garantir a gestão dessas informações, encontramos e utilizamos como diretriz a Norma Brasileira de Contabilidade Aplicada ao Setor Público NBC T 16.11, que o Subsistema de Informação de Custos do Setor Público (SICSP). Constatamos que agrupar as informações necessárias à Gestão e Controle de uma Unidade Administrativa corresponde a uma nova dimensão denominada Centro de Responsabilidade, cujo formato não existe nas classificações orçamentárias.
Em conclusão, o rearranjo de informações dos subsistemas orçamentários e materiais, no formato de um Centro de Responsabilidade, como uma Unidade Básica de Saúde, por exemplo, é requisito para identificar seus Objetos de Custos, esses entendidos como os produtos e serviços para os quais se deseja aferir o desempenho e os resultados, bem como mensurar e avaliar os custos.
Painel de Obras Atrasadas ou Paralisadas do Estado de São Paulo
Tipo da Proposta: Apresentação
Foco principal da apresentação: Gerencial
Fase do trabalho apresentado: Estudo de caso real com resultados práticos
Breve descrição da plataforma:
O Painel de Obras Atrasadas ou Paralisadas dá publicidade a todas as obras estaduais e municipais que se encontram atrasadas e/ou paralisadas no Estado de São Paulo, exceto as de âmbito municipal na capital. Trata-se de uma fonte de informação sobre a qualidade do emprego de recursos públicos que ajuda a promover o controle social.
As obras são georreferenciadas e apresentadas no mapa de São Paulo, e o cidadão pode interagir com o mapa, visualizando as informações da obra de forma clara. Dessa forma, selecionando a obra no mapa, são apresentados vários dados da obra, destacando-se: descrição da obra, fonte principal de recursos, classificação da obra, início da obra, término previsto, valor inicial do contrato, contratante, contratada e os motivos do atraso e/ou paralisação.
No total, são coletadas informações de mais de 4.400 órgãos jurisdicionados que são processadas e apresentadas no Painel. Este Painel tem atualização trimestral.
O Painel também disponibiliza gráficos que evidenciam as principais fontes de recursos dos empreendimentos e a classificação das obras por áreas temáticas (Educação, Saúde, Habitação, Mobilidade Urbana, Abastecimento de Água e Tratamento de Esgoto e melhoria dos equipamentos urbanos), além de permitir o download das informações das obras.
Detalhes Técnicos:
Banco de Dados Postgresql, ferramentas Pentaho para extração e tratamento de dados, javascript e ferramentas Pentaho para camada de apresentação.
Painel do Mapa Rápido Participativo das Grotas (MRP) de Maceió – Alagoas.
Foco principal da apresentação: Gerencial
Fase do trabalho apresentado: Projeto em andamento
Breve descrição da apresentação:
O MRP é um conjunto de dados inovadores que contemplam informações socioeconômicas e estruturais relevantes, produzidas para subsidiar o desenvolvimento de Políticas Públicas para as grotas de Maceió, aglomerados subnormais sujeitos a processos de deslizamento de terra e inundação, com alto nível de vulnerabilidade. O projeto é fruto de uma parceria do Governo de Alagoas com ONU-Habitat.
O painel apresenta os dados e resultados sistematizados do MRP, permitindo a visualização dinâmica do atual cenário das 100 grotas e 345 microáreas georreferenciadas, mapeadas a partir de 10 indicadores, com valores que definem o nível de precariedade do assentamento, com base em fatores relacionados à infraestrutura local de mobilidade, moradia, iluminação, abastecimento de água, dentre outros.
Sua interface permite visualizar as grotas e microáreas ranqueadas pela média geral dos indicadores ou filtrar pela nota individual de cada indicador, diferenciado por 6 classes de cores em uma escala de avaliação. Mostra tanto os valores da nota, quanto a distribuição espacial do nível de vulnerabilidade em escala comparativo de microárea ou grota, além de disponibilizar mapas temáticos com base nesses aspectos.
A base está disponível na plataforma interativa do governo, Alagoas em Dados, e uma vez publicado o painel implementado, torna-se um importante instrumento de transparência à infraestrutura social e urbana das grotas, capaz de promover ações direcionadas à produção e gestão do conhecimento, com base na estruturação, manutenção e disseminação de dados, podendo ser utilizado para subsidiar o planejamento e a execução de políticas públicas mais assertivas as áreas, bem como atividades de estudos e pesquisas desenvolvidas pela academia, setor produtivo e sociedade em geral.
Detalhes Técnicos:
Ferramenta ArcGIS com API do Power BI para visualização dos dados (painel), QGIS e AutoCAD para obtenção de coordenadas em arquivo .shp (shapefile), Google Earth para obtenção de imagens de satélite. Arquivos CSV para alimentação do banco de dados.
Previsão de dívida ativa no Estado de Pernambuco, Brasil
Através do Programa Laboratório de Integração Governo Universidade e Empresas (LIGUE) que entre vários projetos o denominado Sala de Aula Aberta (SAA), ocorreu em 2019 permitindo a integração entre o governo com a participação da Procuradoria Geral do Estado de Pernambuco (PGE/PE) e a Universidade de Pernambuco (UPE) coordenado pela Agência Estadual de Tecnologia da Informação de Pernambuco (ATI/PE).
Neste projeto foi possível através das disciplinas Inteligência Artificial (IA) e Mineração de Dados (MD), construir o modelo para classificação da dívida do estado, através da aplicação de técnicas de Data Mining (DM) para otimizar o processo de cobrança da Dívida Ativa (DA).
Foram aplicadas as seguintes técnicas de mineração de dados: Árvore de Decisão (DT), Regressão Logística (LR), Naive Bayes (NB), Máquina de vetores de suporte (SVM), também aplicada à técnica Randon Forest (RF) que é considerada um método de montagem.
Foi observado que a técnica RF obteve melhores resultados do que todas as técnicas de classificação, atingindo valores maiores em todas as métricas analisadas. Também observamos que a criação de um modelo de mineração de dados para escolher quais dívidas terão sucesso no processo de cobrança pode trazer benefícios ao governo de Pernambuco.
Como resultado desse trabalho de pesquisa e desenvolvimento foi publicado o artigo "Prediction of active debt in the State of Pernambuco, Brazil" na Revista de Engenharia e Pesquisa Aplicada (REPA) da Escola Politécnica de Pernambuco da Universidade de Pernambuco.
Projeto Pagou Por Quê? Análise dos precatórios para prevenção do litígio.
O crescimento da judicialização nos últimos anos é um fenômeno nacional e no âmbito do Estado da Bahia esse crescimento foi 68%, comparando-se os anos de 2015 e 2019, o que tem repercutido no aumento do estoque de precatórios que totalizam R$3.551.785.195,46, inscritos até 2020. Considerando esse cenário, o Projeto visa entregar um Relatório anual, contendo análise de dados sobre os precatórios pagos no exercício anterior, além do manual de operacionalização com a descrição das atividades necessárias para a implementação dessa nova rotina. A ideia é gerar conhecimento sobre o custo do litígio e divulgá-lo para os gestores, possibilitando que ele seja considerado na tomada de decisão, garantindo maior efetividade na sua prevenção.Trata-se de uma Apresentação de Projeto em andamento, com foco principal no aspecto gerencial.
Foi elaborado o Relatório em 2018 e está sendo elaborado o manual de operacionalização contendo o desenho dessa rotina automatizada do fluxo de informações. A Análise dos dados passou pelas seguintes etapas: Análise Descritiva – que busca dar subsídios para responder a pergunta “o que aconteceu?” - e Análise Diagnóstica – que atua na pergunta “Por que isso aconteceu?” Sendo usadas técnicas de Business Inteligence - BI.
As principais fontes para extração dos dados foram: estoque de precatórios do TJ-BA, controles de pagamentos de precatórios da SEFAZ-BA e dados no SICAJ-BA. Neste processo de extração fez-se necessário lidar com diversos formatos com planilhas, consultas na WEB, acesso a Base de Dados e dados não estruturados. O processo de obtenção e extração de dados em distintas fontes e formatos de dados foi o mais rico de toda a cadeia produtiva e contou com a parceria técnica e de negócio em incansáveis reuniões de muita cooperação multisetorial. Uma vez transformados e tratados, estes dados foram carregados ao Modelo de Dados gerando assim Informações através dos painéis de BI, usados pelos especialistas de negócios para consumir as Informações trazidas, gerando o conhecimento necessário para todo o trabalho.
O Relatório de cada ano analisará também a adoção e o impacto das medidas de prevenção sugeridas no Relatório do ano anterior, criando um elo contínuo de aprendizagem, voltado para a redução da judicialização e do custo do litígio, que serão monitorados periodicamente.
Projeto S-LAB: Laboratório Piloto de Análise Avançada de Dados da Supervisão(BCB)
Apresentação do projeto S-LAB - Laboratório piloto de análise avançada de dados desenvolvido no âmbito da Diretoria de Fiscalização do Banco Central do Brasil. Serão apresentadas as quatro fases de desenvolvimento do projeto. A primeira consistiu benchmark internacional de uso de inteligência artificial nos Bancos Centrais. A segunda fase foi a definição e preparação do ecossistema de TI necessário para a implementação de soluções envolvendo bigdata e IA. A terceira fase consistiu na capacitação de servidores no uso dessas novas tecnologias, na qual foram formados 100 servidores no período de um ano. A última fase consistiu na realização de 22 provas de conceito envolvendo técnicas de inteligência analítica.
Public innovation through the use of Artificial Intelligence. Case study of the statistical profiling of the Andalusian Employment Service in Andalusia. (Innovación pública a través del uso de IA)
Cada vez es más necesario para las Administraciones Públicas, para responder a las demandas de la Sociedad, el uso de herramientas que en el ámbito privado cada vez son más habituales. Se abre para la administración una nueva vía para la que debe prepararse, a través del uso de Inteligencia Artificial, y Big Data.
El lugar ideal para usar una estrategia centrada de el uso masivo de datos que permita automatizar procesos y permitir la toma automatizada de decisiones es sin lugar a dudas las administraciones públicas. Su proceso diario de una cantidad ingente de datos las convienten en el sitio ideal para usarlas soluciones innovadoras basadas en datos. Pero para ello, hay que tener en cuentas muchos aspectos, como la perspectiva técnica, ética y tecnológica.
El caso del perfilado estadístico de las personas demandantes de empleo en Andalucía se enmarca en esta situación y es además una iniciativa pionera en su campo en España y casi en Europa.
Recomendação de Serviços Digitais para o Cidadão no Portal gov.br
- Tipo de proposta: apresentação
- Foco principal da apresentação: técnico
- Fase do trabalho apresentado: projeto em andamento
- Descrição: O Portal gov.br oferece uma experiência única, agradável e fácil para os cidadãos brasileiros em canais digitais de governo (sites e apps). Ele foi desenvolvido como porta de entrada única para facilitar o acesso do cidadão aos serviços e informações do governo federal na internet, criando uma experiência padrão de navegação, como também inova na medida em que a estrutura de portais baseada na divisão por órgãos é substituída por um ecossistema baseado em serviços. Devido a padronização e unificação da forma como cidadãos brasileiros consomem informações e serviços públicos nos principais canais digitais de governo, este trabalho propõe a criação de um sistema de recomendação de serviços digitais. Os sistemas de recomendação são ferramentas e técnicas de software que fornecem sugestões de itens baseadas no perfil do usuário. Esses sistemas emergem como uma alternativa aos estudos clássicos em sistemas de informação, tendo como principal objetivo a diminuição do espaço de busca do usuário, auxiliando-o na tomada de decisão. Visualizamos a oportunidade de exploração dos recursos do Portal gov.br para o desenvolvimento de um recomendador de serviços digitais para o cidadão. Neste cenário, propomos uma abordagem baseada em aprendizagem de máquina para facilitar a descoberta de serviços digitais no Portal gov.br, centrado nas características do cidadão e dos serviços digitais.
“Rules as code”: coding the legislation for the benefit of citizens – with OpenFisca!
Description
We are governed by rules. These take the form of a law, a decree, an internal circular to a government agency, or even customs. Their role is to inform us fully - all cases must be considered - of our rights and obligations: the tax we have to pay, the social benefits to which we are entitled...
However, the rules that make the legislation are rarely easy to understand, let alone put in place. The lawyers or policy officers who write them aim more for precision and completeness than their appropriation by the general public.
Direct consequence: the non-uptake of social benefits, or of numerous aids which are not known to the citizens, as well as the aggressive tax optimisation schemes of some individuals and companies, and finally a profusion of competing services that "reinvent the wheel" to implement these rules, some of which - private sites - even charge a commission to help users get help.
If public policies have been based on statistics for several centuries, the context is more favourable than ever for a second wave of codification: the law in computer code, or “rules as code”. The aim would thus be to take advantage of “rules as code” and data to make better informed decisions, to simulate the consequences of new public policies, or even to create new forms of digital public services that require little to no human interaction.
If the rules of legislation, written in computer code and plugged into public services already facilitate access to information for users, what is preventing us from making a state-guaranteed API available to government agencies, communities and businesses, so that they can build even more services for users?
If the state can already know that a person is eligible for social benefits, could it trigger it automatically, without waiting for that person to have the idea to apply for it (on condition of gaining the trust of users in algorithms, and of making the effects of their application appealable, that is to say to always be able to call on a human in the case of disagreement)?
An example of this application in practice is France’s LexImpact, which is an interface that allows you to quickly assess the impact of parametric income tax reforms. Built on the OpenFisca base and fed with tax and social income survey data, this tool allows for the simulation of proposed changes to French income tax law and gives information on the potential financial implications on citizens and on the government's budget.
OpenFisca is a free, reusable, modular open source project which allows writing rules as code to improve the transparency of, and access to, the law; developed in order to allow better ex ante evaluation of tax and benefit reforms and public policy initiatives.
Being open source, any individual can contribute to the development of the coded rules within OpenFisca. This is what is described as a ‘shared rules infrastructure’, which makes it highly contributive and therefore accessible to coders, but also to policy makers, legislators and even interested individuals.
This aligns with a number of the platform’s key objectives, which include working to ensure that the complexity of the law is not a source of privilege and that the creation of the law is driven by an understanding of its (potential or realised) impact.
Type
Presentation or workshop (1h)
Focus
Demonstrate to public managers the results enhanced by data analysis
Phase
Case study with practical results
Contact information
“Mauko Quiroga is a Government Whisperer building digital public services. Since 2016, he engages in the co-creation of a government for the 21st century, as a permanent member of Etalab and the "Government Digital Services Incubator" program (beta.gouv.fr), under the patronage of France's Prime Minister Services. Today, Mauko works with the OpenFisca team, to find better ways to write government rules as code, in order to improve public service delivery and to foster data-driven public policies.”
Technical details
Data
- Ageing
- Aggregation
- Micro-simulation
- Marginal calibration
Technology
- Python
- Numpy
- OpenFisca
Others
Séries temporais de dados e Sistema de Informação Geográfica para análise de eficiência na Polícia Rodoviária Federal – o advento da IFR (Indenização sobre a Flexibilização do Repouso Remunerado)
A Polícia Rodoviária Federal – PRF tem reforçado o trabalho policial através da convocação de servidores extras, utilizando-se da IFR - Indenização sobre a Flexibilização do Repouso Remunerado e formas de trabalho modificadas em relação ao trabalho policial ordinário.
Este estudo apresenta como foi utilizada a análise de dados a fim de se avaliar o impacto do uso da IFR na produtividade operacional da PRF.
A análise de dados se baseou em indicadores de desempenho, utilizando-se de cruzamento de dados, plotagem de gráficos e mapas com uso de Bussiness Inteligence e Sistema de Informação Geográfica.
A metodologia seguiu a construção de séries temporais de dados sobrepostos, e permitiu observar alterações significativas nas curvas de resultados. Como exemplo, a partir da implantação da IFR houve um aumento de 56% de veículos fiscalizados; 47% de pessoas detidas; 36% de auxílio ao usuário; 30% de veículos recuperados; e 29% de armas apreendidas. Indicadores relacionados a acidentes de trânsito não apresentaram alteração significativa com o método e período de análise.
A comparação entre indicadores de insumos e de resultados permitiu identificar uma relação resultado/recurso bastante positiva, relacionando a IFR à melhoria de resultados entre 29% e 87%, apesar de corresponder a somente 6% do gasto financeiro com serviço operacional e 10% do total de horas trabalhadas.
Com a construção de indicadores de produtividade operacional mais precisos foi possível identificar uma produtividade média 3,7 vezes maior da atividade policial nos moldes da IFR em relação à atividade operacional ordinária.
A sobreposição de mapas de ”Variação percentual da quantidade de veículos fiscalizados com uso da IFR” X “Corredores de ocorrências criminais” X “Pontos críticos de acidentes graves” não apresentou correlação espacial significativa entre locais de maior aumento de fiscalização e locais com maior incidência pretérita de crimes e de acidentes graves.
Conclui-se que o uso de séries de dados temporais permitiu identificar impacto positivo do advento da IFR para a eficiência operacional da PRF; o aprimoramento de indicadores permitiu mensurar de forma mais precisa o impacto observado para a eficiência do órgão; a análise geográfica demonstrou potencial de novos ganhos para os resultados institucionais.
Sistema Bem-te-vi: big data e machine learning para gestão do acervo de processos judiciais
O Tribunal Superior do Trabalho possui um grande volume de processos judiciais pendentes de julgamento, havendo em média 11 mil em cada Gabinete de Ministro. Para gerir este acervo, os servidores realizam um procedimento de triagem, a fim de identificar processos que atendam condições específicas ou que apresentem similaridades. Como os dados estruturados utilizados pelas ferramentas de Business Intelligence nem sempre eram suficientes para auxiliar essa tarefa, tornou-se necessário o uso de técnicas de big data e inteligência artificial que permitissem extrair informações diretamente do texto das peças processuais.
A estratégia adotada consistiu em extrair o conteúdo das peças mais importantes do processo, tanto dos sistemas jurídicos internos quanto dos sistemas dos Tribunais Regionais, realizando os tratamentos apropriados. Haja vista a grande quantidade de dados, tecnologias de big data foram usadas para o armazenamento e busca de informações. Foram gerados arquivos no formato Apache Parquet, armazenados em um sistema de arquivos distribuídos.
Além disso, os textos coletados foram utilizados como insumos para algoritmos de aprendizado de máquina. Adotando técnicas de processamento de linguagem natural, foram construídos modelos preditivos capazes de extrair informações da linguagem jurídica trabalhista. Esses modelos auxiliam os servidores dos Gabinetes na tomada de algumas decisões, como, por exemplo, a análise de transcendência, um critério jurídico para admissibilidade do recurso definido pela Reforma Trabalhista de 2017.
Em 2020, mesmo com a pandemia, a produtividade do TST teve um aumento de 7,8% até o mês de julho. Um dos Gabinetes com maior aumento, 73,7%, foi o primeiro a adotar o novo módulo do sistema Bem-te-vi, com grande parte de seus servidores como usuários do sistema. A triagem de seu acervo de 14 mil processos em busca dos temas estratégicos, que levaria alguns dias, foi realizada em minutos com o apoio do Bem-te-vi.
O aumento de produtividade proporcionado pelo sistema aparece tanto na redução do tempo gasto em atividades operacionais, quanto no apoio à definição de estratégias de trabalho para o Gabinete. A possibilidade de encontrar processos semelhantes em um grande acervo contribui com a uniformização das decisões, fator fundamental na atividade de Tribunais Superiores.
Detalhes técnicos:
Na etapa de coleta de dados, foram utilizados os softwares Pentaho, para realizar os procedimentos de extração, transformação e carga, e Apache Tika, para extrair o texto dos arquivos com as peças processuais. Os dados foram salvos em arquivos no formato Apache Parquet, armazenados em um cluster Isilon com uma implementação do HDFS.
Os algoritmos de aprendizado de máquina foram implementados na linguagem de programação Python, com o auxílio das bibliotecas Pandas e Gensim, do framework Apache Spark e da plataforma H2O AI. Foram adotados o Word2Vec, para produzir o word embedding das peças processuais, e o XGBoost, para construir os modelos de aprendizagem.
Os resultados gerados pelos modelos preditivos foram disponibilizados em uma aplicação desenvolvida em Python e Javascript, que utiliza a biblioteca de visualização Bokeh. Ela foi disponibilizada em containers Docker que são orquestrados pela plataforma OKD.
Todas as etapas do ciclo são gerenciadas através das ferramentas Jenkins e MLflow.
Tipo de proposta: Apresentação
Foco principal da apresentação: Técnico
Fase do trabalho apresentado: Estudo de caso com resultados práticos
Sistema de utilização de precedente e triagem de dados na Assessoria Jurídica de Controle Externo do Tribunal de Contas do Município de São Paulo.
Foram elaborados no âmbito da AJCE dois sistemas para a otimização de processos repetitivos, através de a uniformização de entendimentos, com o fim de proporcionar o atendimento eficiente às demandas da área, dentre as quais se inserem aquelas inerentes à pandemia da Covid-19.
(A) Criação e divulgação de rol de precedentes das matérias submetidas à análise jurídica da AJCE.
A criação do precedente pode advir de sugestão de quaisquer dos assessores que compõe a área ou da fixação de uma tese jurídica no âmbito da AJCE.
Após a aprovação da Chefia, uma equipe é responsável pela redação da ementa com a sua consequente publicação no site da AJCE, localizado em no portal da intranet do TCMSP.
A aba “precedentes” contém os seguintes dados: (i) número e dados da licitação; (ii) ementa; (iii) número do TC inerente ao processo de fiscalização no TCMSP e outras informações relevantes.
Mensalmente os assessores da AJCE recebem em seus respectivos e-mails institucionais a Newsletter AJCE com a indicação dos novos precedentes inseridos no site.
Até o final do mês de agosto 89 precedentes foram relacionados para consulta de todos os servidores do Tribunal.
(B) Criação de sistema de triagem de dados e fluxo de entrada e saída de representações, denúncias e acompanhamento de editais no âmbito da AJCE.
Imediatamente após o recebimento de processo eletrônico com pedido de parecer jurídico, a Chefia da área informa o coordenador de equipe de assessores, a quem compete a distribuição do feito, bem como o encaminhamento da peça inicial à equipe de apoio, designada para realizar o condensando de dados em planilha, que deverá conter as seguintes informações: (a) conclusões do Relatório da Auditoria; (b) indicação de precedentes da AJCE e de pesquisas sobre o tema já existentes no site AJCE; (c) TC´s relacionados; (d) data de abertura do certame e eventual suspensão; (e) operador (comprasnet/BEC).
A planilha é encaminhada ao assessor designado e fica a disposição em pasta compartilhada da AJCE.
O resultado deste fluxograma proporciona a elaboração de pareceres de forma mais ágil e eficiente, a formação e o controle dos precedentes e o posterior acompanhamento dos TC´s para fins de confirmação ou não dos precedentes pelo Plenário.
Informações complementares:
Tipo de proposta: apresentação
Título da apresentação: Sistema de utilização de precedente e triagem de dados na Assessoria Jurídica de Controle Externo do Tribunal de Contas do Município de São Paulo.
Foco principal da apresentação: técnico - facilitar a realização de trabalhos semelhantes por analistas e cientistas de dados.
Trabalho concluído com resultados práticos.
Startups - desenvolver é preciso: fomento ao desenvolvimento local pela escolha de implementação de redes de apoio
Título: Startups - desenvolver é preciso: fomento ao desenvolvimento local pela escolha de implementação de redes de apoio
Detalhes técnicos:Tema: Utilização de Sistemas de Informação Georreferenciadas (SIG) no planejamento, implementação, execução e monitoramento das políticas públicas.
Foco da apresentação: técnico
A apresentação terá como foco principal demonstrar o passo a passo da pesquisa, realizada com utilização de dados abertos do setor público. Ao final, será brevemente discutido os resultados potencializados pela análise de dados e sugestões de outros estudos relacionados ao tema que podem utilizar as mesmas bases que foram utilizadas nesse estudo.
Fase do trabalho: Estudo de caso com resultados práticos
Descrição da apresentação: A apresentação tem como objetivo compartilhar o trabalho realizado para analisar a relação entre o surgimento de startups e a existência de rede de instituições de ensino de apoio local, através do estudo da distribuição espacial desses fenômenos.
Para testar as hipóteses levantadas, foram utilizadas bases de startups do Serviço Brasileiro de Apoio às Micro e Pequenas Empresas (Sebrae), além de bases públicas de incubadoras e aceleradoras da Associação Nacional de Entidades Promotoras de Empreendimentos Inovadores (Anprotec), bases de instituições de ensino do Ministério da Educação (MEC), e as bases da Receita Federal do Brasil (RFB) e do Instituto Brasileiro de Geografia e Estatística (IBGE).
Foram utilizadas técnicas de análise descritiva e regressão linear múltipla, com destaque para o modelo espacial auto-regressivo (Spatial Auto-Regressive model). Foi possível avaliar os efeitos preditivos entre as variáveis surgimento de startups e a existência de instituições de ensino públicas e privadas na região, bem como os efeitos preditivos entre as variáveis econômicas: Renda Domiciliar Mensal Média, do Produto Interno Bruto e da Arrecadação de Impostos Per Capita, e o surgimento de startups. Os resultados permitiram explicar 93,18% (índice de determinação – R2) da distribuição de startups.
Na apresentação, discorreremos sobre os procedimentos de preparação dos dados para a análise, utilizando SQL, R, Python, API do Google e QGis. Com o objetivo de trocar experiências, demonstraremos as dificuldades encontradas, as limitações devido ao tipo de dados utilizados e as estratégias para atingir os objetivos da pesquisa.
Por fim, iremos apresentar sugestões de utilização das mesmas bases para outros estudos. Por exemplo, apontamos como relevante a realização de estudos de análise de estatística espacial que subsidiem a tomada de decisão através da predição de locais ótimos para a abertura de novas entidades de apoio ou a identificação de áreas de influência com alto potencial para o desenvolvimento de startups, o que pode auxiliar órgãos governamentais no implemento de políticas públicas que incentivem a criação de incubadoras e aceleradoras para potencializar o desenvolvimento de regiões.
Métodos estatísticos ou modelos de aprendizagem utilizados: Técnica de regressão tradicional e técnica geoestatística de Spatial Auto-Regression (SAR).
Softwares: utilizando SQL, R, Python, API do Google e QGis
Linguagens de programação: SQL, R, Python
SUBSÍDIO ÀS FISCALIZAÇÕES PÚBLICAS: Identificação dos Municípios com gastos discrepantes na Educação Básica
O SIOPE (Sistema de Informações sobre Orçamentos Públicos em Educação), sob gestão do FNDE, contém dados relevantes acerca das receitas e despesas com a educação, declaradas pelos entes federativos. Levando-se em consideração algumas fragilidades existentes no SIOPE, apontadas por órgãos de controle interno, e os inúmeros desvios na aplicação de recursos destinados à educação (a exemplo do FUNDEB), o presente trabalho apresenta uma proposta para a detecção de despesas atípicas realizadas pelos municípios, tendo como escopo os gastos como o Ensino Fundamental no ano de 2018. Tais atipicidades podem constituir tão somente eventos ocasionais (como obras em escolas, por exemplo), mas também podem representar indícios de falhas ou irregularidades nos investimentos públicos em educação. Análises exploratórias iniciais levaram ao estabelecimento das seguintes estratégias: clusterização de municípios e a detecção de anomalias através do uso da biblioteca Python Outlier Detection (PyOD). Com base na afirmação de que municípios com dados de população e de indicadores educacionais em mesma ordem de grandeza devem ter despesas semelhantes, aplicou-se alguns algoritmos de detecção de anomalias em um grupo de municípios semelhantes. Os resultados alcançados (classificação de cada município, se anômalo ou não; e pontuação do grau de anomalia) podem ser agregados ao planejamento das ações de controle e, ainda, subsidiar a adoção de providências cabíveis por parte das demais instâncias de controle existentes, como o Ministério da Educação e conselhos de controle social.
Tipo de proposta: Apresentação
Foco principal da apresentação: técnico
Fase do trabalho: estudo de caso com resultados práticos
Ferramentas utilizadas: Python
Detalhes técnicos: Análise Exploratória de Dados, Clusterização de municípios (k-Means, DBSCAN, Agglomerative Clustering), Detecção de Anomalias com a biblioteca Python Outlier Detection (PyOD).
Trilhas de Auditoria como Ferramenta de Monitoramento Contínuo e Controle Inteno
A motivação veio pela diretriz estratégia da Gestão do Município em investir nesse tipo de metodologia com base no intercâmbio de procedimentos adotados por outros Órgãos, visando detectar anomalias, abusos ou fraudes na arrecadação ou no gasto de recursos públicos.
A técnica utilizada foi a de trabalhar com os principais Sistemas Informatizados do Município (Folha de Pagamento, Contratos, Execução Orçamentária e Suprimentos), extraindo as principais tabelas para um repositório próprio para análise de grandes volumes, onde foram feitas as modelagens dimensionais para que os cruzamentos de dados fossem consumidos e analisados por ferramentas OLAP.
Os softwares utilizados para isso foram o Powercenter para a extração de dados, o Teradata para armazenamento e o SAP BO para confecção da interface para o usuário final.
Começou como um projeto em 2018 e hoje é uma operação continuada com um resultado de quase três milhões de reais entre benefícios efetivos e potenciais na parte das Trilhas de Pessoal e com um grande potencial em relação aos outros assuntos citados que estão em andamento, num total de 75 (setenta e cinco) trilhas construídas e monitoradas até o momento.
- Tipo de proposta: Apresentação
- Título da apresentação/oficina: Trilhas de Auditoria como Ferramenta de Monitoramento Contínuo e Controle Interno
- Foco principal da apresentação: Gerencial
- Fase do trabalho apresentado: Estudo de caso com resultados práticos
Uma análise sobre a percepção da justiça nos municípios de atuação da Defensoria Pública da União
A presente proposta de apresentação tem por objetivo identificar se o acesso à justiça por meio da atuação da Defensoria Pública da União (DPU) nos municípios brasileiros influenciam a percepção da justiça. É um estudo técnico em que utilizamos os microdados de atendimentos realizados pela DPU bem como os microdados coletados pela pesquisa Opinião Pública Latino-Americana do ano de 2018. Esses dados podem ser obtidos de maneira livre no site da instituição. A metodologia empregada para a análise dos dados foi regressão linear múltipla com scripts no software Stata. A relação entre a atuação da DPU não foi relevante mesmo após a inclusão de variáveis de controle para a situação econômica dos municípios analisados obtidos do Instituto Brasileiro de Geografia e Estatística (IBGE) e do Departamento de Informática do Sistema Único de Saúde (DATASUS). O estudo técnico é preliminar e carece de críticas para o seu maior desenvolvimento.
Um Data Warehouse com banco de dados NoSQL para análise de dados educacionais no Brasil
- tipo de proposta: apresentação
- título da apresentação: Um Data Warehouse com banco de dados NoSQL para análise de dados educacionais no Brasil
- foco principal da apresentação: técnico
- fase do trabalho apresentado: estudo de caso com resultados práticos;
- descrição da apresentação
A análise de dados abertos governamentais é uma tendência que se consolida em diversos países nos últimos anos com finalidade de buscar melhorias de gestão de setores da administração pública. No Brasil, o INEP publica diversos dados abertos governamentais da área educacional, a exemplo dos Microdados do ENEM - uma base de dados que contém informações socioeconômicas e os resultados individuais dos milhões de participantes do exame que é o principal instrumento de avaliação para ingresso ao ensino superior no país. Apesar disso, instrumentos que utilizem os microdados para analisar aspectos da qualidade de ensino no país ainda são escassos. A apresentação desse trabalho oferece duas contribuições: demonstrar o desenvolvimento de uma aplicação para a análise de dados educacionais; e a implementação de um data warehouse em um banco de dados NoSQL que usa um modelo de dados baseado em colunas para processar grandes quantidades de dados abertos educacionais do Brasil.
6. detalhes técnicos: modelo de dados ou modelos de aprendizagem utilizados; softwares e linguagens de programação utilizados;
Modelo de dados: Data Warehouse em banco de dados NoSQL
Linguagens: Java, Javascript, HTML
Frameworks: Angular, SpringBoot
Banco de dados: Cassandra
Uso da ciência de dados para predição de Metas de Desempenho para as escolas públicas brasileiras
- Tipo de proposta: Apresentação (20 minutos na programação principal do evento)
- Título da apresentação/oficina: Uso da ciência de dados para predição de Metas de Desempenho para as escolas públicas brasileiras
- Foco principal da apresentação: Gerencial, para demonstrar a gestores públicos os resultados potencializados pela análise de dados.
- Fase do trabalho apresentado: Estudo de caso com resultados práticos.
- Descrição da apresentação: Esse trabalho ocorreu no âmbito do projeto de implementação de um modelo de Desempenho para as áreas finalísticas da Secretaria da Educação e do Esporte do Estado do Paraná. O objetivo era definir uma cesta de indicadores estratégicos capazes de medir o desempenho de escolas, Núcleos Regionais de Educação e da Secretaria, assim como projetar metas para os próximos anos com fins de pactuação com os dirigentes de escolas. Nesse sentido, o trabalho foi dividido em duas etapas principais: 1. Definição dos indicadores; e 2. Estabelecimento das metas.
Os indicadores priorizados foram: IDEB, Participação na Prova Paraná, Proficiência em Matemática e Português na Prova Paraná, Participação na Prova Paraná e Frequência Discente. Já a definição das metas foram realizadas em duas etapas principais: a) clusterização e b) definição das metodologias de metas e construção de cenários para cada indicador.
O objetivo da clusterização foi criar grupamentos de escolas com realidades semelhantes (perfil similar) a fim de definir metas considerando as diferentes realidades das escolas. Dessa forma, primeiramente, foram levantadas as variáveis/características que melhor explicam a variação de desempenho das escolas, tais como: Indicador de Nível Socioeconômico (INSE), Índice de Complexidade de Gestão (ICG), Desempenho (SAEP Anos Finais e Ensino Médio), Tipo de escola (regular, de tempo integral, profissional), Porte da escola, entre outros. A partir das variáveis levantadas, foram rodados diversos modelos de clusterização com o algoritmo K-means e por meio de combinações estruturadas no Excel, considerando diversos grupos de variáveis diferentes.
Após a criação dos clusters, foi feita uma análise a fim de definir a metodologia para os cenários de metas de cada indicador, resultando em duas: a) Projeção por regressões e por percentil; e b) Estabelecimento de faixas de controle. Com base na implementação da proposta cima, as metas para as redes de ensino foram melhor estabelecidas com critérios técnicos de equilíbrio entre o grau de desafio e a factibilidade de alcance.
- Detalhes técnicos: Foram utilizados o algoritmo K-means do Python, o Excel, regressão linear e percentis.
Uso das médias móveis como alerta para a variação no número de crimes
Tipo de proposta: Apresentação de metodologia de ferramenta de alerta
Foco da apresentação: Técnico. O objetivo é facilitar a realização de trabalhos semelhantes, além de receber críticas e sugestões que melhorem a ferramenta.
Fase do trabalho apresentado: Projeto em andamento. Versões prévias de alertas já são utilizadas. Contudo, essas não utilizam as técnicas associadas às médias móveis.
Descrição da apresentação: É uma proposta de metodologia de alertas para as polícias sobre a variação da quantidade semanal de registros de ocorrências e de chamadas para a Central 190 observados. Na ferramenta, são analisados os totais semanais para que estes alertas possibilitem uma tomada de decisão. A apresentação está dividida em três partes. A primeira trata do uso das médias móveis para sistemas de alertas. A segunda, sobre os detalhes técnicos, o scritp em R e as lacunas a serem resolvidas. Por fim, são discutidas as vantagens do método e as potencialidades para a administração pública.
Detalhes técnicos: Toda a programação está escrita em R e utiliza dados armazenados em bancos de dados no formato Postgresql e em bases RData. Sobre a técnica, vale lembrar que, em estatística, a média móvel (MM) é um indicador utilizado para analisar séries históricas a partir da criação de uma sequência de médias de subconjuntos.Os tipos mais comuns de média móvel são a simples ou aritmética, a ponderada e a exponencial. Após alguns testes, optou-se por utilizar apenas a média móvel simples, que é definida pela equação MM(n)t = xt−1 + xt−2 + . . . + xt−n/n. Para o trabalho, são consideradas as séries históricas semanais (definidas de segunda a domingo) desde 2018 de todos os batalhões. São utilizadas duas médias móveis, com um período curto e outro longo. A média móvel curta leva em conta os valores das últimas 4 semanas (aproximadamente um mês) e a média móvel longa considera os valores das últimas 13 semanas (aproximadamente 3 meses). A utilização das duas médias móveis foi inspirada nas práticas do mercado financeiro. Com base nas variações das médias, foram criados três tipos de alertas. A pré-condição de alerta, o alerta e o alerta com destaque. As diferenças entre eles serão apresentadas na exposição. No entanto, vale destacar que o alerta com destaque é baseado na mudança de média em uma série histórica. Para a detecção de pontos de mudança de média na série histórica, é utilizado o pacote CPM (Change Point Model) disponível no R. Este pacote disponibiliza métodos paramétricos e não paramétricos para detectar alterações na média, na variância ou na distribuição geral de uma determinada sequência de observações. Neste trabalho, é utilizado o método não paramétrico com base na estatística do teste de Mann-Whitney, como em Ross et al. (2011).
Uso de Crowdsourcing e Geoprocessamento no Combate à COVID-19
- tipo de proposta: apresentação
- título da apresentação: Uso de Crowdsourcing e Geoprocessamento no Combate à COVID-19
- foco principal da apresentação: técnico
- fase do trabalho apresentado: estudo de caso com resultados práticos;
- descrição da apresentação
O FiscalCovid é uma ferramenta Web Georreferenciada com uso de crowdsourcing, desenvolvida de modo a apoiar gestores públicos e cidadãos no combate à pandemia do novo Corona Vírus (COVID-19). Dentre as funcionalidades disponibilizadas, o FiscalCovid possibilita o cadastro de denúncias georreferenciadas de aglomerações e a consequente visualização em um mapa dos locais onde foram realizadas tais denúncias de aglomeração, servindo como meio para que a própria população se policie e possua mais informações quanto à importância da quarentena. A ferramenta também tem como objetivo facilitar o controle social exercido pelo cidadão na avaliação da qualidade dos serviços prestados em unidades do sistema público de saúde: UBS, UPAs e hospitais, além de auxiliá-los a encontrarem tais unidades de saúde, que estão geolocalizadas em um mapa, caso precisem de algum tratamento ou diagnóstico. O cidadão então avalia um serviço de saúde, e tal avaliação poderá ser visualizada e reforçada por outros cidadãos. Caso um usuário ou algum conhecido eventualmente apresente sintomas, o FiscalCovid é habilitado para a coleta de tais informações via formulário próprio ou crawler de informações postadas na rede social Twitter. Aqui, uma prefeitura pode usar estes dados de sintomas para entrar em contato com o doente para acompanhar a evolução de seu quadro, mitigando os impactos de uma possível contaminação do COVID-19.Ademais, a ferramenta permite o cadastro georreferenciado de unidades de filantropia, facilitando o acesso a tais unidades para realização de doações ou indicação para pessoas que estejam necessitando de ajuda. Por fim, O FiscalCovid pode ser utilizado para mapear os números referentes à parcela da população brasileira que está seguindo as recomendações de distanciamento social, contando com um panorama geral e atualizado do quantitativo de pessoas em quarentena.
6) detalhes técnicos: métodos estatísticos ou modelos de aprendizagem utilizados; softwares e linguagens de programação utilizados;
Modelos de Aprendizagem: NLP - foi utilizado o spacy para remover stop words e reconhecer entidades de localização.
Linguagem: Python 3.0, SQL, Javascript, Java, HTML
Bibliotecas: React, SpaCy
Banco de dados: Postgresql/PostGIS
Servidor Mapas: Geoserver
Uso de NER para Deduplicação de Itens em Notas Fiscais Eletrônicas
- Tipo de proposta: apresentação
- Título da Apresentação: Uso de NER para Deduplicação de Itens em Notas Fiscais Eletrônicas
- foco principal da apresentação: técnico
- fase do trabalho apresentado: projeto em andamento
- Descrição: A detecção de fraudes em licitações é um desafio para o controle de contas. Particularmente, detectar um indício de sobrepreço ou sobpreço nas compras públicas é desafiador e a tempestividade tem um importante impacto na possibilidade de evitar que a fraude aconteça. Neste trabalho, realizado pelo TCE-AC em conjunto com a UFCG, serão apresentados e discutidos os resultados de um estudo de caso feito em uma base de dados de notas fiscais eletrônicas, nos domínios de remédios, combustíveis e material de consumo, com o objetivo de identificar fraudes em licitações. Primeiramente, foi necessário modelar e criar um banco de preços. Para tanto, era preciso reunir notas fiscais eletrônicas realizar alguns tratamentos nos textos para posterior inserção no banco de preços. A primeira limitação observada nos dados obtidos foi a existência de termos com o mesmo significado, porém escritos de formas diferentes nas descrições das notas fiscais (Ex: "gc" e "gasolina"). Para resolver este problema, utilizou-se da técnica de Reconhecimento de Entidades Nomeadas (REN). Destarte, foram usadas três técnicas de forma combinada. A primeira, denominada CRF (Conditional Random Fields) é um modelo estatístico que rotula e segmenta dados sequenciais, utilizando-se de probabilidade condicional (Teorema de Bayes). A segunda técnica consistiu de uma combinação entre CRF e redes neurais Bi-LSTM, também muito usada na literatura em REN. Já a terceira combina as duas técnicas supracitadas com um framework BERT, que baseia-se no conceito de Transfer Learning, tendo sido treinado com grandes massas de dados e permite que suas últimas camadas sejam ajustadas a um domínio específico de problemas, sendo extremamente robusto para tarefas relacionadas a Processamento de Língua Natural. Como resultado deste trabalho poderemos resolver as ambiguidades através do NER e identificar os preços praticados nos vários produtos das bases de dados de remédios, combustíveis e material de consumo no Estado do Acre.
- Detalhes técnicos: métodos estatísticos ou modelos de aprendizagem utilizados; softwares e linguagens de programação utilizados:
Modelos de Aprendizagem: BERT, BILSTM, CRF
Linguagem: Python 3.0 (ambiente Jupyter)
Bibliotecas: Pandas, Numpy, Matplotlib, NLTK, Keras, Tensorflow, Sklearn, PySpark, SparkNLP.
Métricas de avaliação: Precisão, Cobertura, Medida F1
Uso de RPA (Robotic Process Automation) como instrumento de salvaguarda de ativos pela Auditoria Interna.
1) Descrição da apresentação:
RPA (Robotic Process Automation), em tradução livre para o português Automação Robótica de Processos refere-se às soluções de automação com softwares (robôs), programados para executar tarefas. Em 2018, a Deloitte, uma das líderes mundiais em serviços de Auditoria, publicou estudo (Auditoria Interna no Brasil 2018 - Rumo à consolidação do impacto e da influência) realizado com 1.156 empresas de 40 países. A pesquisa demonstrou que 48% dos gestores brasileiros entrevistados consideravam a implementação de tecnologias cognitiva ou RPA como terceira principal prioridade estratégica da Auditoria Interna para os próximos 3-5 anos. À época, apenas 3% das corporações brasileiras entrevistadas afirmavam utilizar RPA para alavancar a Auditora Interna (no mundo, esse resultado foi 2%).
Nesse cenário, em meados de 2018, a Auditoria Interna do Banco do Brasil passou a realizar os primeiros experimentos utilizando RPA em suas atividades de avaliação de risco operacional na rede de agências, batizados de AVA (Assistentes Virtuais de Auditoria). Os resultados obtidos com o uso da tecnologia são significativos: em 2017, ano anterior ao advento de RPA, foram avaliados processos em 464 agências, ao custo de 32 mil horas de auditoria. Em 2019, o uso desta tecnologia permitiu avaliação de atividades em 4.337 agências, ao custo de 18 mil horas. Houve, portanto, ganho de produtividade em patamares superiores a 834%, ao passo que o custo da operação foi reduzido em mais de 43%. A evolução do uso de RPA permitiu proteger ativos do Banco e saltar de R$ 8,5 milhões de ativos protegidos em 2018 para mais de R$ 460 milhões nos oito primeiros meses de 2020, perfazendo um total de R$ 675 milhões avaliados desde o início do projeto. Esse resultado foi obtido com o uso de 34 robôs que, de acordo com a Deloitte, corresponde ao estágio de RPA Implantado (entre 11 e 50 robôs). Dado o sucesso no uso da tecnologia, a instituição segue em busca do próximo (e último) estágio - RPA em Escala (acima de 50 robôs).
Nesse cenário de colaboradores em home office, houve aumento significativo em benchmark oferecidos a empresas e bancos parceiros, a exemplo de Serpro e Caixa Econômica Federal, que estão desejosos em partilhar dessa experiência de desenvolver um modelo de atuação para Auditoria mais dinâmico, com maior precisão das informações e com menor custo.
2) Tipo de proposta: ação educacional prática.
3) Foco principal da apresentação: Gerencial (para demonstrar a gestores públicos os resultados potencializados pela análise de dados a partir do uso de RPA).
4) Fase do trabalho apresentado: estudo de caso com resultados práticos.
5) Detalhes técnicos - softwares e linguagens de programação utilizados: DB2, SAS, PostgreSQL, Spotfire, Python, Java, AngularJS.
6) Em se tratando de oficina, descreva: uma breve ementa, detalhando o conteúdo que pretende apresentar, duração necessária para a oficina, entre 1 a 4 horas.
Duração necessária: 3 horas
Ementa:
I. A inovação é imperativa na auditoria
II. RPA em atividades de auditoria – Conceitos relevantes
III. Assistente Virtual de Auditoria (AVA) - o que é e para que serve
IV. RPA: como implementar
V. Estrutura da equipe responsável pelo desenvolvimento da solução
VI. Evolução do modelo de atuação
VII. Comparativo produtividade e custo RPA x Modelo Tradicional
VIII. Resultados obtidos com uso de RPA em atividade de avaliação de risco pela Auditoria
IX. Ferramentas utilizadas para construção da solução (softwares e linguagens de programação)
X. Construção (modelo conceitual)
XI. Demonstração em tempo real do funcionamento das ferramentas de RPA para auditoria
XII. Riscos da adoção do RPA
Utilizando o CAGED para referenciar preços de mão de obra
Tipo de proposta: Ação educacional prática (tutorial de aprox. 1h30m)
Título: Utilizando o CAGED para referenciar preços de mão de obra
Foco principal da apresentação: técnico, com o objetivo de facilitar trabalhos semelhantes.
Fase do trabalho apresentado: atualmente, a metodologia vem sendo utilizada pela SeinfraOperações/TCU em processos de Tomadas de Contas Especiais instaurados no âmbito dos contratos da Petrobras, com o objetivo de quantificar os sobrepreços detectados.
Descrição:
Conforme estabelecido em Leis de Diretrizes Orçamentárias e, mais recentemente, no Decreto 7.983/2013, o custo referencial de obras e serviços de engenharia do setor público deve ser obtido a partir das composições de custos correspondentes no Sinapi, índice mantido pela CEF.
Contudo, no caso específico de obras de infraestrutura, tal diretriz nem sempre é viável, tendo em vista a existência de serviços que extrapolam os utilizados em obras típicas de construção civil.
Geralmente obras de infraestrutura mobilizam uma grande quantidade de mão de obra direta, contratada exclusivamente para a execução do projeto. Quando necessário referenciar esses preços salariais, prioriza-se, quando possível, a convenção coletiva de trabalho existente e o Sinapi (ou o Sicro, no caso de infraestrutura de transportes).
Já no caso da mão de obra indireta, dificilmente tais critérios são suficientes, tendo em vista a multidisciplinariedade exigida nessas obras. Para suprir essa lacuna, o Caged passou a ser utilizado como referencial de preço pelo TCU.
O Caged é uma base oriunda de uma declaração obrigatória, ampla, que possui desagregação de dados suficiente para diferentes análises e cobertura representativa (aproximadamente 85% dos celetistas).
No entanto, para se utilizar o Caged como referencial de mão de obra confiável, foi necessário desenvolver uma metodologia para tratamento e adequação dos dados. O modelo desenvolvido baseou-se na nova metodologia do Sicro, que também utiliza o banco de dados como fonte salarial na construção civil, implementado por recomendação do TCU (Acórdão 302/2011-Plenário).
É importante mencionar que a base é pública e pode ser desagregada por diversos filtros, como região geográfica, atividade econômica (CNAE), porte da empresa, grau de instrução, entre outros. Logo, com a metodologia proposta, os dados podem ser tratados para representar diferentes regiões e segmentos da indústria, e, portanto, atender a diferentes necessidades tais quais orçamentação, auditoria ou para fins estatísticos.
Detalhes técnicos: embora sua concepção tenha surgido de diversas reflexões e análises, o modelo é relativamente simples. Utiliza-se estatística básica, um software de BI ou de manipulação de banco de dados (que no caso utilizou-se o Qlikview) e Microsoft Excel.
Ementa:
Esse trabalho propõe demonstrar o passo a passo da metodologia – tratamento, filtragem de dados e seleção do valor referencial – por meio de um exemplo prático do setor de óleo e gás, nos moldes dos que estão sendo utilizados para cálculo do sobrepreço de mão de obra nos contratos da Petrobras.
A oficina/tutorial terá duração aproximada de 1h30m a 2h (dependendo da participação dos inscritos) e propõe o seguinte cronograma:
1 - breve apresentação para demonstrar de onde partiu a implementação da ferramenta e suas possíveis aplicações para os participantes [10min]
2 - demonstração breve do algoritmo desenvolvido para o carregamento e tratamento básico dos microdados do Caged no Qlikview (os participantes visualizarão a tela do tutor) [10min]
3 - demonstração da filtragem dos dados (escolha dos CBOs - Código Brasileiro de Ocupação, CNAE, porte de empresa, etc) na ferramenta de acordo com exemplo prático, que é a construção do referencial de preços de mão de obra para o setor de óleo de gás de uma obra específica, a partir dos dados do Caged (aqui os participantes visualizarão a tela do tutor, mas também poderão praticar por um link onde a ferramenta deverá ser disponibilizada) [30min]
4 - Seleção dos referenciais e exemplo de cálculo de sobrepreço no Excel (os modelos também serão fornecidos para a prática) [30min]
5 - Discussão de eventuais dúvidas [10min]
VALIDAÇÃO CRUZADA DE SÉRIES DE TEMPO PARA A SELEÇÃO DE MODELOS PREDITIVOS DO NÚMERO DE ATOS DE CONCENTRAÇÃO
Trata-se de um trabalho de conclusão de curso da Pós-graduação em Defesa da Concorrência e Direito Econômico da Fundação Getúlio Vargas (FGV). O trabalho é um subproduto dos esforços empenhados no âmbito do Conselho Administrativo de Defesa Econômica - Cade para prever o número de atos de concentração (ex: fusões de empresas) que serão apresentados à autarquia. O resultado do trabalho ajuda na calibração das necessidades orçamentárias e financeiras da instituição.
É pelo uso do método de “validação cruzada de séries de tempo” (time series cross-validation) que se determina o modelo de previsão que melhor teria se adaptado ao longo do tempo na tarefa de prever o número de atos de concentração. Estabelecido o modelo, estima-se, para os doze meses seguintes, o número de atos de concentração.
O código foi desenvolvido em R, e stabelece uma rotina para a determinação de melhores modelos (e realização das previsões) conforme os dados vão sendo atualizados pelas APIs. Todo o projeto está disponível no Github: https://github.com/isidiomartins/-2020-09--PrevisaoACs, inclusive a última versão do TCC: https://github.com/isidiomartins/-2020-09--PrevisaoACs/tree/main/5.nota
Todas as séries temporais utilizadas são de acesso livre, e em sua grande maioria produzidas por intuições públicas. O número de atos de concentração notificados ao Cade tem como fonte o painel “Cade em Números”[1]. Pelo pacote rbcb[2] do R acessaram-se os dados da API disponibilizada pelo BCB. Por meio do pacote, também do R, ipeadatar[3] acessaram séries do portal Ipeadata[4]. Enquanto o pacote tseries[5] do R viabilizou o acesso aos dados da API disponibilizada pelo Yahoo Finance.
O projeto está em estágio final. A rotina de programação já está 90% concluída e o trabalho escrito encontra-se em etapa de revisão.
[1]http://cadenumeros.cade.gov.br/QvAJAXZfc/opendoc.htm?document=Painel%2FCADE%20em%20N%C3%BAmeros.qvw&host=QVS%40srv004q6774&anonymous=true
[2] https://github.com/wilsonfreitas/rbcb
[3] https://cran.r-project.org/web/packages/ipeadatar/index.html
[4] http://www.ipeadata.gov.br. Acessado em 22/08/2020.
[5] https://cran.r-project.org/web/packages/tseries/index.html
Vigência e desafios da Lei de Responsabilidade Fiscal, Jurimetria e Tribunais de Contas: um estudo quantitativo sobre o Tribunal de Contas do Município de São Paulo
tipo: apresentação
foco: técnico
fase: artigo publicado
O tema geral deste trabalho é a aplicação da Lei de Responsabilidade Fiscal (LRF) pelo Tribunal de Contas do Município de São Paulo (TCMSP). O problema ou questão de pesquisa é: Como tem sido aplicada a LRF no âmbito do TCMSP? O objetivo deste estudo é mostrar como a LRF tem sido aplicada pelo TCMSP, utilizando diferentes categorias analíticas, como o artigo da LRF mencionado no julgado, o tipo de processo e o órgão investigado. A hipótese que se pretende provar verdadeira é que o uso da Jurimetria produz informações relevantes, tanto para o processo legislativo como para o planejamento de auditorias dos Tribunais de Contas. Esta é uma pesquisa exploratória, que utiliza metodologia quantitativa, a Jurimetria (Estatística aplicada ao Direito) e técnica documental. Os resultados mostram as proporções das diferentes categorias analíticas nos julgados do TCMSP que citam a LRF. A análise dos dados mostra que poucas categorias analíticas concentram grandes proporções do total. A principal conclusão é que o estudo quantitativo da aplicação da LRF, através da Jurimetria, pode direcionar os esforços do processo de revisão legislativa e do planejamento de auditorias dos Tribunais de Contas, melhorando sua eficiência e eficácia.
Ferramenta Estatística: Estatística Descritiva (Análise Exploratória de Dados)