Desenvolvida na UnB, ferramenta extrai informações de maneira rápida e automatizada. Objetivo é auxiliar na busca e recuperação de dados, aumentar transparência pública e facilitar auditoria

Anastácia Vaz/Secom UnB


Só quem já precisou buscar informações em um documento formal e complexo como o Diário Oficial sabe que achar o que se quer pode ser bem complicado. São vários atos publicados em diferentes sessões, e cada um deles pode vir em um formato diverso dos demais. Essa particularidade de cada uma das publicações acaba tornando a experiência do leitor-usuário trabalhosa e lenta. 


Para atender a uma demanda do Tribunal de Contas do Distrito Federal (TCDF), um grupo de professores e estudantes, majoritariamente do Departamento de Ciência da Computação (CIC/UnB), desenvolveu ferramentas inteligentes para extrair informações estruturadas do Diário Oficial do Distrito Federal (DODF). 

 

O resultado tornou-se conhecido neste ano, quando o portal Knedash foi entregue ao TCDF. A intenção é facilitar a busca e a recuperação de informações, aumentar a transparência do governo – que é quem publica atos neste espaço –, e facilitar as tarefas de auditoria e detecção de problemas relacionados ao uso de recursos públicos.


“O Diário Oficial é um documento grande, cheio de informações, difícil de ler. Então, nossa iniciativa é automatizar esses trabalhos, principalmente os de leitura e de extração de informações”, sintetiza o professor Thiago de Paulo Faleiros, coordenador do projeto Nido (sigla para Navegação por Informações do Diário Oficial).

Para o professor Thiago de Paulo, o projeto ajuda a "encontrar uma agulha no palheiro". Foto: Anastácia Vaz/Secom UnB


O nome da iniciativa é uma adaptação para o português da sigla KnEDLe (Knowledge Extraction from Documents of Legal Content), a qual remete ao termo needle, em inglês, que significa agulha. “Vasculhar o Diário Oficial é como procurar uma agulha no palheiro”, compara o docente.


Para desenvolver a ferramenta, quatro professores da UnB e um da Universidade de São Paulo, além de aproximadamente 15 graduandos e seis mestrandos bolsistas, dois doutorandos voluntários e diversos colaboradores, estudaram ao longo de três anos e testaram o que há de mais atual no mundo da inteligência artificial (IA). 

 

Por meio de IA, processamento de linguagem natural, aprendizado de máquina (machine learning) e mineração de dados, o Knedash facilita a experiência do usuário no DODF e melhora a navegação pela publicação.


TRABALHOS E CONQUISTAS – O mestrando do Programa de Pós-Graduação em Informática (PPGI/CIC) Vitor Vasconcelos entrou no início do segundo ano do projeto e, com isso, teve oportunidade de passar por diferentes equipes e lidar com os principais desafios do grupo.

Vitor Vasconcelos largou o estágio para se dedicar ao projeto Nido. "Valeu a pena", avalia. Foto: Anastácia Vaz/Secom UnB


“No começo, eu rotulei um pouco, usei técnica de supervisão fraca (que é ajudar a máquina a rotular), treinei alguns modelos e mexi um pouco com segmentação também. Foi interessante. No final das contas, o que ganhei com o projeto foi o interesse na área de inteligência artificial. Vi que é o que eu gosto, o que quero seguir, principalmente essa área de texto e processamento de linguagem natural, que é o tema do meu mestrado", destaca.


“Emendei a graduação ao mestrado nessa área justamente porque vi que é algo que está crescendo muito, estamos vendo o chatGPT, tudo isso. E é uma área que, a cada momento, vou me interessando mais. Então, acho que foi uma experiência muito boa e muito positiva”, avalia Vitor.


Também esta é a avaliação de Gabriel Nogueira, que trocou o curso de Engenharia Mecatrônica pelo de Ciência da Computação na UnB em 2021 e, no final do mesmo ano, ingressou no projeto Nido.


“O pessoal vai ver IA no mestrado, doutorado. Ter contato com essa área na graduação é muito difícil, a não ser que você participe de um Pibic [programa de iniciação científica voltado a estudantes de graduação], algo assim. Então, encontrei no projeto uma ótima oportunidade para ter contato com IA, saber realmente o que é, porque a gente não faz ideia do que é até realmente ter contato com ela. Foi muito importante, e eu aprendi muita coisa,” rememora o estudante do sexto semestre.


“Aprendi jargão da área, técnicas utilizadas, muitos pontos de partida também. Agora, se eu tiver que mexer com a área, vou saber onde pesquisar, quais ferramentas usar. Esse projeto foi muito importante para me botar no campo, saber onde estou pisando dentro da IA. Achei muito legal e com certeza contribuiu muito para mim”, detalha Gabriel.

Gabriel Nogueira acredita que o projeto alavancou o conhecimento que tinha na área. Foto: Anastácia Vaz/Secom UnB


O estudante lembra que, ao longo dos estudos, ele e outros colegas da graduação também tiveram oportunidade de ler muito e de escrever.


“Na graduação, o pessoal chega no TCC [Trabalho de Conclusão de Curso] e não tem muita experiência em escrever artigo, fazer referência para coisas básicas, até em imagem. E a gente ficou calejado de escrever nesse projeto”, conta Gabriel Nogueira.


Seu xará e companheiro de projeto, Gabriel Ciriático, também aproveitou bastante o contato com a leitura e a escrita de trabalhos acadêmicos e acabou premiado em um congresso internacional ocorrido em Campinas (SP), em dezembro de 2022.


“Foi incrível. Abriu muito interesse em dialogar com outros problemas que o pessoal está tendo agora, não só problemas de dez anos atrás que lemos em artigos", assegura o estudante.


artigo intitulado Named Entity Recognition Approaches Applied to Legal Document Segmentation (Abordagens de Reconhecimento de Entidade Nomeada Aplicadas à Segmentação de Documentos Legais, em tradução livre para o português), de Gabriel Ciriático e Felipe Xavier, foi reconhecido com o terceiro melhor artigo do Simpósio de Descoberta de Conhecimento, Mineração e Aprendizagem, realizado pela Sociedade Brasileira de Computação (SBC).


“A equipe do projeto responsável pela escrita de artigos foi incentivada a pensar nos problemas de forma criativa. Foi uma parte extremamente rica e foi muito importante para matar um pouco o dragão da pesquisa”, acredita Ciriático, em referência aos desafios encontrados ao longo do estudo.

Gabriel Ciriático pôde desenvolver soluções criativas no projeto. Resultado foi reconhecido em simpósio internacional. Foto: Anastácia Vaz/Secom UnB


“Na graduação, vemos artigos com formas extremamente complexas e ficamos em dúvida se conseguiremos escrever algo minimamente útil. Reunir toda a documentação, pegar todos os problemas que tínhamos enfrentado e documentar, fazendo um fluxo bonitinho que dialoga com a literatura, foi muito, muito bom”, comemora.


“TECNIQUÊS” – O projeto Nido foi desenvolvido para traduzir o “juridiquês” do Diário Oficial do Distrito Federal por meio da inteligência artificial e dos modelos criados e treinados pela equipe. Agora, o Knedash é capaz de reconhecer nomes de pessoas e de órgãos e tipos de atos. Para cada um, há um modelo diferente (aposentadoria, contrato, licitação, entre outros).


Para chegar ao resultado final, os participantes chegaram a usar o GPT, inteligência artificial que gera predições, e sua interface, o chatGPT. 


“Isso deu certo para algumas coisas, mas não tudo, porque o chatGPT não é perfeito. Então, coisas muito fáceis, tipo nome, órgão, ele até conseguia, mas tinha umas coisas que eram mais difíceis. Muita coisa ele acertava, mas quando errava, errava bem feio. Bastante”, lembra Gabriel Nogueira.


“Não é que ele é ruim, o chatGPT é muito bom. Ele gera um texto bom, mas, no caso jurídico brasileiro, por exemplo, a ferramenta precisa se especializar um pouco. Quanto mais especializa, mais acerta. Ele acertava 70%, 80%”, relembra o docente Thiago de Paulo.


REPLICÁVEL – A ferramenta criada pelo grupo da UnB foi direcionada ao Diário Oficial do DF, a pedido do TCDF e com financiamento da Fundação de Apoio à Pesquisa do Distrito Federal (FAPDF). Nada impede que seja customizada conforme as necessidades de outros órgãos, até mesmo de outras unidades da Federação. O código é aberto, e os dados rotulados (dados organizados por humanos e por programas para facilitar o aprendizado de máquina) também estão disponíveis.

 

ATENÇÃO – As informações, as fotos e os textos podem ser usados e reproduzidos, integral ou parcialmente, desde que a fonte seja devidamente citada e que não haja alteração de sentido em seus conteúdos. Crédito para textos: nome do repórter/Secom UnB ou Secom UnB. Crédito para fotos: nome do fotógrafo/Secom UnB.