
Un sistema de extracción automática de información de artigos científicos sobre a COVID-19
VIGICOVID é un sistema paira conseguir respostas na avalancha informativa sobre a COVID-19 e o SARS-CoV-2, mediante preguntas en linguaxe natural.
Investigadores e investigadoras da UPV/EHU, a UNED e Elhuyar crearon o sistema VIGICOVID, grazas ao Fondo Supera COVID-19 da CRUE. Este sistema responde á necesidade de buscar respostas na avalancha de información xerada por todas as investigacións realizadas mundialmente relacionadas coa pandemia. Mediante intelixencia artificial, o sistema mostra as respostas atopadas nun conxunto de artigos científicos, de maneira ordenada, utilizando preguntas e respostas en linguaxe natural.
A comunidade investigadora biosanitaria mundial está a realizar un gran esforzo na xeración de coñecemento ao redor da COVID-19 e ao SARS-CoV-2. Este esforzo tradúcese nunha produción inxente e moi rápida de publicacións científicas, o cal dificulta a consulta e a análise de toda esa información. Por iso, resulta necesario proporcionar sistemas de información ás persoas expertas e ás autoridades responsables na toma de decisións, que lles permitan adquirir o coñecemento necesario.
Iso é, precisamente, o que investigaron no proxecto VIGICOVID investigadores e investigadoras do Centro HiTZ da UPV/EHU, do grupo NLP & IR da UNED e da Unidade de Intelixencia Artificial no ámbito lingüístico de Elhuyar, grazas ao Fondo Supera COVID-19 outorgado pola CRUE. No estudo, crearon un prototipo paira extraer información mediante preguntas e respostas en linguaxe natural dun conxunto actualizado de artigos científicos publicados pola comunidade investigadora mundial ao redor da COVID-19 e o SARS-CoV-2, baixo a coordinación do grupo de investigación da UNED.
“A paradigma das procuras de información está a cambiar grazas á intelixencia artificial —afirma Eneko Agirre, director do Centro HiTZ da UPV/EHU—. Até agora, paira buscar información na rede, introdúcese una pregunta, e a resposta débese buscar nos documentos que nos mostra o sistema. Con todo, en función da novo paradigma, cada vez están máis estendidos os sistemas que ofrecen directamente a resposta, sen necesidade de ler todo o documento”.
Neste sistema, “acódea usuaria non solicita a información mediante palabras crave, senón que formula directamente una pregunta”, explica o investigador de Elhuyar Xabier Saralegi. O sistema busca as respostas a esa pregunta en dúas fases: “En primeiro lugar, recupera os documentos que poden conter a resposta á pregunta realizada, utilizando una tecnoloxía que combina palabras crave e preguntas directas. Paira iso investigamos arquitecturas neuronais”, engade o doutor Saralegi. Utilizaron arquitecturas neuronais profundas alimentadas con exemplos: “Iso significa que os modelos de procura e os modelos de resposta ás preguntas adéstranse a través da aprendizaxe automática profundo”.
Una vez extraída a serie de documentos, vólvense a procesar mediante un sistema de preguntas e respostas, paira así obter respostas concretas: “Construímos o motor que responde as preguntas; proporcionándolle una pregunta e un documento, o motor é capaz de detectar si a resposta atópase ou non no documento, e en caso afirmativo, di exactamente onde se atopa”, explica o doutor Agirre.
Un prototipo facilmente comercializable
Os investigadores están satisfeitos cos resultados obtidos na investigación: “Das técnicas e as avaliacións que analizamos nos nosos experimentos, levamos ao prototipo aquelas que deron mellores resultados”, sinala o investigador de Elhuyar. Estableceron una base tecnolóxica sólida, e publicaron varios artigos científicos respecto diso. “Conseguimos outra maneira de realizar procuras paira casos de necesidade de información urxente, que facilita o proceso de consumo de información. A nivel de investigación demostramos que a tecnoloxía proposta funciona, e que o sistema dá bos resultados”, apunta Agirre.
“O noso resultado é un prototipo dun proxecto de investigación básica. Non se trata dun produto comercial”, destaca Saralegi. Pero este tipo de prototipos pódense modelar facilmente e en pouco tempo, paira poder comercializalos e polos ao alcance da sociedade. Estes investigadores destacan que grazas á intelixencia artificial poderase dispor de instrumentos cada vez máis potentes paira traballar con grandes bases de documentos. “Estamos a avanzar moi rapidamente neste ámbito. E, ademais, todo o que se investiga chega facilmente ao mercado”, conclúe o investigador da UPV/EHU.
Referencia bibliográfica
Arantxa Otegi, Iñaki San Vicente, Xabier Saralegi, Anselmo Penas, Borja Lozano, Eneko Agirre
Information retrieval and question answering: A case study on COVID-19 scientific literature
Knowledge-Based Systems
DOI: 10.1016/j.knosys.2021.108072
FOTO: Da base fotográfica 12rf.