Vés al contingut
VIGICOVID sistema sortu dugu

Un sistema d'extracció automàtica d'informació d'articles científics sobre la COVID-19

2022 | març 24

VIGICOVID és un sistema per aconseguir respostes en el devessall informatiu sobre la COVID-19 i el SARS-CoV-2, mitjançant preguntes en llenguatge natural.


Investigadors i investigadores de la UPV/EHU, la UNED i Elhuyar han creat el sistema VIGICOVID, gràcies al Fons Supera COVID-19 de la CRUE. Aquest sistema respon a la necessitat de buscar respostes en el devessall d'informació generada per totes les recerques fetes mundialment relacionades amb la pandèmia. Mitjançant intel·ligència artificial, el sistema mostra les respostes oposades en un conjunt d'articles científics, de manera ordenada, utilitzant preguntes i respostes en llenguatge natural.

La comunitat investigadora biosanitària mundial està fent un gran esforç en la generació de coneixement entorn de la COVID-19 i al SARS-CoV-2. Aquest esforç es tradueix en una producció ingent i molt ràpida de publicacions científiques, la qual cosa dificulta la consulta i l'anàlisi de tota aquesta informació. Per això, resulta necessari proporcionar sistemes d'informació a les persones expertes i a les autoritats responsables en la presa de decisions, que els permetin adquirir el coneixement necessari.


Això és, precisament, que han investigat en el projecte VIGICOVID investigadors i investigadores del Centre HiTZ de la UPV/EHU, del grup NLP & ANAR de la UNED i de la Unitat d'Intel·ligència Artificial en l'àmbit lingüístic d'Elhuyar, gràcies al Fons Supera COVID -19 atorgat per la CRUE. En l'estudi, han creat un prototip per extreure informació mitjançant preguntes i respostes en llenguatge natural d'un conjunt actualitzat d'articles científics publicats per la comunitat investigadora mundial entorn de la COVID-19 i el SARS-CoV-2, sota la coordinació del grup de recerca de la UNED. 


“El paradigma de les cerques d'informació està canviant gràcies a la intel·ligència artificial —afirma Eneko Agirre, director del Centre HiTZ de la UPV/EHU—. Fins ara, per buscar informació en la xarxa, s'introdueix una pregunta, i la resposta es deu buscar en els documents que ens mostra el sistema. Tanmateix, en funció del nou paradigma, cada vegada estan més estesos els sistemes que ofereixen directament la resposta, sense necessitat de llegir tot el document”.


En aquest sistema, “la persona usuària no sol·licita la informació mitjançant paraules clau, sinó que formula directament una pregunta”, explica l'investigador d'Elhuyar Xabier Saralegi. El sistema busca les respostes a aquesta pregunta en dues fases: “En primer lloc, recupera els documents que poden contenir la resposta a la pregunta feta, utilitzant una tecnologia que combina paraules clau i preguntes directes. Per això hem investigat arquitectures neuronals”, afegeix el doctor Saralegi. Han utilitzat arquitectures neuronals profundes alimentades amb exemples: “Això significa que els models de cerca i els models de resposta a les preguntes s'entrenen a través de l'aprenentatge automàtic profund”. 


Una vegada extreta la sèrie de documents, es tornen a processar mitjançant un sistema de preguntes i respostes, per així obtenir respostes concretes: “Hem construït el motor que respon a les preguntes; proporcionant-li una pregunta i un document, el motor és capaç de detectar si la resposta es troba o no en el document, i en cas afirmatiu, diu exactament on es troba”, explica el doctor Agirre. 


Un prototip fàcilment comercialitzable


Els investigadors estan satisfets amb els resultats obtinguts en la recerca: “De les tècniques i les avaluacions que hem analitzat en els nostres experiments, hem portat al prototip aquelles que han fet millors resultats”, assenyala l'investigador d'Elhuyar. Han establert una base tecnològica sòlida, i han publicat diversos articles científics sobre aquest tema. “Hem aconseguit una altra manera de fer cerques per casos de necessitat d'informació urgent, que facilita el procés de consum d'informació. A nivell de recerca hem demostrat que la tecnologia proposada funciona, i que el sistema fa bons resultats”, apunta Agirre.


“El nostre resultat és un prototip d'un projecte de recerca bàsica. No es tracta d'un producte comercial”, destaca Saralegi. Però aquesta mena de prototips es poden modelar fàcilment i en poc temps, per poder comercialitzar-los i posar-los a l'abast de la societat. Aquests investigadors destaquen que gràcies a la intel·ligència artificial es podrà disposar d'instruments cada vegada més potents per treballar amb grans bases de documents. “Estem avançant molt ràpidament en aquest àmbit. I, a més, tot que s'investiga arriba fàcilment al mercat”, conclou l'investigador de la UPV/EHU.


Referència bibliogràfica


Arantxa Otegi, Iñaki Sant Vicent, Xabier Saralegi, Anselmo Penyes, Borja Lozano, Eneko Agirre
Information retrieval and question answering: A casi study on COVID-19 scientific literature
Knowledge-Based Systems
DOI: 10.1016 /j . knosys . 2021.108072

FOTO : De la base fotogràfica 12rf .