Aller au contenu principal
VIGICOVID sistema sortu dugu

Un système d'extraction automatique de l'information des articles scientifiques sur la COVID-19

2022 | mars 24

VIGICOVID est un système permettant d’obtenir des réponses lors de l’avalanche d’informations sur la COVID-19 et SARS -CoV-2, à travers des questions en langage naturel.


Des chercheurs et des chercheurs de l'UPV/EHU, de l'UNED et d'Elhuyar ont créé le système VIGICOVID, grâce au Fonds Dépasse COVID-19 de la CRUE. Ce système répond à la nécessité de rechercher des réponses dans l'avalanche d'informations générées par toutes les enquêtes menées mondialement liées à la pandémie. Par l'intelligence artificielle, le système affiche les réponses trouvées dans un ensemble d'articles scientifiques, de manière ordonnée, en utilisant des questions et des réponses en langage naturel.

La communauté mondiale de recherche biosanitaire s'efforce de générer des connaissances autour de la COVID-19 et de la SARS -CoV-2. Cet effort se traduit par une production importante et très rapide de publications scientifiques, ce qui rend difficile la consultation et l'analyse de toutes ces informations. Il est donc nécessaire de fournir des systèmes d'information aux experts et aux autorités responsables de la prise de décision, qui leur permettent d'acquérir les connaissances nécessaires.


C'est précisément ce qu'ont étudié dans le projet VIGICOVID des chercheurs et des chercheurs du Centre HiTZ de l'UPV/EHU, du groupe NLP IR de l'UNED et de l'Unité d'Intelligence Artificielle dans le domaine linguistique d'Elhuyar, grâce au Fonds Dépasse COVID-19 accordé. Dans l'étude, ils ont créé un prototype pour extraire des informations à l'aide de questions et de réponses en langage naturel d'un ensemble actualisé d'articles scientifiques publiés par la communauté mondiale de recherche autour de la COVID-19 et de l'UNED SARS -CoV-2, sous la coordination du groupe de recherche de l'UNED.


« Le paradigme des recherches d’information évolue grâce à l’intelligence artificielle – affirme Eneko Agirre, directeur du Centre HiTZ de l’UPV/EHU. Jusqu'à présent, pour rechercher des informations sur le réseau, une question est saisie, et la réponse doit être recherchée dans les documents que le système nous montre. Cependant, en fonction du nouveau paradigme, les systèmes qui offrent directement la réponse sont de plus en plus étendus, sans avoir à lire tout le document.»


Dans ce système, « la personne utilisatrice ne demande pas l’information par des mots clés, mais pose directement une question », explique le chercheur d’Elhuyar Xabier Saralegi. Le système cherche les réponses à cette question en deux phases: « Tout d'abord, il récupère les documents qui peuvent contenir la réponse à la question posée, en utilisant une technologie qui combine des mots clés et des questions directes. Pour cela, nous avons étudié les architectures neuronales », ajoute le docteur Saralegi. Ils ont utilisé des architectures neuronales profondes alimentées par des exemples: « Cela signifie que les modèles de recherche et les modèles de réponse aux questions sont formés par l’apprentissage automatique profond. »


Après avoir extrait la série de documents, ils sont traités à nouveau par un système de questions et de réponses pour obtenir des réponses concrètes: «Nous avons construit le moteur qui répond aux questions; en lui fournissant une question et un document, le moteur est capable de détecter si la réponse se trouve ou non dans le document, et si oui, il dit exactement où il se trouve», explique le docteur Agirre.


Un prototype facilement commercialisable


Les chercheurs sont satisfaits des résultats obtenus dans la recherche: « Des techniques et des évaluations que nous avons analysées dans nos expériences, nous avons apporté au prototype celles qui ont donné de meilleurs résultats », souligne le chercheur Elhuyar. Ils ont établi une base technologique solide, et ont publié plusieurs articles scientifiques à ce sujet. « Nous avons obtenu une autre façon de rechercher des cas de besoin d’informations urgentes, qui facilite le processus de consommation d’informations. Au niveau de la recherche, nous avons montré que la technologie proposée fonctionne, et que le système donne de bons résultats », note Agirre.


« Notre résultat est un prototype d’un projet de recherche de base. Ce n’est pas un produit commercial », souligne Saralegi. Mais ce type de prototypes peut être facilement modelé et en peu de temps, pour pouvoir les commercialiser et les mettre à la portée de la société. Ces chercheurs soulignent que grâce à l'intelligence artificielle, on pourra disposer d'instruments toujours plus puissants pour travailler avec de grandes bases de documents. « Nous avançons très rapidement dans ce domaine. De plus, tout ce qui est recherché arrive facilement sur le marché », conclut le chercheur de l’UPV/EHU.


Référence bibliographique


Arantxa Otegi, Iñaki San Vicente, Xabier Saralegi, Anselmo Peñas, Borja Lozano, Eneko Agirre
Information retrieval and question answering: A case study on COVID-19 scientific literature Knowledge
-Based Systems
DOI:10.1016/j.knosys.2021.108072

PHOTO: De la base photographique 12rf.