El investigador del grupo de Inteligencia Computacional en Biomedicina de la E.T.S de Ingeniería Informática de la Universidad de Málaga (ICB-UMA) Guillermo López ha sido galardonado en la competición internacional CANTEMIST - Cancer Text Mining Shared Task-  que reconoce el desarrollo de herramientas de inteligencia artificial (IA) que ayuden a los médicos en el pronóstico de casos de cáncer.

Se trata de una competición internacional, organizada por el Barcelona Supercomputing Center -Centro Nacional de Supercomputación (BSC) en el marco del Plan de Impulso de las Tecnologías del Lenguaje (Plan TL), de la Secretaría de Estado de Digitalización e Inteligencia Artificial; que ha contado con la participación de más de 150 expertos en IA y procesamiento del lenguaje natural, de más de 60 grupos de I+D+i, de unos 15 países diferentes, para crear herramientas automáticas capaces de localizar y clasificar menciones a tumores cancerígenos en grandes volúmenes de textos clínicos escritos en castellano.

Este concurso forma parte de las tareas que se llevan a cabo en el terreno de la medicina personalizada para crear tecnologías que ayuden a los médicos a realizar pronósticos de casos de cáncer con mayor precisión y a seleccionar tratamientos.

En concreto, el trabajo del investigador de la UMA ha sido distinguido en la modalidad ‘Cantemist-Coding’, consistente en una tarea de codificación clínica oncológica en la que, a cada texto, se debía asignar de forma automática los códigos CIE-O, la Clasificación Internacional de Enfermedades Oncológicas, de la Organización Mundial de la Salud.

Este proyecto se ha realizado bajo la dirección de los profesores de la Escuela de Informática José Manuel Jerez y Francisco Veredas, en coordinación con los doctores Emilio Alba y Nuria Ribelles, de la UGC Oncología Intercentros de los hospitales Universitario Virgen de la Victoria y Regional Carlos Haya de Málaga.

oncoBERT

‘oncoBERT’, ha sido el sistema presentado por Guillermo López. Una adaptación del algoritmo de inteligencia artificial BERT, inicialmente desarrollado por Google, al dominio de los textos oncológicos en castellano, que ha obtenido el primer premio ‘Contemist-coding’ por ofrecer el mejor rendimiento de los todos los sistemas participantes.

“Hemos partido de un modelo BERT multilingüe inicialmente entrenado sobre un corpus de millones de textos de ámbito general en 104 idiomas diferentes. Posteriormente este modelo ha sido re-entrenado sobre un conjunto de 31.000 casos clínicos de oncología en castellano almacenados en Galén, que es un sistema de información oncológico desarrollado por nuestro grupo de investigación, en colaboración con la UGC”, explica el investigador.