REDTCUE

TCUE

Principal

Página principal TCUE

Demandas tecnológicas: NT31

 

 tcuenew

 

 

 

DESAFÍO UNIVERSIDAD - EMPRESA 2024

Esta necesidad tecnológica forma parte del Concurso de Proyectos de I+D+i y/o consultoría en colaboración Universidad – Empresa “Desafío Universidad Empresa” 2024 organizado por la Fundación Universidades y Enseñanzas Superiores de Castilla y León. 

  

 Referencia:    NT31  

Tipo de Entidad: Empresa

Título del proyecto
 
Inteligencia artificial aplicada a la mejora de la búsqueda de contenidos en una plataforma educativa.
 

 

 Acrónimo   BúsquedIA 

Resumen

  Área de interés principal de la demanda

    Tecnologías y ciberseguridad - N/A

Se precisa mejorar un proceso de búsqueda de contenidos educativos por texto / palabras clave actualmente implementado. En la actualidad, se realiza una búsqueda por coincidencia que impide localizar contenidos si las palabras clave empleadas no son exactamente iguales a las presentes en un etiquetado. Se pretende mejorar este proceso mediante una búsqueda con inteligencia artificial, haciendo uso de tecnologías semánticas y embeddings.

  Áreas de interés secundarias  

   Otros (especificar) - Educación

 

DESCRIPCIÓN DE LA NECESIDAD DEMANDADA 

1.- Descripción de la demanda tecnológica.

Actualmente disponemos de un amplio catálogo de contenidos educativos. Cada uno de estos contenidos ha sido etiquetado manualmente con palabras clave. Lo que se pretende es que un usuario pueda buscar contenidos introduciendo palabras clave incluso si estas no coinciden con las presentes en los contenidos.
Por ejemplo, un contenido puede tener las palabras clave «comida», «alimentación», «salud». Si un usuario emplea una de estas palabras clave, entonces se mostraría el contenido como resultado de la búsqueda.
No obstante, el problema al que nos enfrentamos es que un usuario normalmente no escribirá las palabras clave tal y como están especificadas. Por ejemplo, nos enfrentamos a tres casuísticas diferenciadas:
• El usuario puede escribir términos que contengan algunas palabras con faltas de ortografía, por ejemplo «alimentacion» sin tilde, lo que no coincidiría con la palabra clave «alimentación» que está asociado al contenido.
• El usuario puede emplear palabras clave derivadas morfológicamente de las especificadas, tales como «alimento», «alimentos», «comer», etc.
• El usuario puede emplear palabras relacionadas semánticamente con las especificadas, o incluso sinónimos, tales como «nutrición», «condumio», «yantar», «ingesta».
En estos casos, lo ideal sería que el contenido aparezca en los resultados de búsqueda en cualquiera de los tres casos. Para ello, es necesario evolucionar el sistema actual a un sistema de búsqueda semántica, empleando vectores de conceptos o text embeddings. Además, el sistema debe ser escalable cuando se disponga de un elevado número de contenidos, pudiendo hacerlo idealmente dentro de un sistema gestor de bases de datos, para evitar tener que recuperar todos los contenidos en memoria.

2.- Antecedentes.

Actualmente la solución de búsqueda disponible realiza una búsqueda por coincidencia textual, es decir, comprobar si las palabras clave asociadas al contenido tienen intersección con los términos de búsqueda. Este sistema plantea las limitaciones explicadas anteriormente.

3.- Posibles enfoques del proyecto de investigación.

La principal expectativa del proyecto es emplear técnicas de procesamiento del lenguaje natural para poder realizar búsqueda semántica. El proyecto de investigación debe determinar la mejor forma de realizar esta búsqueda (vectores de términos, embeddings de texto, etc).
El sistema debe poder implementarse en un servidor local y poder funcionar en modo offline, sin hacer uso de librerías externas o APIs.
Idealmente, debería poder realizarse este trabajo directamente en una base de datos MySQL, implementando las funciones que sean necesarias. Esto se debe a que puede haber un elevado número de contenidos (cientos de miles) y es inviable cargar todos en memoria para hacer la comparativa. De ser necesario, se podrían realizar pre-cálculos de vectores asociados a cada contenido y almacenarlos en la base de datos del modo que resulte más oportuno.

4.- Enfoques sin interés

        N/D

 

PALABRAS CLAVE: Búsqueda, NLP, embeddings, semántica, IA.

-- 

Si desea remitir una propuesta de solución tecnológica (proyecto de investigación y/o consultoría) deberá remitirla en los terminos establecidos en la convocatoria  hasta el 29 de enero de 2025 (plazo ampliado).

Demanda Tecnológica en formato pdf: www.redtcue.es/desafio/demandas/nt31   pdf

Formulario de participación investigadores 

Más información, Bases y Anexos.

 t cue LOGO  Selección 229 desafioempresa 

Top