[LogoUnr]

UNR


Departamento de Sistemas
Grupo Base de Datos

Inicio Etapa 01: IR Etapa 02: IE Etapa 03: Desarrollo Reportes técnicos

Reportes técnicos

Reporte 01: Estado del arte de la Recuperación de Información


[ reporte01.pdf ] (Draft, 2002.10.11)
Luego de realizar una revisión general acerca de las técnicas para la IR presentadas en la actualidad, se comentan las particularidades principales de nuestro interés en lo que se refiere a: técnicas en la recuperación y extracción de información, tratamiento de consultas multilinguales, enfoque específico de la medicina e integración mediante metadatos.

Conclusión

Se puede observar que para las técnicas IR los dos parámetros que clasifican principalmente a los distintos modelos son Precisión y Recall.
La precisión se define como la taza de documentos relevantes sobre el número total de documentos recuperados y el recall se define como la proporción de los documentos relevantes que son recuperados sobre el total de los mismos. Es decir:

Precisión = Número de documentos relevantes recuperados
-----------------------------------------------
Número de documentos recuperados

Recall = Número de documentos relevantes recuperados
-----------------------------------------------
Número total de documentos relevantes

Nuestro objetivo será estudiar la posibilidad de crear una brecha que haga una diferencia favorable sobre los valores obtenidos con los métodos actuales.

Potenciando el Recall
Una primer medida observada en la extensión de la búsqueda parte de ampliar la consulta basándose en la semántica de la misma, de este modo se incorporan a la búsqueda términos que sean conceptualmente equivalentes a los fines de recuperar documentos que también sean relevantes aún cuando no respondan rigurosamente a las palabras utilizadas por el usuario.
Por otro lado otro enfoque consiste en realizar una búsqueda multilingual con el objetivo de ampliar el conjunto de documentos observados, y por ende que esto implique un mayor conjunto de elementos recuperados.
Nuestra intención será reforzar la búsqueda haciendo interactuar ambas técnicas, y de esa forma lograr identificar mediante la semántica los concepto más significativos de la búsqueda para luego extenderla a las diversas lenguas sobre las que se pretenda trabajar.

Potenciando la Precisión
Uno de los parámetros generales de calificación de un sistema de búsqueda (medida de Lancaster) evalúa el esfuerzo que debe realizar el usuario, dando a entender sutilmente que un buen sistema es sumamente automático. Sin embargo en los buscadores más populares suele suceder que ante una consulta simple se obtiene un conjuntos de documentos recuperados que fácilmente puede contener decenas de miles de resultados, donde es de bien suponer el usuario nunca podrá realizar una lectura del total con el objeto de clasificar cuales pueden ser de interés (relevantes). Luego nuestro aporte estima que un mínimo esfuerzo extra por parte del usuario puede aumentar considerablemente la precisión de la búsqueda. Por otra parte este esfuerzo inicial que se pretenderá por parte del usuario será justamente recompensado evitándole a posteriori la lectura y clasificación manual de documentos que no sean de interés.
Para ello pensamos desarrollar dos tipos de funcionalidades que interactúen con el usuario una vez realizada la consulta, mediante una nueva interfaz que le permita: refinar la búsqueda o bien cambiar el enfoque. El refinamiento de la búsqueda puede realizarse detectando palabras claves encontradas en los documentos recuperados que permitan realizar una clasificación de los mismos en subconjuntos más específicos. El cambio de enfoque puede realizarse presentando una estructura jerárquica (árbol) que le permita al usuario conocer la ruta de navegación en la que se encuentra, donde eventualmente observe que le conviene abstraerse conceptualmente (subir un nivel) para luego concentrarse en otro enfoque (rama) distinto al inicial.


Partiendo entonces de estos dos objetivos primordiales, pretendemos aportar un nuevo mecanismo en lo que respecta a la IR multilingual para el dominio de la medicina.

Ultima actualización: