UNR

Departamento de Sistemas
Grupo Base de Datos

Inicio

Etapa 01: IR

Etapa 02: IE

Etapa 03: Desarrollo

Reportes técnicos

Etapa 01 - Information Retrieval

En esta sección, correspondiente a nuestra primera etapa de trabajo, nos enfocamos en:

Análisis del estado del arte de las metodologías y tecnologías para la Recuperación de Información
Herramientas para la expansión multilingual
Aplicación al dominio específico de la medicina
Técnicas y formatos de estructuración de la información

El material recopilado y estudiado se encuentra en dos sub-secciones:

Publicaciones comentadas
Proyectos de interés

Las conclusiones del estudio realizado se encuentran en el Reporte 01 (Estado del arte de la Recuperación de Información) que se encuentra en la sección Reportes técnicos.

Publicaciones comentadas

Integrating Content and Structure in Text Retrieval
Resumen del paper, de Ricardo Baeza y Gonzalo Navarro

Text Retrieval: Theory and Practice
Resumen del paper, de Ricardo Baeza

Sdding Compression to Block Addredding - Inverted Indexes
Resumen del paper, de Gonzalo Navarro, Edleno Silva de Moura, Marden Neubert, Nivio Ziviani y Ricardo Baeza

Mecanismos de la Recuperación de Información en la WWW
http://dmi.uib.es/people/adelaida/tice/modul6/memfin.pdf
Comenta las principales diferencias entre buscadores, por directorio y por búsqueda. Recomienda el uso de XML, como fuente y como fuente intermedia. Describe la búsqueda 'fuzzy' con el uso de operadores booleanos, de operadores de presencia y ausencia (+ y -), conjuntamente con parámetros de proximidad y adyacencia. Para un refinamiento la primer búsqueda trata de encontrar clases que se distingan por determinadas palabras claves.

Univ. Leicester - IR for Medicine
http://www.le.ac.uk/library/teach/irsm/index.html
Se trata de un tutorial para el armado de un IR para medicina. Es ameno pero muy introductorio. Ofrece un pequeño ejemplo.
Sistemas de Recuperación de Información
http://www.um.es/gtiweb/fjmm/sarisite/SARI-trans-T1/SARI-trans-T1.PPT
Transparencias de carácter introductorio. Comenta los modelos. booleano, booleano extendido (archivo invertido), probabilístico (búsqueda por adyacencia), búsqueda por cadenas y espacio vectorial (grafos semánticos).
Asegura que los booleanos extendidos a pesar de ser criticados son eficientes.
Aconseja la consulta realimentada para refinar.
Operaciones sobre términos: stemming (mezcla de palabras relacionadas), truncamiento (con uso de comodines), ponderación (asigna un valor numérico basado en la estadística de los documentos encontrados).
Operaciones sobre documentos: identificación (ID), estructuración (en campos), clustering (por similitud).
Medida de Lancaster (es una clasificación para IRs): exhaustividad (completitud), precisión, tiempo de respuesta, esfuerzo del usuario, formato.

Univ. Kansas - The Application of Corpus Linguistics to Information Retrieval
http://www.ittc.ukans.edu
Realiza una búsqueda de textos analizando el contexto en el que se encuentran. Se presentan varios papers de diversos estudios al respecto, algunos son:

A Corpus Analisis approach for Automatic Query Expansion: hay tres formas de expandir la consulta: con thesauros y feedback (junto con operadores booleanos), usando un diccionario semántico especifico (WordNet, Voorhees), analizando el Corpus de los textos. Es una especie de matriz de presencia y adyacencia

Automatic Word Class and sense identification for IR: IR es inexacto del leguaje por: ambigüedad en la definición de un término, uso de sinónimos, uso de homónimos. Para ello se crea la matriz antes mencionada y además se pueden hacer matrices de contexto (en que tipo de oraciones aparece nuestro target para clasificar los textos).

An Expert Sistem for automatic query reformulation: Hace hincapié en el hecho de que el usuario no sabe hacer bien las preguntas, luego propone que hay que usar feedback con nuevas preguntas (apoyado con un Thesaurus) y en base a lo que se encuentra en las bases. A las palabras de la consulta hay que ponerles un peso (ej. estado(2) de(0) la(0) contaminación (5) nuclear(10)), basado en el conocimiento del área.

Computing Research Laboratory - Unicode Retrieval System Architecture
http://crl.nmsu.edu/Research/Projects/tipster/ursa/
Comentan en líneas generales los modos de búsqueda conocidos pero en particular muestra como para este proyecto en particular la interfase de feedback se apoya en el uso de miniaturas (imágenes) que representan los documentos, con marcas coloreadas según las apariciones de las palabras claves, según sus ubicaciones en el texto.

Guided Tour of Ontology
http://www.jfsowa.com/ontology/guided.htm (copia local)
Presenta con mucha claridad un panorama general de la ontología (resumen) y los desarrollos actuales en el tema (con un glosario de términos usuales y una sección sobre compartición y mezcla de ontologías). Además contiene publicaciones sobre temas especializados y un tutorial de lógica y matemática.

Resolving ambiguity for cross-language information retrieval
http://www.cs.umass.edu/Dients/UI/2.0/Describe/ncstrl.umassa-cs%2FUM-CS-2001-057
A dictionary approach.
Presentamos un resumen del libro mencionado de: Lise Anne Ballesteros, Universidad de Massachusetts (Setiembre de 2001)

The semantic Web: Yet Another Hip?
http://www.cs.vu.nl/~dieter/research.html
Ying Ding, Dieter Fensel, Michael Klein and Borys Omelayenko. Division of Mathmatics & Computer Science, Vrije Universiteit Amsterdam.
En este paper se resumen las investigaciones en el área de la web semántica basándose especialmente a la tecnología de ontologías. (resumen)

Proyectos de Interés

National Library of Medicine
http://www.nlm.nih.gov/medlineplus/dictionaries.html
Presenta enlaces hacia varios sitios que proveen diccionarios de terminología médica. En general permiten consultar en línea los diccionarios y algunos son multilinguales.
Es una página de la biblioteca nacional de médicina de EEUU, que además permite acceder a artículos médicos en línea a través de la página http://www.ncbi.nlm.nih.gov/entrez/query.fcgi. Otro lugar interesante para visitar es el NLMGateway (http://gateway.nlm.nih.gov/gw/Cmd) que permite buscar en varios sistemas de recuperación de información de la NLM (National Library of Medicine).

MuchMore
http://muchmore.dfki.de/pub.html: Es una página con las publicaciones relacionadas con el proyecto MuchMore (http://muchmore.dfki.de/). El proyecto MuchMore desarrolla teorías con el objetivo de realizar un prototipo de un sistema multilingual de información medicinal - concretamente alemán-inglés -. La página índice del proyecto está dividida en secciones: "about", "publications", "partners", "contacts", "home".
La página "about" contiene un resumen del enfoque, las tecnologías y las tareas vinculadas al proyecto.
La página "partners" contiene seis enlaces hacia sitios involucrados en el proyecto: varias universidades (europa y EEUU) y dos empresas.
La página "contacts" contiene información sobre los coordinadores del proyecto. (Es en el DFKI, Alemania).
La página "home" contiene una sencilla portada con los enlaces hacia las restantes secciones.
La página que más nos interesa es "publications": está a su vez dividida en seis enlaces distintos que describo a coninuación:

papers: Contiene una lista de publicaciones dividida en varias páginas enlazadas, la mayoría de las publicaciones se pueden descargar y parecen tener información muy específica y concisa sobre la materia que es de interés en nuestro trabajo.
anual reports: Contiene enlaces a 9 reportes, relacionados cada uno con temas específicos. En particular el primero de ellos: State of the Art (comentarios) presenta un resúmen de los trabajos y tecnologías disponibles en la actualidad.
demos: Provee la posibilidad de probar en línea un prototipo del sistema MuchMore
deliberables: Vínculos a seis documentos. Son documentos incluidos en la página anual reports.
talks: Enlaces a páginas sobre presentaciones relacionadas con el proyecto. Incluyen presentaciones en PowerPoint.
resources: Describe las fuentes de terminología y artículos médicos utilizados en el proyecto (los llama Corpus), los cuales fueron obtenidos de Springer Link (además de un Corpus de prueba desarrollado por los investigadores del proyecto).

Wordnet: una base de datos léxica para el lenguaje inglés.
http://www.cogsci.princeton.edu/~wn/
Desarrollada por el Cognitive Science Laboratory en la Universidad de Princeton es una base de datos léxica donde los sustantivos, verbos, adjetivos y adverbios se organizan en conjuntos de sinónimos que representan un concepto subyacente. Se pueden obtener versiones para Unix y Windows o acceder directamente a través de internet.
Por cada concepto (sense) (por ejemplo "pencil" tiene un sólo concepto: 1 pero "car" tiene 5 conceptos) se pueden obtener:

sinónimos
terminos coordinados
hypernimos (pencil es una especie de ...)
hypónimos (... es una especie de pencil)
merónimos (partes de un pencil)
familiaridad

EuroWordNet
http://www.illc.uva.nl/EuroWordNet/
Desarrollado por el sector de Human Language Technology del Telematics Applications Programme de la Universidad de Amsterdam en conjunto con otras univeridades europeas es una base de datos léxica multilingual. Siguiendo la filosofía de WordNet crea una base de datos con WordNets en varios idiomas europeos (incluido el Español) y agrega un Inter-Lingual-Index para relacionar los distintos conceptos en distinto idiomas. Permite acceso a algunas herramientas (se destaca Periscope y una búsqueda en español) y servicios pero en general son restringidos y requiere licenciamiento pago incluso para fines académicos. El proyecto se considera completado pero muchos temas relacionados (sobre todo integración) siguen siendo investigados por la Global WordNet Association. También hay acceso a varias publicaciones.

Global WordNet Association
http://www.globalwordnet.org/
La Global WordNet Association es una organización no comercial, pública y libre que provee una platforma para la discusión, compartición y conexión de wordnets en todos los lenguajes y se basa en los trabajos de EuroWordnet y Wordnet. Enlaces útiles: "Wordnet projects" (otros proyectos: sistemas para "disambiguar", terminología especializada y significado), "Background document" (una buena introducción y detalles de los objetivos de la GWA) y "Wordnet Biblio" (bibliografía). No provee ningún otro servicio que sea de nuestro interés.

OpenCyc
Una jerarquía de 100.000 conceptos (contra 166.000 de WordNet pero los de OpenCyc son más detallados). Permite bajar la jerarquía y varias herramientas y hay enlaces a servidores en línea: ejemplo de la salida de uno de ellos

EDR
The Electronic Dictionary Research project en Japón tiene 400.000 conceptos con sus mapeos a Inglés y Japonés pero menos detallados y se distribuye en CD-ROMS que contemplan licencias académicas pagas. No hay acceso online al diccionario.

AutoMed
http://www.doc.ic.ac.uk/automed/
Esta es la página del proyecto AutoMed (Automatic Generation of Mediator Tools for HeterogeneousDatabase Integration).
Este proyecto empezó el 1º de mayo del 2001 y pertenece al Departamento de Computación del Imperial College y al departamento de Ciencias de la Computación del Birkbeck College de la Universidad de Londres.
Sus 3 principales metas son:
1. Investigar como nuestro marco teórico para transformación e integración de esquemas basado en un modelo de datos basado en grafos puede ser aplicado a problemas de integración de BD reales.
2. Investigar como la funcionalidad de procesamiento de consultas globales de un mediador puede ser automáticamente generada dada la disponibilidad de caminos de transformación entre fuentes y esquemas integrados.
3. Investigar como heurísticas y técnicas de computación pueden ser aplicadas a mejorar esquemas y a la optimización de consultas para BD heterogéneas.

El proyecto incluye investigación, implementación práctica de un prototipo de esquema de transformación y herramienta de investigación, y aplicación y evaluación de esta herramienta para la integración de fuentes de datos biológicas heterogéneas.

La página incluye listas de:
* Reportes técnicos
* Publicaciones de las conferencias realizadas y de los proyectos de los alumnos
* Distribuciones de software

Reportes técnicos

Simple Case Study: Describe al modelo HDM (Hypergraph Data Model) con sus cuatro constructores: nodal, linking, nodal-linking, constraint. Construye un modelo ER y uno relacional a partir de los constructores HDM ejemplos mediante
Automed Intermediate Query Languaje: Define un lenguaje de consulta muy similar a Haskell basado en Colections (sets, lists, bags) y Comprehensions (listas intencionales). Respalda su uso debido a que: puede completar a SQL, hay mucho trabajo de optimización en el tema, con la función fold y operadotes genéricos el lenguaje es fácilmente extensible, es muy apto para bases heterogéneas.
Automed Repositories and API: Define un MDR (Model Definitions Repository) mostrando como se representa genericamente cualquier modelo (relacional, ER, ER+, UML). Define un STR (Schemas and Transformation Repository) y sugiere el uso de una interface para a partir de un DSR (Data Source Repository) crear y manipular los MDRs y los STRs.
An Enhanced Transformation Language for HDM:.partiendo esquemas están en formato HDM se muestra como pasar mediante operaciones (addNode, addEdge) de un esquema a otro cuando hay dos bases con esquemas equivalentes y no tan equivalentes.
Schema Evolution in Heterogeneous Database Arquitecures: se presenta una nueva Aproximacion que combina integracion y evolucion de los esquemas. Estas transformaciones se diferencian de TSIMMIS, Garlic, etc. ya que estas son 'query-oriented', pero no se focalizan sobre la semántica de las bases. Automed busca un enfoque 'schema transformation-oriented' que se focaliza sobre las entradas humanas y descompone la integración en secuencia de pequeños cambios.
Data Integracion by Bi-directional Schema Transformation Rules: se describe como se conjugan versiones anteriores LAV y GAV (Local As View, Global As View) en una mas completa BAV (Both As View).
Tracing Data Lineage Using Automed Schema Transformation Pathways: comenta las mejores de este proyecto sobre versiones anteriores del mismo donde tenian poco uso de semántica. Muestra algunas consultas simples utilizando el IQL (Intermediate Query Lenguage).

Eureka
www.foreignword.com/eureka/search.asp?ViewStyle=on
idioma. inglés, francés.
Se trata de una página que ofrece el servicio gratuito de traducción y glosario de diccionarios de uso específico. No se pueden bajar diccionarios sino que el servicio es on-line.
La consulta del término o frase puede realizarse en cualquier idioma, mientras que la traducción devuelve un resultado en inglés o francés.
Los diccionarios de uso específico están en dos grados de jerarquía, es decir, dentro del diccionario referente a medicina se encuentran las distintas disciplinas. Sin embargo la consulta se puede realizar en cualquiera de los dos niveles de la jerarquía, aunque el servicio recomienda profundizar lo máximo que se pueda para restringir el resultado de la consulta.
Para poder hacer uso del servicio aparentemente se debe ser un usuario registrado. Al momento estamos esperando la confirmación de nuestra registración.

Avertissement au petit lexique de terminologie médicale
www.biam2.org//lexique.html
Es una página estática que contiene un glosario de 1700 términos referidos a la medicina, en francés. El glosario ofrece una descripción (también en francés) de cada término. El servicio es totalmente gratuito.
idioma. francés

Actualité médicale sur le web
www.e2med.com
El servicio de esta página consiste en la búsqueda de publicaciones y libros que contienen información sobre algún tema o término solicitado. idioma. francés

SPIRE. String processing and information retrieval
http://www.inesc-id.pt/spire2002
Contiene información sobre un simposio intenacional de procesamiento de strings e IR. Da información relativa al simposio pero no da acceso a artículos técnicos (estos es publican en una edición especial del Journal of Discrete Algorithms)

Direction générale de la protection de la santé
http://www.hc-sc.gc.ca/hpb/lcdc/bcrdd/hdsc97/s09_f.html
Esta página es de la Dirección General de Protección de la Salud de Canadá.
Tiene un glosario de enfermedades cardio-vasculares y accidentes cerebrales, y una lista de publicaciones sobre los temas citados, junto con un buscador.

Vulgaris medical
http://www.vulgaris-medical.com/
Esta página permite ordenar un CD ROM con una enciclopedia con dibujos, fotografías, síntomas y drogas, con un motor de búsqueda.

Ultima actualización:

UNR

Departamento de Sistemas Grupo Base de Datos

Etapa 01 - Information Retrieval

Publicaciones comentadas

Proyectos de Interés

Departamento de Sistemas
Grupo Base de Datos