UNRDepartamento de Sistemas
|
||||
Inicio | Etapa 01: IR | Etapa 02: IE | Etapa 03: Desarrollo | Reportes técnicos |
Mecanismos de la Recuperación de Información en la WWW
http://dmi.uib.es/people/adelaida/tice/modul6/memfin.pdf
Comenta las principales diferencias entre buscadores, por directorio y por búsqueda.
Recomienda el uso de XML, como fuente y como fuente intermedia.
Describe la búsqueda 'fuzzy' con el uso de operadores booleanos, de operadores de presencia
y ausencia (+ y -), conjuntamente con parámetros de proximidad y adyacencia.
Para un refinamiento la primer búsqueda trata de encontrar clases que se distingan por
determinadas palabras claves.
Univ. Leicester - IR for Medicine
http://www.le.ac.uk/library/teach/irsm/index.html
Se trata de un tutorial para el armado de un IR para medicina. Es ameno pero muy
introductorio. Ofrece un pequeño ejemplo.
Sistemas de Recuperación de Información
http://www.um.es/gtiweb/fjmm/sarisite/SARI-trans-T1/SARI-trans-T1.PPT
Transparencias de carácter introductorio. Comenta los modelos. booleano, booleano
extendido (archivo invertido), probabilístico (búsqueda por adyacencia), búsqueda por
cadenas y espacio vectorial (grafos semánticos).
Asegura que los booleanos extendidos a pesar de ser criticados son eficientes.
Aconseja la consulta realimentada para refinar.
Operaciones sobre términos: stemming (mezcla de palabras relacionadas),
truncamiento (con uso de comodines), ponderación (asigna un valor numérico basado en la
estadística de los documentos encontrados).
Operaciones sobre documentos: identificación (ID), estructuración (en campos),
clustering (por similitud).
Medida de Lancaster (es una clasificación para IRs): exhaustividad (completitud),
precisión, tiempo de respuesta, esfuerzo del usuario, formato.
Univ. Kansas - The Application of Corpus Linguistics to Information Retrieval
http://www.ittc.ukans.edu
Realiza una búsqueda de textos analizando el contexto en el que se encuentran.
Se presentan varios papers de diversos estudios al respecto, algunos son:
Computing Research Laboratory - Unicode Retrieval System Architecture
http://crl.nmsu.edu/Research/Projects/tipster/ursa/
Comentan en líneas generales los modos de búsqueda conocidos pero en particular
muestra como para este proyecto en particular la interfase de feedback se apoya en el
uso de miniaturas (imágenes) que representan los documentos, con marcas coloreadas según
las apariciones de las palabras claves, según sus ubicaciones en el texto.
Guided Tour of Ontology
http://www.jfsowa.com/ontology/guided.htm
(copia local)
Presenta con mucha claridad un panorama general de la ontología
(resumen)
y los desarrollos actuales en el tema (con un glosario de términos usuales
y una sección sobre compartición y mezcla de ontologías).
Además contiene publicaciones sobre temas especializados y un tutorial
de lógica y matemática.
The semantic Web: Yet Another Hip?
http://www.cs.vu.nl/~dieter/research.html
Ying Ding, Dieter Fensel, Michael Klein and Borys Omelayenko.
Division of Mathmatics & Computer Science, Vrije Universiteit Amsterdam.
En este paper se resumen las investigaciones en el área de la web semántica basándose
especialmente a la tecnología de ontologías.
(resumen)
National Library of Medicine
http://www.nlm.nih.gov/medlineplus/dictionaries.html
Presenta enlaces hacia varios sitios que proveen diccionarios de terminología
médica. En general permiten consultar en línea los diccionarios
y algunos son multilinguales.
Es una página de la biblioteca nacional
de médicina de EEUU, que además permite acceder a artículos
médicos en línea a través de la página http://www.ncbi.nlm.nih.gov/entrez/query.fcgi.
Otro lugar interesante para visitar es el NLMGateway
(http://gateway.nlm.nih.gov/gw/Cmd) que permite buscar en varios sistemas de
recuperación de información de la NLM (National Library of Medicine).
MuchMore
http://muchmore.dfki.de/pub.html:
Es una página con las publicaciones relacionadas con el proyecto MuchMore
(http://muchmore.dfki.de/). El proyecto
MuchMore desarrolla teorías con el objetivo de realizar un prototipo
de un sistema multilingual de información medicinal - concretamente
alemán-inglés -. La página índice del proyecto está
dividida en secciones: "about", "publications", "partners",
"contacts", "home".
La página "about" contiene un resumen del enfoque,
las tecnologías y las tareas vinculadas al proyecto.
La página "partners" contiene seis enlaces hacia sitios
involucrados en el proyecto: varias universidades (europa y EEUU) y dos empresas.
La página "contacts" contiene información sobre
los coordinadores del proyecto. (Es en el DFKI, Alemania).
La página "home" contiene una sencilla portada con los
enlaces hacia las restantes secciones.
La página que más nos interesa es "publications":
está a su vez dividida en seis enlaces distintos que describo a coninuación:
Wordnet: una base de datos léxica para el lenguaje inglés.
http://www.cogsci.princeton.edu/~wn/
Desarrollada por el Cognitive Science Laboratory en la Universidad de Princeton
es una base de datos léxica donde los sustantivos, verbos, adjetivos
y adverbios se organizan en conjuntos de sinónimos que representan un
concepto subyacente. Se pueden obtener versiones para Unix y Windows o acceder
directamente a través de internet.
Por cada concepto (sense) (por ejemplo "pencil" tiene un sólo
concepto: 1 pero "car" tiene 5 conceptos) se pueden obtener:
EuroWordNet
http://www.illc.uva.nl/EuroWordNet/
Desarrollado por el sector de Human Language Technology del Telematics Applications
Programme de la Universidad de Amsterdam en conjunto con otras univeridades
europeas es una base de datos léxica multilingual. Siguiendo la filosofía
de WordNet crea una base de datos con WordNets en varios idiomas europeos (incluido
el Español) y agrega un Inter-Lingual-Index para relacionar los distintos
conceptos en distinto idiomas. Permite acceso a algunas herramientas (se destaca
Periscope y una búsqueda en español) y servicios pero en general
son restringidos y requiere licenciamiento pago incluso para fines académicos.
El proyecto se considera completado pero muchos temas relacionados (sobre todo
integración) siguen siendo investigados por la Global
WordNet Association. También hay acceso a varias publicaciones.
Global WordNet Association
http://www.globalwordnet.org/
La Global WordNet Association es una organización no comercial, pública
y libre que provee una platforma para la discusión, compartición
y conexión de wordnets en todos los lenguajes y se basa en los trabajos
de EuroWordnet y Wordnet. Enlaces útiles: "Wordnet
projects" (otros proyectos: sistemas para "disambiguar",
terminología especializada y significado), "Background
document" (una buena introducción y detalles de los objetivos
de la GWA) y "Wordnet Biblio"
(bibliografía). No provee ningún otro servicio que sea de nuestro
interés.
OpenCyc
Una jerarquía de 100.000
conceptos (contra 166.000 de WordNet pero los de OpenCyc son más
detallados). Permite bajar la jerarquía y varias herramientas y hay enlaces
a servidores en línea: ejemplo de la salida de
uno de ellos
EDR
The Electronic Dictionary Research
project en Japón tiene 400.000 conceptos con sus mapeos a Inglés
y Japonés pero menos detallados y se distribuye en CD-ROMS que contemplan
licencias académicas pagas. No hay acceso online al diccionario.
AutoMed
http://www.doc.ic.ac.uk/automed/
Esta es la página del proyecto AutoMed (Automatic Generation of
Mediator Tools for HeterogeneousDatabase Integration).
Este proyecto empezó el 1º de mayo del 2001 y pertenece al Departamento
de Computación del Imperial College y al departamento de Ciencias de
la Computación del Birkbeck College de la Universidad de Londres.
Sus 3 principales metas son:
1. Investigar como nuestro marco teórico para transformación e
integración de esquemas basado en un modelo de datos basado en grafos
puede ser aplicado a problemas de integración de BD reales.
2. Investigar como la funcionalidad de procesamiento de consultas globales de
un mediador puede ser automáticamente generada dada la disponibilidad
de caminos de transformación entre fuentes y esquemas integrados.
3. Investigar como heurísticas y técnicas de computación
pueden ser aplicadas a mejorar esquemas y a la optimización de consultas
para BD heterogéneas.
El proyecto incluye investigación, implementación práctica de un prototipo de esquema de transformación y herramienta de investigación, y aplicación y evaluación de esta herramienta para la integración de fuentes de datos biológicas heterogéneas.
La página incluye listas de:
* Reportes técnicos
* Publicaciones de las conferencias realizadas y de los proyectos de los alumnos
* Distribuciones de software
Eureka
www.foreignword.com/eureka/search.asp?ViewStyle=on
idioma. inglés, francés.
Se trata de una página que ofrece el servicio gratuito de traducción
y glosario de diccionarios de uso específico. No se pueden bajar diccionarios
sino que el servicio es on-line.
La consulta del término o frase puede realizarse en cualquier idioma,
mientras que la traducción devuelve un resultado en inglés o francés.
Los diccionarios de uso específico están en dos grados de jerarquía,
es decir, dentro del diccionario referente a medicina se encuentran las distintas
disciplinas. Sin embargo la consulta se puede realizar en cualquiera de los
dos niveles de la jerarquía, aunque el servicio recomienda profundizar
lo máximo que se pueda para restringir el resultado de la consulta.
Para poder hacer uso del servicio aparentemente se debe ser un usuario registrado.
Al momento estamos esperando la confirmación de nuestra registración.
Direction générale de la protection de la santé
http://www.hc-sc.gc.ca/hpb/lcdc/bcrdd/hdsc97/s09_f.html
Esta página es de la Dirección General de Protección de
la Salud de Canadá.
Tiene un glosario de enfermedades cardio-vasculares y accidentes cerebrales,
y una lista de publicaciones sobre los temas citados, junto con un buscador.
Vulgaris medical
http://www.vulgaris-medical.com/
Esta página permite ordenar un CD ROM con una enciclopedia con dibujos,
fotografías, síntomas y drogas, con un motor de búsqueda.