UNR

Departamento de Sistemas
Grupo Base de Datos

Inicio

Etapa 01: IR

Etapa 02: IE

Etapa 03: Desarrollo

Reportes técnicos

Etapa 02 - Information Extraction

En esta sección...

Análisis del estado del arte de las metodologías y tecnologías para la Extracción de Información
Selección de técnicas para la etapa de Implementación
Diseño y planificación que combine las técnicas seleccionadas es un esquema funcional

El material recopilado y estudiado se encuentra en la sub-sección

Publicaciones comentadas

Publicaciones comentadas

Information Extraction by Text Classification
http://citeseer.nj.nec.com/kushmerick01information.html
La clasificación de texto (TC) es la tarea de asignar una o más categorías a un documento. Por ejemplo asignar las categorías "Internacional", "Deporte", "Negocios", etc, a artículos de diarios. En contraste la extracción de información (IE) es la tarea de buscar fragmentos particulares de documentos que instancien alguna información necesaria o concepto. Por ejemplo un sistema IE puede identificar fragmentos de texto que expresen el título, la compañía y salario de un aviso de trabajo.
Estas dos técnicas tienen generalmente poca interacción. Muchos sistemas IE desarrollados usan TC para asegurarse que los documentos a ser procesados van a contener los datos que se esperan. Por otro lado, algunos sistemas TC asignan categorías a fragmentos extraídos durante la etapa de extracción.
En este paper se describen 2 dominios reales en los cuales se integran estas dos técnicas, usando el modelo de Markov y clasificadores de texto.

Document Classification
http://isp.imm.dtu.dk/thor/projects/multimedia/textmining/node11.html

Unsupervised Documents Classification
Las técnicas "Document clustering" y "Unserpervised document classification" son usadas para mejorar la IR. Se basan en que los documentos que tienen contenidos similares son relevantes para la misma consulta. Una colección de textos es agrupada en grupos que tienen contenidos similares. La similitud entre documentos es usualmente medida con los coeficientes asociativos del "Vector Space Model".
Este modelo puede ser dividido en tres etapas. En la primera se extraen los términos del contenido del documento. En la segunda etapa se le asigna un peso a cada término y en la última los documentos son rankeados con respecto a una medida de similitud con la consulta.
Existen tres factores principales para calcular el peso de un término: frecuencia de términos, frecuencia de la colección y factor de normalización del tamaño. El primero describe el contenido del documento, el segundo discrimina un documentos de los demás y el último es usado debido a que los documentos largos tienen mayor cantidad de términos y por lo tanto mayor posibilidad de ser elegidos que los documentos cortos. Los coeficientes asociativos se basan en el producto interno entre el vector del documento y el vector de la consulta, donde las palabras solapadas indican la similitud. Este producto es generalmente normalizado.
Los algoritmos de agrupamiento jerárquicos son los más usados.
También pueden utilizarse otros métodos en vez de la similitud de vectores de documentos..
El modelo de redes neuronales fue implementado para el agrupamiento de documentos sin supervisión. El problema de agrupar documentos en línea es el tiempo requerido. Recientemente surgieron algoritmos de agrupamiento más rápido. "Suffix tree clustering" es un método de agrupamiento nuevo que se basa en las frases compartidas entre documentos, es rápido y fue diseñado para ser usado con documentos de la web.

Supervised Document Classification
El reconocimiento de patrones y "machine learning" han sido aplicados para la clasificación de documentos. La frecuencia de términos es usada. Los clasificadores utilizados son: redes neuronales, support vector machine, genetic programming, clasificador bayesiano, etc.

Discovering Informative Content Block From Web Documents
http://citeseer.nj.nec.com/lin02discovering.html [lin02discovering.pdf]
Propone un nuevo enfoque para descubrir contenido informativo de un conjunto de páginas web tabulares que pertenecen a un sitio. Primero se dividen las páginas en bloques de contenido de acuerdo al tag.
Estos son representados en un árbol. Luego, basándose en la ocurrencia de cada término en el conjunto de páginas se calcula la entropía para cada término. Estos términos representan keywords. Se calcula la entropía de cada bloque como la suma de las entropías de los términos contenidos en el bloque. Se analiza este valor y se clasifica el contenido del bloque en dos categorías:

redundante (parte común: encabezado, menu, navegación)
informativo (parte distinguible de una página)

Si la entropía es mayor a cierto valor determinado o cerca de 1, el contenido es clasificado como redundante, ya que la mayor parte de sus términos aparecen en todas las páginas del mismo sitio. Si la entropía es menor a cierto valor determinado, el contenido del bloque es informativo, debido a que los términos del bloque son distinguibles de los otros bloques. Estos términos rara vez aparecen en otras páginas.

ACIRD: Intelligent Documents Organization and Retrieval
http://citeseer.nj.nec.com/lin02acird.html
En este paper se presenta el sistema ACIRD que utiliza técnicas de machine learning y data mining para organizar y extraer documentos de la web. Consiste en tres partes: adquisición de conocimiento, clasificador de documentos y el motor de búsqueda. La primera aprende el conocimiento de clasificación a partir de un conjunto de documentos clasificados. Este es utilizado por el clasificador para clasificar nuevos documentos como pertenecientes a una o más clases en una jerarquía de clases. De acuerdo con el análisis de la consulta el sistema presenta al usuario un índice. Este es usado por el usuario para extraer clases a las cuales pertenecen los documentos que desea obtener. De esta manera el sistema ayuda a los usuarios a visitar y a encontrar la información que considere de interés de un conjunto generalmente extenso de documentos rankeados.

An Improves Search Tool for the WWW
Moisés Homero Sánchez López, Aurelio López López
http://citeseer.nj.nec.com/337448.html
Permitir asignar pesos a los términos de búsqueda
Creamos un motor de búsqueda que provee más opciones de búsqueda (incluyendo peso a lo términos) que las herramientas existentes. Improved Search Engine (ISE) es un paquete de software hecho para incorporar la mayoría de las características básicas contempladas en los últimos motores de búsqueda. El sistema de indexado permite a los usuarios suplir una lista de palabras que no desean incluir en el índice.
ISE trata de encontrar el resumen de cada documento y lo guarda. Permite al usuario hacer búsquedas flexibles una vez que el índice se ha construido. Soporta consultas booleanas y asignación de peso a los términos; y permite el uso de sinónimos y stemming de palabras.
El usuario tiene la posibilidad de elegir entre dos fórmulas para añadir peso:
La frecuencia de documento inverso y el ratio de señal de ruido.
En la primer fórmula, la importancia de los términos es proporcional a la frecuencia de ocurrencia standard de cada término en cada documento e inversamente proporcional a la frecuencia total en todos los documentos en que los términos ocurren. El ratio de señal de ruido cuenta la concentración de un término en una colección de documentos. Cuando un término ocurre en cada documento de la colección un número idéntico de veces, el ruido es maximizado. De lo contrario, para una distribución perfecta, cuando un término aparece solo en un documento, el ruido es cero.
El sistema de búsqueda parsea la consulta, leva la pregunta y retorna los documentos. Hay dos tipos de consultas aceptadas por ISE: booleanas y con peso.
Por ejemplo:
Bolean: ([bag] or marsupial) and Australian and animals
Weighted: retrieval .3 information .6 automatic .1

El uso de corchetes significa que ISE puede usar sinónimos de esa palabra. Los sinónimos se extraen de WordNet. Una vez que las consultas son parseadas y usadas para la búsqueda, la salida es una lista de pares (documento, resumen) en orden decreciente de acuerdo a su similitud con la consulta dada por el usuario.
ISE está disponible on-line. Puede ser usado para búsqueda en otros idiomas como el español.

Documento Title Patterns in Information Retrieval
Manuel Montes y Gómez, Alexander Gelbukh, Aurelio López López
http://citeseer.nj.nec.com/305572.html
Determinar las intenciones del autor en el título del artículo
Revelaremos la unión entre el título del documento y las intenciones del autor. Describiremos un método para la extracción automática de las intenciones y un posible uso de esta información en sistemas IR. La intención del documento está gramáticamente asociada con algunos verbos teniendo el tema principal del documento como su sujeto.
La tarea de determinar la intención del documento consiste en encontrar verbos cuyas acciones son realizadas por el documento. El título es la parte del documento más usada para tareas como indexación y clasificación.
Podemos notar los siguientes hechos sobre la relación entre títulos e intenciones:

Intenciones se asocian con un patrón de sustantivo:
- Un sustantivo es seguido por una preposición of o to en el comienzo del título
- Un grupo de sustantivos es seguido por una preposición "of" o "to"
Intenciones se asocian con un patrón de gerundios:
- El gerundio está al comienzo del título
- La secuencia adjetivo-gerundio comienza el título
- Un grupo preposicional con gerundios está en cualquier lado excepto el final

El sistema de extracción de intención que desarrollamos sigue un esquema de extracción de información. Contiene un tagger, un componente de filtro, un parser y un módulo de generación de los datos de salida.

Automatic Information Extraction from Documents in WWW
Aurelio López López, Ma. Pilar Tapia Melchor
http://citeseer.nj.nec.com/331812.html
Extracción automática de las características de un documento identificando secciones de interés.
En un sistema de IR, la representación de texto es realizada típicamente por asociación de un grupo de keywords en el texto. La falta de estructura en la representación de keywords limita la versatilidad y efectividad de los sistemas IR. Este trabajo tiene como objetivo principal diseñar un proceso que permita extraer automáticamente características de documentos y generar una representación de ellos, proveyendo detalles de su contenido.
Primero se efectúa un método de IR, antes de la búsqueda detallada. Este método consiste en dos niveles de representación de documentos, donde el primer nivel sirve como el primer medio para acceder a la descripción de documentos y el segundo nivel ayuda a refinar la búsqueda al darle más detalles.
El procesamiento del segundo nivel comienza con un conjunto de documentos que son el resultado de una primera búsqueda basada en keywords. Un análisis se lleva a cabo en estos documentos identificando cada una de las secciones de las que se compone, y extrayendo las secciones de interés.
Entonces, procede a identificar el rol sintáctico de cada una de las palabras o elementos de cada sentencia de la sección, asignando su tag respectivo. Estos roles pueden ser verbo, adjetivo, sustantivo, etc.

An Efficient and Flexible Format for Linguistic and Semantic Annotation
http://dfki.de/~paulb/lrec2002.dtd.ps
Dentro del marco del análisis de un "cuerpo" de información propone usar anotación lingüística a través de herramientas que permiten hacer: tagging de partes de las oraciones, análisis morfológico y reconocimiento de frases.
Y también propone utilizar anotación semántica, dividiendo el documento en oraciones y cada una en términos encontrados en distintos diccionarios, tesauros u otras fuentes de información.
Propone usar EuroWordNet para diferenciar los términos de dominio espécifico de los términos del lenguaje de uso general

Técnica: Usar EuroWordNet para distinguir términos no específicos.

MuchMore - SOA: (buscar en Etapa-01, Proyectos de interés)
Para la extracción de términos conviene usar patrones (ejemplo ANN - adjetivo, sustantivo, sustantivo). Los patrones son espécificos para cada idioma. Esto en casos prácticos aumentó la precisión desde un 67% a un 92%

Técnica: Usar patrones (ej. NNA noun, noun, adjetive)

Information Extraction form World Wide Web - A Survey
Line Eikvil, Julio 1999
http://citeseer.nj.nec.com/eikvil99information.html
Menciona las "Message Understanding Conferences" como factor importante de los desarrollos en el área de IE y comenta que un precursor de la IE fue y es el campo de comprensión de texto.
El peso que se le dá a la precisión y al recall para medir el rendimiento de un sistema no es obvio y para eso se usan las F-medidas: F=(B2+1) PR / B2 P+R donde B2 es beta al cuadrado, P y R abreviaturas de Precisión y Recall.
Beta determina cuanto se favorece al recall sobre la precisión y beta=1 es el valor que se usa más frecuentemente que se corresponde con darle el mismo peso a la precisión y al recall.

Afirma que la IE puede encararse desde dos enfoques diferentes: el de la ingeniería del conocimiento y el del entrenamiento automático.
Enfoque de la ing. del conocimiento: usa conocimiento del dominio espeíficio para expresar reglas. El rendimiento del sistema está muy influído por la calidad del experto y la del ingeniero de conocimiento. El desarrollo puede ser laborioso y puede no disponerse full time de un experto.
Enfoque del entrenamiento automático: no necesita de un experto (sí conocimientos sobre el dominio y un conjunto de documentos de entrenamiento).
Es más rápido que el otro enfoque pero requiere de un volúmen suficiente de datos de entrenamiento.
Seguidamente el documento hace la distinción de IE en textos libres, estructurados y semiestructurados
Aplicando esta distinción a documentos web realiza una categorización de páginas web:

estructuradas: el mismo patrón se repite
semiestructuradas: pueden faltar atributos, pueden aparecer atributos multivaluados, permutaciones en el orden de atributos y excepciones.
desesctructuradas: se requiere de conocimiento lingüístico.

Comenta que las páginas generadas automáticamente suelen ser muy estructuradas y las codificadas a mano suelen estar llenas de excepciones.
Las técnicas de NLP tradicional no se adaptan bien para páginas web y tienden a demorar mucho.
Sugiere utilizar la organización y el enlace entre páginas para obtener más información. Así clasifica las páginas (típicamente generadas por bases de datos online) como:

resultado de una página y un nivel.
resultado de un nivel, multipágina.
resultado de dos niveles.

Técnicas:

dividir la página en estructuradas/semiestructuradas/desesctructuradas
no usar NLP tradicional: no se adapta bien a HTML y es lenta
seguir hyperlinks para obtener toda la información.
Analizar las páginas índice: si son de uno o dos niveles y si son resultados multipágina.

Visualisation Techniques for Analysing Meaning
http://muchmore.dfki.de/pubs/visualisation.ps
Resume técnicas vectoriales y gráficas para representar similaridad/familiaridad de términos.
Técnica: (posible) usar applet o cgi de http://infomap.stanford.edu/bilingual o http://infomap.stanford.edu/graphs para sugerir palabras relacionadas.

The Web as Database: New Extraction Technologies and Content Management
http://www.infotoday.com/online/OL2001/adams3_01.html
Resumen del paper de Katherine Adams (2001).
Temas: Conceptos de Information Extraction, Diferencias entre IR e IE, Inducción de Wrapper, Procesamiento de lenguaje natural (NLP), Machine Learning, XML e IE, La Web oculta.

Extracción de Conocimiento a partir de Información no Estructurada
José Hernandez Orallo
http://www.dsic.upv.es/~jorallo/docent/doctorat/ [t3.pdf]
Presenta varias técnicas para la clasificación y el rankeo:

mide el porcentaje de veces que aparecen los terminos
tiene en cuenta que los links-in pueden tener una referencia descriptiva
refuerza el valor con los links-in (caracteristica social)
- se ignoran links duplicados
- se ignoran links del mismo sitio (son para navegar)
define el concepto de 'autoridades' y 'hubs' creando una matriz
- intenta crear clases de equivalencia
- se refuerzan las clases que se entrelazan y que tienen objetos en comun (titulos, documentos)
habla de xml-ql y xml-mining

Learning Information Extraction Rules for Semi-structured and Free Text
Stephen Sodenland
http://citeseer.nj.nec.com/soderland99learning.html
Es una revision de (Eikvil, 1999).
Comenta las particularidades y estadisticas de un sistema (WHISK).
Sugiere tener en cuenta el tamaño de los , ademas de < B >, < i >

Introduction to Information Extraction Tecnology
http://www.ai.sri.com/~appelt/ie-tutorial/IJCAI99.pdf
Hay dos formas de encarar el desarrollo de IE:

Knowledge Engineering
- Gramaticas construidas a mano
- Patrones descubiertos por humanos a traves de inspección de textos
- mucha calibración en "hill climbing"
Trainable System
- no se necesita un experto a la hora del desarrollo
- son mas portables
- puede requerir grande cantidades de datos para aprender
- hay que enseñarle cosas como "nombres de personas, empresas" para no confundir "General Electric" como un militar

Deshuese de un IE System:

Tokenization, para nosotros es facil, por los espacios y puntuaciones. se complica para los japoneses
Morphological procesing. intenta identificar tags para resaltar algo, el sentido de las palabras (lexicon), nombres (catalogos), etc
Syntactic Analysis. las preposiciones (en especial "of", "to", "for") pueden dar una informacion oculta muy importante a la hora de armar Noun Phrases.
Co-reference in IE
- Relacionar nombres con alias (ej: IBM, International Business Machines, Big Blue)
- Relacionar el tiempo (ej. ayer, hace algunos dias, en el 2000)
- Relacionar cantidades (ej. un conjunto-muchos elementos)
Domain Analysis.

Information Extraction, a User Guide
Hamish Cunningham, 1999
http://www.dcs.shef.ac.uk/~hamish/IE/userguide/main.html [Cun99b.ps]
Realiza una introducción a la IE y la compara con la IR.
Tipos de IE:

Named entity recognition (NE). encuentra y clasfica nombres, lugares, etc
Creference resolution (CO). identifica relaciones entre entidades y textos
Template element construction (TE). describe los atributos de una entidad
Template relation construction (TR). encuentra relaciones entre entidades TE
Sscenario template production (ST). resuelve particularidades del dominio

Information Extraction Based on Pattern Discovery
http://citeseer.nj.nec.com/chang01iepad.html [chang01iepad.pdf]
Pretenden armar un "extractor" que identifique en forma heurística patrones que tengan las paginas, para extraer la parte importante de la informacion.
Esto tiene como ventaja que no requiere entrenamiento por parte del humano.
El Extraction Rule Generator tiene como submodulos: input HTML / Token traslator / PAT Tree constructor / Validator / Rule composer
Una vez que las rules fueron extraidas el usuario selecciona algun candidato que tenga la información deseada.
Se aplica un algoritmo para extraer info de paginas que respondan al mismo patron.
Un tipico algoritmo de pattern matching es el: Knuth-Morris-Pratt.
Se pueden definir dos tipos de tags:

block-level (define estructura): Hi, P, Blockquote, UL, OL, LI, DIV, CENTER, FORM, HR, TABLE, BR
text-level (define formato): EM, STRONG, I, B, U, TT, SMALL, FONT, A, AREA

Segun el nivel de detalle que se quiera usar se puede usar solo un level, o ambos.
Se comparan los distintos arboles y se busca alguna medida de distancia para agruparlos
Se intenta generar patrones generales (con uso de comodines), para patrones que se parecen.

Information Extraction in Structured Documents using Tree Automata Induction
http://citeseer.nj.nec.com/506574.html [IE-in-structures.pdf]
Como HTML y XML tiene estructura de arbol se intentará explorar dicha estructura
Para el tratamiento de IE:

un-estructured: se usan técnicas de PNL
structured: IE system from semi-structured documents

Se intenta linealizar el arbol en un string.
Un arbol se puede representar como funciones con aridad, donde los paramtros son los hijos (ej: parent(child-01(...), child-02(...))).
Para ello conviene pensar antes convertir el arbol a arbol-binario.
Se presenta un algoritmo k-testable, que clasifica arboles si contiene subarboles de longitud k (el numero k se puede ajustar, creo que empiezan por 3)

Automatic Extraction of Semantically-Meaningful Information from the Web
Resumen del paper de Rafael Corchuelo, José Luis Arjona y Antonio Ruiz (doctor y profesores respectivamente del departamento de Ciencias de la computación de la universidad de Sevilla)
http://www.upgrade-cepis.org/issues/2002/3/up3-3Corchuelo.pdf [up3-3Corchuelo.pdf] (copia local)
Publicado en: The European Online Magazine for the IT Professional. Vol.III,No.3,June 2002
http://www.upgrade-cepis.org
Técnicas:
Utilizar un "indexer" para recorrer las pàginas de ìndices.
Observar la similitud entre pàginas relacionadas para descartar los sectores sin informaciòn (esto no se deriva directamente del paper sino que surgiò de considerar adaptaciones sencillas de la inducciòn de wrappers).

Ultima actualización:

UNR

Departamento de Sistemas Grupo Base de Datos

Etapa 02 - Information Extraction

Publicaciones comentadas

Departamento de Sistemas
Grupo Base de Datos