The Text Summarition Project (Universidad de Ottawa)

El proyecto del que hablamos a continuación tiene como funciones generales extraer los contenidos más importantes de los textos y la aplicación de técnicas para el procesamiento de textos basado estadísticas y en inteligenia artificial.

The Text Summarition Project ha desarrollado importantes herramientas para el proceso de lenguaje natural. A través de las investigaciones llevadas a cabo se ha implementado un sistema que genera resúmenes de textos en inglés técnico. El sistema extrae automáticamente una proporción reducida del texto, que contiene los puntos más importantes y significativos del original.

Text Summarition está enfocado de manera que combina el procesamiento del lenguaje natural (Natural Language Proccesing: NLP) con la inteligencia artificial o aprendizaje de la máquina (Machine Learning: ML) para obtener un sistema eficiente y robusto.

Con las investigaciones llevadas a cabo en este proyecto se ha conseguido que el sistema realice eficientemente las siguiente tareas:

1.- Identificación de palabras clave en el texto resumido. Para ello se han aplicado reglas de identificación de palabras clave en el aprendizaje de la máquina que veremos más adelante.

2.- Selección de frases significativas o destacables. Para lo que se han utilizado técnicas basadas en la incidencia de palabras clave.

3.- Producción de un resumen aproximado, utilizando los resultados de la selección de frases significativas.

Objetivos

El objetivo principal de esta investigación se centra en construir un único sistema capaz de extraer los conceptos principales del texto. La extracción de estos conceptos se basa en pulir las propiedades ligüísticas del texto y en la estadística más básica, dando mayor énfasis al texto original.

En el transcurso de la investigación llevada a cabo en este proyecto se ha adquirido especial interés en los recursos léxicos de dominio público, en la información léxica, en el filtrado sintáctico de la información y en los análisis de frecuencia. EL resultado de todo ello ha sido una aproximación alentadora y válida al objetivo especificado anteriormente, utilizando tanto sistemas parcialmente manuales como otros parcialmente automáticos.

Las aproximaciones en la generación automática de resúmenes se desvían en dos direcciones. Por un lado, los sistemas basados en sistemas clásicos de inteligencia artificial, como por ejemplo la dependencia conceptual. Y por otro lado, los sistemas que generan resúmenes a partir de la construcción de una representación del conocimiento o contenido del texto, que permite la selección y modificación de elementos del texto original.

Por último, los sistemas heurísticos como pueden ser los basados en la ocurrencia, concurrencia y exclusión de frases no significativas, se pueden incluir en la segunda de las clases mencionadas, aunque los resultados obtenidos suelen ser bastante menos aceptables.

En las investigaciones llevadas a cabo en este proyecto se propone la generación de resúmenes basada en el procesamiento superficial del texto original. En un principio el sistema fue implementado y se comprobó su eficacia, para posteriormente redireccionar el sistema hacia técnicas de procesamiento de textos, las cuales permiten al sistema “aprender” de las continuas búsquedas y acciones realizadas por él en determinadas áreas relacionadas.

Trabajos relacionados

Los criterio que se han seguido a la hora de llevar adelante este proyecto, a partir de otros trabajos y estudios anteriores, son los siguientes:

Frecuencia y distribución de las palabras en el texto.

Posición de las frases, teniendo muy en cuenta la estructura del texto.

Presencia de palabras clave

Presencia de indicadores.

Métodos y aproximaciones propuestos

El desarrollo de métodos de computación lingüística (solos o en combinación con técnicas probabilísticas) han hecho del procesamiento del lenguaje natural un componente viable en la generación automática de resúmenes. Y actualmente, recientes trabajos sobre la búsqueda de información y resumen de documentos han incorporado a las técnicas habituales otras basadas en el conocimiento lingüístico, como por ejemplo la sintaxis, relaciones y discursos.

Sin embargo, en lo concerniente a la cohesión del texto extraído sigue siendo uno de los apartados que sigue sin ser resuelto de una manera totalmente eficiente en el área que estamos estudiando.

ARRIBA

Técnicas

Summarition Text es un sistema que produce resúmenes como resultado del análisis del texto en varios niveles:

Procesamiento lingüístico del texto que se desea resumir.

Identificación de palabras clave usando las reglas que veremos más adelante.

Selección de frases significativas por la aparición de palabras clave.

Cohesión de la estructura del resumen a partir de la secuencia de frases extraídas.

Métodos

Procesamiento lingüístico

Este método consiste en obtener la raíz de las formas y etiquetar cada palabra, para lo cual se utiliza una base de datos léxica (WordNet), intentando solucionar la ambigüedad de ciertas palabras técnicas.

La experiencia en la identificación de conceptos técnicos en el texto ha direccionado la investigación hacia el uso de conocimiento sintáctico y análisis de frecuencia del texto para clasificar las frases poco importantes y las más significativas dentro de cinco categorías técnicas. Y en este caso la ambigüedad de las categorías sintácticas se soluciona en base a técnicas estadísticas aplicadas al texto.

En otras palabras, si el dominio del texto se conoce, la mayoría de los conceptos del texto se pueden buscar en la base de datos terminológica para ese dominio o categoría técnica, y así solucionar el problema de la ambigüedad de los conceptos técnicos en un alto grado.

Selección de palabras clave

Posiblemente la extracción de palabras clave sea la parte más sencilla en la generación de resúmenes. Su identificación se produce a través de la frecuencia de conceptos candidatos en un corpus extenso. En concreto es este sistema se ha experimentado con el sistema SMART de la Universidad Cornell.

Como alternativa a este método, si una colección de textos pertenece a un dominio técnico concreto, las palabras clave se pueden determinar gracias a métodos de aproximación con reglas inductivas de aprendizaje del sistema, como hemos visto anteriormente.

Determinación de frases significativas

El resumen automático a partir del nivel de las palabras clave no es capaz de generar una presentación formal del texto. Por ello se toman frases completas que se combinan con estas palabras clave y con una consideración más o menos pulida del resumen para alcanzar al objetivo final.

Esta selección se realiza en base a indicadores sintácticos, especialmente conjunciones, como también con las palabras clave.

Cohesión de la estructura textual del resumen

La mera secuencia de frases extraídas del texto original es una solución poco efectiva. A pesar de que existen técnicas y nuevas líneas de estudio en este sentido, como por ejemplo el truncamiento de frases, Summarition Text no ha conseguido obtener resultados más favorables. Es por ello que se ha optado por un método aceptable, como es el uso de una estructura de grupos de frases en un árbol de relaciones. Uno de estos grupos está guiado por elementos que denotan ejemplificación, otro que denota especialización y otro que engloba aspectos más generales.

Esta aproximación en la selección de frases del texto original y situación en la estructura del resumen ha sido la solución que mejor resultado ha ofrecido, y por tanto la que se ha incorporado al sistema.

Evaluación

La evaluación de la calidad de un resumen es una tarea obvia, aunque es un proceso ambiguo, ya que se ha comentado mucho sobre cuáles son los parámetros a seguir y si son fiables, ya no solo para evaluar un resumen generado automáticamente sino también para uno generado manualmente.

Sin embargo, algunos de los criterios que se siguen en la evaluación de los resúmenes producidos por este sistema son la precisión, entendimiento, brevedad, contenido extraído del original, etc.

PAGINA PRINCIPAL