Sistemas de Indización Automatizada

1.Introducción

2.Esquematización de los métodos de indización y sus correspondientes programas informáticos.

3.Sistemas de indización automática:

3.1 SMART

3.2 ALETH

3.3 RESEARCHINDEX

4.Breve comparación programas SMART - ALETH

5.Conclusiones

6. Bibliografía

1.Introducción

En los años cincuenta y sesenta se produjo un incremento exponencial de la información científica. Por estos motivos se fueron ideando sistemas de información cada vez más operativos, a la vez que aumentó el número de investigaciones sobre el tratamiento de la información con la finalidad última de atender de forma más eficaz y rápida las necesidades de información de los científicos. Consecuentemente, se fue generalizando la idea de que el ordenador constituía una herramienta muy útil para el procesamiento de textos y en especial para la indización, dado que se consideraba al ordenador objetivo en las operaciones repetitivas. De esta forma, se pretendía evitar que una persona pudiera indizar un documento de forma diferente en momentos distintos o que dos indizadores representaran un documento con términos desiguales. Además, una máquina es generalmente exacta y precisa en las operaciones, por lo que consideraban que se podrían minimizar los errores en la selección de términos para la indización.

Por tanto, el análisis automático de textos se convirtió en un árduo tema de investigación.

El presente trabajo pretende presentar, de manera esquemática, los sistemas de indización y de resumen automático existentes en el mercado. Para ello empezaremos con una breve introducción a lo que es el proceso de indización y resumen y más concretamente la automatización de ambos procesos.

La indización es un proceso que tiene como fin captar y representar el contenido de un documento. El proceso conlleva dos etapas:

1.- Identificación de los conceptos en lenguaje natural que representan el contenido de un documento

2.- Traducción de estos conceptos a su expresión por medio de un lenguaje controlado (normalizado).

La indización, por tanto, es uno de los procesos más complejos del proceso técnico. Esta complejidad es debida a la ausencia de normalización plena, tanto en la definición de la materia como en las operaciones a realizar.

Estas complejidades se agravan cuando se intenta recurrir a la forma automatizada de la indización.

Tipología de los métodos usados para la indización y el resumen automatizado:

1.- Métodos no lingüísticos que agrupa a los estadísticos, la atribución de pesos, los probabilísticos, y los basados en técnicas de agrupamiento o de clustering. 2.- Métodos lingüísticos. A partir de los años cincuenta se comenzó a trabajar en el PLN y desde el primer momento, estas investigaciones estuvieron íntimamente relacionadas con disciplinas como la lingüística formal y las ciencias de la computación entre otras. Surgían en estos años, distintos caminos de estudio. Por un lado, ensayos, con un objetivo práctico encaminados a la traducción automática, y por otro lado, trabajos teóricos dirigidos por N. Chomsky sobre formalización del lenguaje, y paralelamente a estas dos direcciones, el comienzo de actividades en Inteligencia Artificial que incluían aspectos del procesamiento del lenguaje natural. Posteriormente, a finales de los sesenta, se planteó la necesidad de entrar de lleno en la comprensión del lenguaje natural, que fue sustituida años más tarde por un fuerte avance en el tratamiento de la sintaxis, en términos de formalismos y de algoritmos de análisis. Si bien la teoría lingüística y la práctica computacional pocas veces convergieron, hasta aproximadamente la década de los ochenta.

A principios de los sesenta es cuando comienzan a incorporse tímidamente a la indización automática aspectos del PLN ya que, algunos investigadores intuían que la aplicación de medios lingüísticos era necesaria y se podía combinar con los métodos no lingüísticos, hasta entonces utilizados casi de forma exclusiva.

Al igual que en el apartado anterior vamos a presentar algunos sistemas para descubrir el desarrollo producido en la Ia tomando como base principios lingüísticos.

A continuación se presentan algunos programas que existen en el mercado sobre indización automática basados en los métodos lingüísticos.

Sistema SMART. Como es conocido el sistema SMART está fundamentado claramente en principios estadísticos, puesto que no en vano su creador es un defensor a ultranza de estos métodos, pero lo vamos a incluir en este apartado debido a que fue uno de los primeros sistemas que introdujo ciertas consideraciones lingüísticas en cuanto a la morfología de las palabras o sintaxis de las frases.

Sistema CLARIT. (Computational-Linguistic Approaches to Indexing and Retrieval of Text). Es otro acercamiento a la Ia que trata de solucionar dos problemas tradicionales en este tema: capturar la estructura lingüística de los textos o identificación de los conceptos, y seleccionar aquellos que reflejan el contenido de un documento.

Proyecto SIMPR. (Structured Information Management: Processing and Retrieval). Se trata de un prototipo diseñado por un grupo interdisciplinar compuesto primordialmente por lingüistas computacionales, documentalistas e informáticos de Finlandia, Escocia y Alemania respectivamente.

SPIRIT. (Sistema Probabilista de Indización y de Recuperación de Información Textual). Es un programa de Gestión Documental que permite la adquisición, indización, almacenamiento, búsqueda y difusión de la información. Es el resultado de más de 20 años de investigaciones teóricas y aplicadas realizadas en Francia en el seno de la Comisaría de la Energía Atómica (C.E.A) y la Facultad de Lingüística d'Orsay.

GOLEM. La entidad SIEMENS, en su vertiente de productos informáticos, puso en el mercado un sistema de almacenamiento y recuperación documental llamado Golem.

DARWIN. A principios de los noventa este programa estaba disponible para el francés e inglés.

INDEXICON. Esta herramienta la ha diseñado la entidad norteamericana ICONOVEX. Se trata de un software explotable en estos momentos en su versión 2.52 que funciona con los procesadores de textos Word 95/97, también está disponible con este software una aplicación residente para crear y mantener léxicos de vocabularios especiales, el software LEX-EDIT.

2.Esquematización de los métodos de indización y sus correspondientes programas informáticos.


Análisis Lingüístico	SMART, INDEXD, CLARIT, SIMPR, SPIRIT, PASSAT, ALETH, DARWIN, ALEXDOC, INDEXICON, Valle Bracero, Simón Granda
Análisis Estadístico	H.P. Luhn, F.J. Damerau, SMART, INDEXD, SHAPIRE, CLARIT, SPIRIT, PASSAT, SINTEX
Análisis Probabilístico	V. Rosenberg, S.E. Robertson, SPIRIT, SINTEX, Simón Granda
Vocabulario Controlado	Sistema NASA, CLARIT, PASSAT, ALETH, SINTEX, ALEXDOC, Valle Bracero
Fichero Palabras Vacías	Todos
Fichero Expres. Idiomáticas	SPIRIT, ALEXDOC
Fichero de Siglas	DARWIN
Normalización de Términos	SIMPR, SPIRIT, Valle Bracero
Autoreenvío de Conceptos	SMART, SHAPIRE, SINTEX, ALEXDOC,
Validación de Términos	V. Rosenberg, Sistema NASA, ALETH, INDEXICON, SINTEX, ALEXDOC, Simón Granda

3.Sistemas de indización automática: SMART, ALETH, RESEARCHINDEX.

3.1 Sistema de indización SMART.

El sistema de indización que a continuación se presenta es el denominado sistema SMART. El SMART es un sistema para la indización y posterior recuperación de los documentos. Fue desarrollado por Gerald Salton a finales de los años 60 y se concibió como un sistema de análisis automático y de recuperación de documentos. En la actualidad todavía se trabaja en su desarrollo para mejorar la función de recuperación de los textos.

En cuanto a su funcionamiento, procesa documentos de forma automática para posteriormente atender peticiones de búsquedas por parte de los usuarios. Por lo tanto, no sólo analiza los documentos sino también las consultas realizadas por los usuarios. Todo ello bajo el entorno de UNIX.

La base fundamental del SMART, en un principio, fueron los métodos estadísticos pero luego fueron incorporándose una serie de estrategias de indización. Estas fueron:

método de extracción de raíces de palabras,
un diccionario de sinónimos,
análisis sintáctico
métodos de comparación de vocablos.

Todos estos métodos no se expondrán en el siguiente trabajo porque se ha observado que el principal método de indización que utiliza el SMART es el método estadístico.

Los métodos estadísticos

Hans Peter Luhn (1957) fue el primero en sugerir que la frecuencia de aparición de las palabras en un documento o en una colección de documentos tenía que ver con la utilidad de éstas para la indización. La teoría de la frecuencia de aparición de las palabras sugiere que "las palabras de frecuencia muy alta (aquellas que se manifestaban en casi todos los documentos) no aportaban carga informativa debido a su carácter general. Por tanto, si se empleaban en la recuperación de la información provocaban una escasa precisión. Por el contrario, los vocablos de frecuencia muy baja eran muy específicos y causaban una baja exhaustividad en la recuperación".

Diferentes son los métodos estadísticos usados para la indización de documentos, entre los que destacan: método probabilístico, análisis bayesiano, vector espacial y redes neuronales.

Método probabilístico: está basado directamente en el uso de la teoría de la probabilidad en los sistemas de recuperación de la información. Se basa en la frecuencia de aparición de las palabras. Esta frecuencia se puede expresar matemáticamente de la siguiente manera:

F = *f

I=1

donde F es la frecuencia total de aparición de una término t en n documentos, t es un término dado e i un documento.

La importancia de un término t para el documento i está dado por:

IMP = --------

Si el valor resultante de esta función excede de un valor umbral establecido previamente a realizar esta operación, el término t se incluirá en el perfil del documento y como descriptor.

La importancia de un término t para la totalidad de la colección es:

IMP = --------

Si el valor resultante de esta función excede de un valor umbral establecido previamente a realizar esta operación, el término t se incluirá en el perfil del documento i como descriptor.

Este método de indexación se usa para calcular un valor el cual refleja la relevancia de un ítem dentro de un documento.

Vector espacial: El modelo de recuperación de la información basado en el vector espacial es una aproximación estadística en la búsqueda de información literaria. Según Luhn (1957) "cuanto más coincidan dos representaciones en sus elementos dados y en la distribución de éstos, mayor será la probabilidad de que estén representado información similar".

En un sistema basado en el vector espacial, la semántica de todo documento se representa bajo un vector. Un vector es un conjunto unidimensional de valores donde el orden o posición de cada valor en el conjunto se fija y representa un dominio particular. En la recuperación de la información, cada posición del vector representa un término. Existen dos aproximaciones al dominio de valores del vector: binaria y por pesos. En la primera, el dominio contiene el valor de 1 y 0. Con el 1 representado la existencia del término en el documento y el 0 la inexistencia del término en el documento. En la segunda, el dominio es el conjunto de todos los números reales positivos. El valor de cada término representa la relativa importancia de ese término en la representación de la semántica del documento.

Los vectores binarios requieren un proceso de decisión para determinar si el grado en que un término particular representa la semántica de un documento es suficiente como para incluirlo en el vector. Un vector pesado actúa de la misma forma que uno binario, pero proporciona un rango de valores para albergar la variedad de valores que tiene la importancia relativa de un término en la representación de la semántica de un documento. Pesar los términos es el proceso de asignar una importancia al uso de un término en un documento. El peso debe representar en qué grado el concepto asociado al término está representado en el documento, y debe ayudar en la discriminación de su amplitud en el resto de documentos. A mayor peso, mejor representa un término el concepto discutido en el ítem.

En un sistema estadístico, los datos potencialmente disponibles para calcular pesos son: la frecuencia de aparición de un término en un documento determinado, la frecuencia de aparición de un término en el total de la base de datos y el número de documentos únicos de la base de datos que contienen el término.

Métodos para averiguar la frecuencia de aparición de los términos:

1.- frecuencia de aparición de un término en un documento dado:
n

F = *f

I=1

2.- frecuencia de aparición de un término en la totalidad de la base de datos:

new_t

3.2 Sistema de indización ALETH.

El programa Aleth es un programa de indización y resumen automático. Los métodos que sigue para llevar a cabo este proceso son lingüísticos.

Aleth es un programa que pertenece a la empresa francesa ERLI. ERLI es una de las primeras empresas de creación de lógica lingüística. A partir de 1977 es pionera en la búsqueda de técnicas de tratamiento del lenguaje natural y de la lingüística.

Es un herramienta de gestión de léxico. Permite transformar lasfuentes terminológicas en un léxico de empresa: este producto puede ser utilizado para aplicaciones de la ingeniería lingüística (indexación automática, búsqueda documental y traducción automática).

A partir de los años 60 comienzan a incorporarse a la indización automatizada aspectos del procesamiento del lenguaje natural y se sigue desarrollando ahora tomando como base principios lingüísticos.

El programa Aleth se caracteriza por disponer de un diccionario lingüístico que contiene aspectos sintácticos que incluyen posibles composiciones de verbos, adjetivos o adverbios.

También invierte varios componentes para llevar a cabo la Indexación automática como un tesauro de términos excluidos y descriptores unitérminos, con una serie de códigos que ayudan a constituir descriptores compuestos, a establecer relaciones entre distintos términos y a remitir a los documentos indizados.

Aleth divide su proceso de indización en tres fases.

Primera Fase: también llamada morfo – léxica. Se intenta detectar qué palabra de la presentes en el texto se encuentra tanto en el tesauro como en el diccionario, aplicando para ello un análisis morfológico que incluye la descomposición de la frase en vocablos, un reconocimiento de las expresiones y la asignación de las categorías gramaticales.

Segunda Fase: se le conoce también como sintáctico – sistemática. Su objetivo es la búsqueda de palabras clave pertinentes adjudicando en este proceso reglas de desambiguación y de normalización.

Tercera Fase: el programa propondrá una serie de términos para que el documentalista los valide.

Este es un sistema que permite añadir nuevos términos, borrar los términos obsoletos y efectuar operaciones de fusión y selección.

3.3 Sistema de indización RESEARCHINDEX

De las herramientas existentes para la indización hemos escogido el ResearchIndex como ejemplo porque no sólo extrae las palabras clave de los artículos, sino que además establece los enlaces entre los documentos. Pero, ¿por qué es esto importante?, porque generalmente el investigador o científico no tiene mucho tiempo para invertir en la lectura y búsqueda de documentación científica. Con el ResearchIndex, en cambio, cuando el usuario realiza una búsqueda no necesita analizar todos los resultados ya que en el momento que encuentra un documento que le interesa, este ya le remite a otros relacionados a través de enlaces. Además al final de los 100 primero s resultados que responden a la consulta planteada, aparece una gráfica con los años en que se concentran dichos artículos.

El ResearchIndex es una biblioteca digital para literatura científica, cuyo objetivo es mejorar la diseminación y la retroalimentación de dicha literatura así como proveer de mejoras en funcionalidad, usabilidad, disponibilidad, coste, comprensión, eficiencia y tiempo de espera.

Más que crear otra biblioteca digital, ResearchIndex provee de algoritmos, técnicas y softwares que pueden ser usados en otras bibliotecas digitales. Además. ResearchIndex indexa artículos de investigación en PDF y PS en la web y provee de las siguientes herramientas:

Autonomous Citation Indexing (ACI): lo usa para crear autónomamente un índice de citación que puede ser usado para la evaluación y búsqueda de literatura. En comparación con los índices tradicionales de citación, ACI provee de mejoras en el coste, disponibilidad, comprensión, eficiencia y tiempo de espera.
ResearchIndex proporciona documentos relacionados y estadísticas de citación para todos aquellos documentos citados en la Base de datos, no sólo los indizados.
Enlaces referenciales: Es posible navegar por la Base de Datos usando enlaces de cita.
Contextos de cita: ResearchIndex permite ver los documentos-comentarios que otros investigadores han hecho sobre una cita determinada.
Actualización: ResearchIndex provee de notificaciones automáticas sobre nuevas citas de un determinado documento y de la creación de 1 nuevo documento desarrollado para 1 perfil de usuario.
Documentos relacionados: ResearchIndex localiza documentos relacionados usando medidas basadas en citas y/o palabras y desarrolla una actualización contínua y activa de las bibliografías de cada documento.
Documentos similares: ResearchIndex muestra el porcentaje de frases "similares" entre documentos.
Indexación a texto completo: se indiza el texto completo de los artículos y citas. Permite las búsquedas por frases, operadores booleanos y de proximidad.
Provee el contexto de cómo los términos de la consulta son usados en los artículos en vez del sumario genérico, de esta manera mejora la eficiencia de la búsqueda.
Analiza el gráfico de las citas y presenta los resultados por ranking.
Permite una vista rápida y sencilla de las páginas.
Se actualiza a todas horas.
El código fuente completo de ResearchIndex está disponible gratuitamente para uso no comercial.

ResearchIndex, o también conocido como CiteSeer, es un prototipo de biblioteca digital que lleva a cabo las tareas propias de un índice autónomo de citas de manera muy satisfactoria.

El índice autónomo de citas es un sistema que puede crear un índice de citas automáticamente desde la literatura en formato electrónico. Puede localizar artículos, extraer citas, identificar citas de un mismo artículo aunque estén en formatos diferentes e identificar el contexto de citas en el cuerpo de los artículos.

Un índice de citas cataloga las citas que un artículo hace, enlazando con los trabajos citados.

El índice de citas puede mejorar la comunicación científica por:

establecer relaciones entre artículos
escribir elementos de atención, correcciones o retracciones de trabajos publicados
identificar mejoras significativas o críticas de un trabajo "temprano"
ayudar a limitar el gasto duplicado de otro tipo de búsquedas

Los índices de citas pueden, además, ser usados para analizar las tendencias en la investigación, identificar áreas emergentes de la ciencia encontrar dónde y como suele ser citado un artículo en particular.

Centrándonos en la metodología que usa el programa Researchindex podemos decir que entre sus fines se encuentra el análisis y la descarga de documentos desde la web y su conversión en texto. Luego analiza el texto para extraer las citas del contexto en el que las citas se han hecho en el cuerpo del documento, almacenando la información en una base de datos. Además incluye el artículo a texto completo y una indización de citas y permite la localización de los documentos por enlaces desde las citas o los descriptores. También puede localizar documentos relacionados con un determinado documento usando información sobre citas comunes o bien por similitud de palabras.

¿Cómo encuentra un ACI artículos en la Web?

Un ACI puede encontrar artículos buscando por la web, monitorizando listas de correo o newsgroup o conectándose directamente con los editores.

Las revistas generalmente cobran por el acceso a sus documentos online por esta razón, una manera de indizar estos documentos, gratuitamente, es poniendo notas de agradecimiento a los editores.

Las herramientas que utiliza CiteSeer son el Altavista, HotBot y Excite además de heurísticas para localizar buenos puntos de entrada para "crawl" la web.

CiteSeer descarga ficheros PostScripts o PDF. Un ejemplo es LikeIt, algoritmo de comparación inteligente de cadenas de caracteres.

El LikeIt se basa en:

La frecuencia de aparición o las medidas de ocurrencia, que están basadas en estadísticas de palabras que son comunes en cada cadena de caracteres
Conocimiento sobre subcampos o las estructuras de los datos pueden ser también usados. En las citas, los subcampos como nombre del autor, título, año de publicación y algunas más pueden ser usados.
Los modelos probabilísticos que usan información bibliográfica conocida para identificar subcampos desde las palabras contenidas y/o en las estructuras de citas.

CiteSeer usa en la actualidad un algoritmo basado en la normalización de citas, tipificando de acuerdo a la longitud y a las frases y palabras usadas en los subcampos. Cubre cerca de 1158 citas de las cuales el 5% de las agrupaciones automatizadas que este algoritmo produce contiene un error. Sin embargo esto no significa que CiteSeer agrupe mal el 5% de las citas sino que simplemente 1 cita incorrecta hace que todo el grupo sea incorrecto.

¿Cómo se puede mejorar el algoritmo de CiteSeer?

Aunque en la actualidad el algoritmo de CiteSeer es suficiente para el uso práctico que de él se hace, se puede mejorar de diferentes maneras. Mejoras en el utilización de las técnicas de aprendizaje y estimación probabilísticas basadas en el conocimiento de datos bibliográficos. Estas técnicas de aprendizaje pueden usar datos etiquetados para asociar las estructuras de citas con el subcampo correspondiente. Los datos etiquetados es la información gratuita disponible en la web… http://liinwww.ira.uka.de/bibliography/Neural/index.html

4. Breve comparación programas Smart-Aleth.

SMART	ALETH
Análisis lingüístico	Análisis lingüístico
Análisis estadístico	Vocabulario controlado
Fichero de palabras vacías	Fichero de palabras vacías
Extracción de raíces de las palabras	Validación de términos
Diccionario de sinónimos	Diccionario lingüístico
Análisis sintáctico
Comparación de vocablos

5. Conclusiones

Finalizaremos este trabajo con unas breves conclusiones acerca de la indización automatizada y sus procesos.

No nos hemos podido centrar en el análisis de los programas Smart y Aleth porque son programas de venta en el mercado y no están financiados a través de la red. Tan solo se ha podido extraer de ellos un esquema teórico.

Del Researchidex se han sacado las siguientes conclusiones:

1.- Es una herramienta muy útil para los usuarios a los que va dirigido.

2.- Además hay que tener en cuenta que se difunde gratis, con lo que puede ser muy conveniente para bibliotecas digital.

Presentamos una serie de conclusiones de la problemática que conlleva la indización automatizada.

Hoy en día todavía existe el debate de la preferencia o no de la indización automatizada. Todavía hay, investigadores y profesionales de la Biblioteconomía y la Documentación que consideran que una máquina, en este caso un ordenador, es incapaz de realizar convenientemente la labor de indizar.

Otros investigadores alegan que para qué sirve la indización automática si los términos que de ella se extraen deben de ser posteriormente validados por un indizador humano.

Otro grupo de investigadores alegan mayor economía tanto de proceso como de presupuesto, una mayor objetividad puesto que se aplicarían siempre los mismo parámetros, así como una disminución de los errores en el momento de la recuperación de la información.

Por último remarcar que existe un amplio debate planteado en la búsqueda de la obtención de respuestas a estas preguntas:

Pregunta	Respuestas
¿quién la debe realizar?	¿Documentalista, Autor o Especialista en la materia?
¿qué partes de los documentos son las apropiadas para extraer esos conceptos?	¿Título, Resumen, Texto completo, Título y Resumen?
¿cuántos son los términos idóneos?	¿Cuatro, Cinco, Ocho, Doce?
¿Indización humana o automática?	Un ser humano porque detecta matices, una máquina porque procesa muy rápido

6. Bibliografía

GIL LEIVA, I. La automatización de la indización de documentos. Gijón: Trea, 1998.

José Antonio Moreiro, Eva Mª Méndez Rodríguez. Lenguaje Natural e Indización automatizada. Ciencias de la Información, vol. 30 , nº 3, septiembre 1999, p.11-24 (http://www.bib.uc3m.es/~mendez/profesional/contenido.htm )

Lawrence, Steve…. Digital Librarires an autonomous Citation Indexing. IEEE Computer, Vol 32, Nº 6, pag. 67-71, 1999.

www.researchindex.com

http://www.culture.fr/culture/dglf/riofil/societes/erli.htm

http://dmi.uib.es/people/adelaida/tice/M3cont2.html

(Sistemas de indización automática)

http://www.um.es/gtiweb/fjmm/sarisite/tema2.html

(Indización asistida por ordenador.)

http://paradigm.uor.edu/linux/lg/issue13/smart.html

(Indexing Texts with Smart)

Licenciatura de Documentación.
Sistemas de representación del Conocimiento. 5Curso; Curso 2000/2001

Realización:

María González Molina
María Navarrete Cano
Marta Orts Devís