![]()
En los años cincuenta y sesenta se produjo un incremento exponencial de la información científica. Por estos motivos se fueron ideando sistemas de información cada vez más operativos, a la vez que aumentó el número de investigaciones sobre el tratamiento de la información con la finalidad última de atender de forma más eficaz y rápida las necesidades de información de los científicos. Consecuentemente, se fue generalizando la idea de que el ordenador constituía una herramienta muy útil para el procesamiento de textos y en especial para la indización, dado que se consideraba al ordenador objetivo en las operaciones repetitivas. De esta forma, se pretendía evitar que una persona pudiera indizar un documento de forma diferente en momentos distintos o que dos indizadores representaran un documento con términos desiguales. Además, una máquina es generalmente exacta y precisa en las operaciones, por lo que consideraban que se podrían minimizar los errores en la selección de términos para la indización.
Por tanto, el análisis automático de textos se convirtió en un árduo tema de investigación.
El presente trabajo pretende presentar, de manera esquemática,
los sistemas de indización y de resumen automático existentes
en el mercado. Para ello empezaremos con una breve introducción
a lo que es el proceso de indización y resumen y más concretamente
la automatización de ambos procesos.
La indización es un proceso que tiene como fin captar y representar el contenido de un documento. El proceso conlleva dos etapas:
2.- Traducción de estos conceptos a su expresión por medio
de un lenguaje controlado (normalizado).
Estas complejidades se agravan cuando se intenta recurrir a la forma automatizada de la indización.
Tipología de los métodos usados para la indización y el resumen automatizado:
A principios de los sesenta es cuando comienzan a incorporse tímidamente a la indización automática aspectos del PLN ya que, algunos investigadores intuían que la aplicación de medios lingüísticos era necesaria y se podía combinar con los métodos no lingüísticos, hasta entonces utilizados casi de forma exclusiva.
Al igual que en el apartado anterior vamos a presentar algunos sistemas
para descubrir el desarrollo producido en la Ia tomando como base principios
lingüísticos.
Sistema SMART. Como es conocido el sistema SMART está fundamentado claramente en principios estadísticos, puesto que no en vano su creador es un defensor a ultranza de estos métodos, pero lo vamos a incluir en este apartado debido a que fue uno de los primeros sistemas que introdujo ciertas consideraciones lingüísticas en cuanto a la morfología de las palabras o sintaxis de las frases.
Sistema CLARIT. (Computational-Linguistic Approaches to Indexing and Retrieval of Text). Es otro acercamiento a la Ia que trata de solucionar dos problemas tradicionales en este tema: capturar la estructura lingüística de los textos o identificación de los conceptos, y seleccionar aquellos que reflejan el contenido de un documento.
Proyecto SIMPR. (Structured Information Management: Processing and Retrieval). Se trata de un prototipo diseñado por un grupo interdisciplinar compuesto primordialmente por lingüistas computacionales, documentalistas e informáticos de Finlandia, Escocia y Alemania respectivamente.
SPIRIT. (Sistema Probabilista de Indización y de Recuperación de Información Textual). Es un programa de Gestión Documental que permite la adquisición, indización, almacenamiento, búsqueda y difusión de la información. Es el resultado de más de 20 años de investigaciones teóricas y aplicadas realizadas en Francia en el seno de la Comisaría de la Energía Atómica (C.E.A) y la Facultad de Lingüística d'Orsay.
GOLEM. La entidad SIEMENS, en su vertiente de productos informáticos, puso en el mercado un sistema de almacenamiento y recuperación documental llamado Golem.
DARWIN. A principios de los noventa este programa estaba disponible para el francés e inglés.
INDEXICON. Esta herramienta la ha diseñado la entidad norteamericana ICONOVEX. Se trata de un software explotable en estos momentos en su versión 2.52 que funciona con los procesadores de textos Word 95/97, también está disponible con este software una aplicación residente para crear y mantener léxicos de vocabularios especiales, el software LEX-EDIT.
| Análisis Lingüístico | SMART, INDEXD, CLARIT, SIMPR, SPIRIT, PASSAT, ALETH, DARWIN, ALEXDOC, INDEXICON, Valle Bracero, Simón Granda |
| Análisis Estadístico | H.P. Luhn, F.J. Damerau, SMART, INDEXD, SHAPIRE, CLARIT, SPIRIT, PASSAT, SINTEX |
| Análisis Probabilístico | V. Rosenberg, S.E. Robertson, SPIRIT, SINTEX, Simón Granda |
| Vocabulario Controlado | Sistema NASA, CLARIT, PASSAT, ALETH, SINTEX, ALEXDOC, Valle Bracero |
| Fichero Palabras Vacías | Todos |
| Fichero Expres. Idiomáticas | SPIRIT, ALEXDOC |
| Fichero de Siglas | DARWIN |
| Normalización de Términos | SIMPR, SPIRIT, Valle Bracero |
| Autoreenvío de Conceptos | SMART, SHAPIRE, SINTEX, ALEXDOC, |
| Validación de Términos | V. Rosenberg, Sistema NASA, ALETH, INDEXICON, SINTEX, ALEXDOC, Simón Granda |
3.Sistemas de indización automática: SMART, ALETH, RESEARCHINDEX.
3.1 Sistema de indización SMART.
El sistema de indización que a continuación se presenta es el denominado sistema SMART. El SMART es un sistema para la indización y posterior recuperación de los documentos. Fue desarrollado por Gerald Salton a finales de los años 60 y se concibió como un sistema de análisis automático y de recuperación de documentos. En la actualidad todavía se trabaja en su desarrollo para mejorar la función de recuperación de los textos.
En cuanto a su funcionamiento, procesa documentos de forma automática para posteriormente atender peticiones de búsquedas por parte de los usuarios. Por lo tanto, no sólo analiza los documentos sino también las consultas realizadas por los usuarios. Todo ello bajo el entorno de UNIX.
La base fundamental del SMART, en un principio, fueron los métodos estadísticos pero luego fueron incorporándose una serie de estrategias de indización. Estas fueron:
Todos estos métodos no se expondrán en el siguiente trabajo porque se ha observado que el principal método de indización que utiliza el SMART es el método estadístico.
Hans Peter Luhn (1957) fue el primero en sugerir que la frecuencia de aparición de las palabras en un documento o en una colección de documentos tenía que ver con la utilidad de éstas para la indización. La teoría de la frecuencia de aparición de las palabras sugiere que "las palabras de frecuencia muy alta (aquellas que se manifestaban en casi todos los documentos) no aportaban carga informativa debido a su carácter general. Por tanto, si se empleaban en la recuperación de la información provocaban una escasa precisión. Por el contrario, los vocablos de frecuencia muy baja eran muy específicos y causaban una baja exhaustividad en la recuperación".
Diferentes son los métodos estadísticos usados para la indización de documentos, entre los que destacan: método probabilístico, análisis bayesiano, vector espacial y redes neuronales.
Método probabilístico: está basado directamente en el uso de la teoría de la probabilidad en los sistemas de recuperación de la información. Se basa en la frecuencia de aparición de las palabras. Esta frecuencia se puede expresar matemáticamente de la siguiente manera:
n
F = *f
I=1
donde F es la frecuencia total de aparición de una término t en n documentos, t es un término dado e i un documento.
La importancia de un término t para el documento i está dado por:
IMP = --------
Si el valor resultante de esta función excede de un valor umbral establecido previamente a realizar esta operación, el término t se incluirá en el perfil del documento y como descriptor.
La importancia de un término t para la totalidad de la colección es:
IMP = --------
Si el valor resultante de esta función excede de un valor umbral establecido previamente a realizar esta operación, el término t se incluirá en el perfil del documento i como descriptor.
Este método de indexación se usa para calcular un valor el cual refleja la relevancia de un ítem dentro de un documento.
Vector espacial: El modelo de recuperación de la información basado en el vector espacial es una aproximación estadística en la búsqueda de información literaria. Según Luhn (1957) "cuanto más coincidan dos representaciones en sus elementos dados y en la distribución de éstos, mayor será la probabilidad de que estén representado información similar".
En un sistema basado en el vector espacial, la semántica de todo documento se representa bajo un vector. Un vector es un conjunto unidimensional de valores donde el orden o posición de cada valor en el conjunto se fija y representa un dominio particular. En la recuperación de la información, cada posición del vector representa un término. Existen dos aproximaciones al dominio de valores del vector: binaria y por pesos. En la primera, el dominio contiene el valor de 1 y 0. Con el 1 representado la existencia del término en el documento y el 0 la inexistencia del término en el documento. En la segunda, el dominio es el conjunto de todos los números reales positivos. El valor de cada término representa la relativa importancia de ese término en la representación de la semántica del documento.
Los vectores binarios requieren un proceso de decisión para determinar si el grado en que un término particular representa la semántica de un documento es suficiente como para incluirlo en el vector. Un vector pesado actúa de la misma forma que uno binario, pero proporciona un rango de valores para albergar la variedad de valores que tiene la importancia relativa de un término en la representación de la semántica de un documento. Pesar los términos es el proceso de asignar una importancia al uso de un término en un documento. El peso debe representar en qué grado el concepto asociado al término está representado en el documento, y debe ayudar en la discriminación de su amplitud en el resto de documentos. A mayor peso, mejor representa un término el concepto discutido en el ítem.
En un sistema estadístico, los datos potencialmente disponibles para calcular pesos son: la frecuencia de aparición de un término en un documento determinado, la frecuencia de aparición de un término en el total de la base de datos y el número de documentos únicos de la base de datos que contienen el término.
Métodos para averiguar la frecuencia de aparición de los términos:
1.- frecuencia de aparición
de un término en un documento dado:
n
F = *f
I=1
2.- frecuencia de aparición de un término en la totalidad de la base de datos:
new_t
3.2 Sistema de indización ALETH.
El programa Aleth es un programa de indización y resumen automático. Los métodos que sigue para llevar a cabo este proceso son lingüísticos.
Aleth es un programa que pertenece a la empresa francesa ERLI. ERLI es una de las primeras empresas de creación de lógica lingüística. A partir de 1977 es pionera en la búsqueda de técnicas de tratamiento del lenguaje natural y de la lingüística.
Es un herramienta de gestión de léxico. Permite transformar lasfuentes terminológicas en un léxico de empresa: este producto puede ser utilizado para aplicaciones de la ingeniería lingüística (indexación automática, búsqueda documental y traducción automática).
A partir de los años 60 comienzan a incorporarse a la indización automatizada aspectos del procesamiento del lenguaje natural y se sigue desarrollando ahora tomando como base principios lingüísticos.
El programa Aleth se caracteriza por disponer de un diccionario lingüístico que contiene aspectos sintácticos que incluyen posibles composiciones de verbos, adjetivos o adverbios.
También invierte varios componentes para llevar a cabo la Indexación automática como un tesauro de términos excluidos y descriptores unitérminos, con una serie de códigos que ayudan a constituir descriptores compuestos, a establecer relaciones entre distintos términos y a remitir a los documentos indizados.
Aleth divide su proceso de indización en tres fases.
Segunda Fase: se le conoce también como sintáctico – sistemática. Su objetivo es la búsqueda de palabras clave pertinentes adjudicando en este proceso reglas de desambiguación y de normalización.
Tercera Fase: el programa propondrá una serie de términos para que el documentalista los valide.
Este es un sistema que permite añadir nuevos términos,
borrar los términos obsoletos y efectuar operaciones de fusión
y selección.
De las herramientas existentes para la indización hemos escogido el ResearchIndex como ejemplo porque no sólo extrae las palabras clave de los artículos, sino que además establece los enlaces entre los documentos. Pero, ¿por qué es esto importante?, porque generalmente el investigador o científico no tiene mucho tiempo para invertir en la lectura y búsqueda de documentación científica. Con el ResearchIndex, en cambio, cuando el usuario realiza una búsqueda no necesita analizar todos los resultados ya que en el momento que encuentra un documento que le interesa, este ya le remite a otros relacionados a través de enlaces. Además al final de los 100 primero s resultados que responden a la consulta planteada, aparece una gráfica con los años en que se concentran dichos artículos.
El ResearchIndex es una biblioteca digital para literatura científica, cuyo objetivo es mejorar la diseminación y la retroalimentación de dicha literatura así como proveer de mejoras en funcionalidad, usabilidad, disponibilidad, coste, comprensión, eficiencia y tiempo de espera.
Más que crear otra biblioteca digital, ResearchIndex provee de algoritmos, técnicas y softwares que pueden ser usados en otras bibliotecas digitales. Además. ResearchIndex indexa artículos de investigación en PDF y PS en la web y provee de las siguientes herramientas:
El índice autónomo de citas es un sistema que puede crear un índice de citas automáticamente desde la literatura en formato electrónico. Puede localizar artículos, extraer citas, identificar citas de un mismo artículo aunque estén en formatos diferentes e identificar el contexto de citas en el cuerpo de los artículos.
Un índice de citas cataloga las citas que un artículo hace, enlazando con los trabajos citados.
El índice de citas puede mejorar la comunicación científica por:
Centrándonos en la metodología que usa el programa Researchindex
podemos decir que entre sus fines se encuentra el análisis y la
descarga de documentos desde la web y su conversión en texto. Luego
analiza el texto para extraer las citas del contexto en el que las citas
se han hecho en el cuerpo del documento, almacenando la información
en una base de datos. Además incluye el artículo a texto
completo y una indización de citas y permite la localización
de los documentos por enlaces desde las citas o los descriptores. También
puede localizar documentos relacionados con un determinado documento usando
información sobre citas comunes o bien por similitud de palabras.
¿Cómo encuentra un ACI artículos en la Web?
Un ACI puede encontrar artículos buscando por la web, monitorizando listas de correo o newsgroup o conectándose directamente con los editores.
Las revistas generalmente cobran por el acceso a sus documentos online por esta razón, una manera de indizar estos documentos, gratuitamente, es poniendo notas de agradecimiento a los editores.
Las herramientas que utiliza CiteSeer son el Altavista, HotBot y Excite además de heurísticas para localizar buenos puntos de entrada para "crawl" la web.
CiteSeer descarga ficheros PostScripts o PDF. Un ejemplo es LikeIt, algoritmo de comparación inteligente de cadenas de caracteres.
El LikeIt se basa en:
¿Cómo se puede mejorar el algoritmo de CiteSeer?
Aunque en la actualidad el algoritmo de CiteSeer es suficiente para el uso práctico que de él se hace, se puede mejorar de diferentes maneras. Mejoras en el utilización de las técnicas de aprendizaje y estimación probabilísticas basadas en el conocimiento de datos bibliográficos. Estas técnicas de aprendizaje pueden usar datos etiquetados para asociar las estructuras de citas con el subcampo correspondiente. Los datos etiquetados es la información gratuita disponible en la web… http://liinwww.ira.uka.de/bibliography/Neural/index.html
SMART |
ALETH |
| Análisis lingüístico | Análisis lingüístico |
| Análisis estadístico | Vocabulario controlado |
| Fichero de palabras vacías | Fichero de palabras vacías |
| Extracción de raíces de las palabras | Validación de términos |
| Diccionario de sinónimos | Diccionario lingüístico |
| Análisis sintáctico | |
| Comparación de vocablos |
Finalizaremos este trabajo con unas breves conclusiones acerca de la indización automatizada y sus procesos.
No nos hemos podido centrar en el análisis de los programas Smart y Aleth porque son programas de venta en el mercado y no están financiados a través de la red. Tan solo se ha podido extraer de ellos un esquema teórico.
Del Researchidex se han sacado las siguientes conclusiones:
2.- Además hay que tener en cuenta que se difunde gratis, con
lo que puede ser muy conveniente para bibliotecas digital.
Hoy en día todavía existe el debate de la preferencia o no de la indización automatizada. Todavía hay, investigadores y profesionales de la Biblioteconomía y la Documentación que consideran que una máquina, en este caso un ordenador, es incapaz de realizar convenientemente la labor de indizar.
Otros investigadores alegan que para qué sirve la indización automática si los términos que de ella se extraen deben de ser posteriormente validados por un indizador humano.
Otro grupo de investigadores alegan mayor economía tanto de proceso como de presupuesto, una mayor objetividad puesto que se aplicarían siempre los mismo parámetros, así como una disminución de los errores en el momento de la recuperación de la información.
Por último remarcar que existe un amplio debate planteado en
la búsqueda de la obtención de respuestas a estas preguntas:
| Pregunta | Respuestas |
| ¿quién la debe realizar? | ¿Documentalista, Autor o Especialista en la materia? |
| ¿qué partes de los documentos son las apropiadas para extraer esos conceptos? | ¿Título, Resumen, Texto completo, Título y Resumen? |
| ¿cuántos son los términos idóneos? | ¿Cuatro, Cinco, Ocho, Doce? |
| ¿Indización humana o automática? | Un ser humano porque detecta matices, una máquina porque procesa muy rápido |
GIL LEIVA, I. La automatización de la indización de documentos. Gijón: Trea, 1998.
José Antonio Moreiro, Eva Mª Méndez Rodríguez. Lenguaje Natural e Indización automatizada. Ciencias de la Información, vol. 30 , nº 3, septiembre 1999, p.11-24 (http://www.bib.uc3m.es/~mendez/profesional/contenido.htm )
Lawrence, Steve…. Digital Librarires an autonomous Citation Indexing. IEEE Computer, Vol 32, Nº 6, pag. 67-71, 1999.
http://www.culture.fr/culture/dglf/riofil/societes/erli.htm
http://dmi.uib.es/people/adelaida/tice/M3cont2.html
(Sistemas de indización automática)
http://www.um.es/gtiweb/fjmm/sarisite/tema2.html
(Indización asistida por ordenador.)
http://paradigm.uor.edu/linux/lg/issue13/smart.html
(Indexing Texts with Smart)
Licenciatura de Documentación.
Sistemas de representación del Conocimiento. 5Curso; Curso
2000/2001
Realización:
María González Molina
María Navarrete Cano
Marta Orts Devís
