ALGUNAS APLICACIONES DE REDES NEURONALES ARTFICIALES EN DOCUMENTACIÓN.
EL CASO EXCALIBUR
Autores:
NATIVIDAD NOVERGES
VICENTE SACRISTÁN
PEPA ORTÍ
LOURDES MARGAIX
ÍNDICE
1.1.¿QUÉ SON LAS REDES NEURONALES ARTIFICIALES O RNA?
1.5. CARACTERÍSTICAS DE LAS RNA
2. LIMITACIONES DE LOS SISTEMAS TRADICIONALES DE GESTIÓN DOCUMENTAL3. APLICACIÓN DE LAS RNA EN LA GESTIÓN DE LA INFORMACIÓN
3.1. MAPAS AUTOOORGANIZATIVOS. CLASIFICACIÓN Y RECUPERACIÓN DE LA INFORMACIÓN3.1.2. MAPAS AUTOORGANIZATIVOS DE KOHONEN
3.2. PROCESO DE RECONOCIMIENTO ADAPTATIVO DE PATRONES ( PRAP )
3.3. UTILIZACIÓN DE REDES NEURONALES EN EL OCR
4.2. CARACTERÍSTICAS DEL PROGRAMA
4.2.1. CÓMO FUNCIONA LA BÚSQUEDA DE RETIEVALWARE
1.1.¿QUÉ SON LAS REDES NEURONALES ARTIFICIALES O RNA?
Las redes neuronales artificiales o RNA surgen ante la necesidad de utilizar sistemas que operasen como el cerebro humano, ya que hasta ahora se había conseguido métodos capaces de superar al cerebro humano en cálculos que se consideraban muy difíciles para él, pero en cambio no se podían realizar tareas que el cerebro ejecuta de forma simple a todas horas, como por ejemplo reconocer a una persona o saber discriminar si una persona se ha roto una pierna en base al resultado de una exploración o de una prueba.
Las características más importantes del funcionamiento del cerebro como sistema e computación son las siguientes:
Las redes neuronales pretenden conseguir todas estas características.
Como el comportamiento del cerebro se debe a la interacción de millones de células nerviosas, las RNA pretenden desarrollar un equivalente algorítmico de los procesos de reconocimiento y aprendizaje.
De tal manera, podríamos definir la red neuronal artificial como una implementación, en hardware o software, de un sistema de procesamiento de datos que intenta emular las funciones computacionales elementales de la red nerviosa del cerebro humano. Su propiedad esencial es que implementan un nuevo paradigma de computación muy útil en problemas que no se adecuan bien a las estructuras convencionales de cálculo. Mediante este procedimiento las redes neuronales pueden extraer información estructural de masas de datos complicados o imprecisos, que sinteticen una descripción del fenómeno que ha generado estos datos, es decir, simulan las funciones de un experto en el tema, capaz de enfrentarse con cierto grado de eficacia a situaciones nuevas.
De tal manera, las RNA pretenden imitar la estructura y funcionamiento del cerebro humano con el fin de resolver problemas prácticos mediante la construcción de sistemas de procesamiento de la información paralelos (sobre diferentes sectores a la vez), distribuidos (de modo que si una zona se pierde no cae toda la red) y adaptativos (aprenden de la experiencia pudiendo generalizar conceptos a partir de casos particulares) que puedan representar un cierto comportamiento inteligente.
Todas las RNA tienen unos elementos en común que son los siguientes:
Existen diversos tipos de redes neuronales. En este trabajo vamos simplemente a nombrarlas para que pueda haber una visión de conjunto.
1.5. CARACTERÍSTICAS DE LAS RNA
Sin embargo, todas ellas tienen unas características en común. Son las siguientes:
A diferencia de la computación tradicional, basada en algoritmos predecibles, la computación neuronal permite desarrollar sistemas que resuelven problemas complejos cuya formalización matemática es sumamente difícil. Esto se logra gracias a las RNA.
Los principios de funcionamiento de las RNA a tener en cuenta son:
2. LIMITACIONES DE LOS SISTEMAS TRADICIONALES DE GESTIÓN DOC.
Tradicionalmente, un profesional infiere una estructura a partir de información documental no estructurada que, implementada en una aplicación informática permite con posterioridad recuperar información.
Esta estructuración se realiza habitualmente mediante dos métodos:
Las principales limitaciones de estos métodos serían:
1.- Los procesos de estructuración mediante estos métodos son subjetivos y rígidos.
2.- Resulta poco operativo para el usuario frente a los autores de la aplicación.
3.- Si con el paso del tiempo, hay nuevas necesidades de búsqueda, la tarea de reindexación es complicada, lenta y costosa.
3. APLICACIÓN DE LAS RNA EN LA GESTIÓN DE LA INFORMACIÓN
3.1. MAPAS AUTOOORGANIZATIVOS. CLASIFICACIÓN Y RECUPERACIÓN DE LA INFORMACIÓN
Las relaciones que se establecen entre los componentes que describen y definen la información son muy importantes para poder seleccionar posteriormente, de forma inteligente la información que contiene la base de conocimiento.
La clasificación automática de la información, y el modo en que esta es recuperada son los campos donde más se han aplicado las RNA.
El fin último de las aplicaciones descritas a continuación es desarrollar un modelo de representación del conocimiento que se asemeje a la forma en la que opera la mente humana, potenciando el sistema de browsing y posibilitando la interactividad y las relaciones multidimensionales en la recuperación de la información.
3.1.2. MAPAS AUTOORGANIZATIVOS DE KOHONEN
Kohonen demostró que , suponiendo una estructura propia y una descripción funcional del comportamiento de la red, una información de entrada por sí sola, era suficiente para forzar la formación de mapas topológicos. Estos mapas presentan la característica de organizar la información de entrada clasificándola automáticamente.
Una de las variantes de modelo es la llamada "Mapa de Preservación Topológica" (Topology-Preserving Map) o TPM, también conocida como "mapa auto-organizativo" (Self-Organizing Map) o SOM, y tiene la particularidad de que la salida en el SOM es bidimensional.
Basadas en las propiedades topológicas que presenta el cerebro humano, estas redes neuronales pueden adaptar sus respuestas de tal forma que la posición de la célula que produce la respuesta pasa a ser específica de una determinada característica de la señal de entrada
Se trata de establecer una correspondencia entre la información de entrada y un espacio de salida de dos dimensiones, o mapa topológico. De esta manera, los datos de entrada con características comunes activarán zonas próximas del mapa.
Este modelo de red representa sus neuronas de salida dispuestas de manera bidimensional. Cuando se ingresa un dato a la red esta reacciona de forma que solo una neurona de la capa de salida resulta activada. A esta neurona se la llama vencedora y determina un punto en el mapa bidimensional. De esta manera se clasifica la información de entrada, ya que la neurona ganadora representa la clase a la que pertenece la entrada, además de que ante entradas similares se activará siempre la misma neurona. Por tanto, la red es sumamente indicada para establecer relaciones, desconocidas previamente, entre un conjunto determinado de datos.
El método de aprendizaje del modelo SOM se denomina competitivo y es del tipo no supervisado y off-line.
Dos limitaciones hay que tener en cuenta: 1) el proceso de aprendizaje suele ser largo y arduo, y 2) para aprender nuevos datos es necesario repetir el proceso de aprendizaje por completo.
No obstante, la versatilidad de este tipo de red es muy amplia, lo que le permite clasificar todo tipo de información.
Xia Lin, utiliza los mapas autoorganizados por características de Kohonen con el fin de generar una salida de una determinada colección de documentos que se pueda visualizar.
Lin genera sus mapas siguiendo el siguiente proceso:
1.- Se contruye una lista que incluya todos los términos que aparecen en los títulos y resúmenes de todos los documentos de la colección.
2.- Se eliminan los términos irrelevantes mediante una lista de palabras vacías.
3.- Se llevan los términos a su raíz y se reduce su número. Se liminan duplicados.
4.- Se eliminan los términos con alta y baja frecuencia de aparición.
5.- Se crea un vector para cada documento de n dimensiones, tal que n es el número de términos que han quedado en la lista.
6.- Se completa cada vector con el peso asociado a cada término-documento. A mas frecuencia del término en el documento, mayor es su peso.
7.- Estos vectores se utilizan como entrada para entrenar una red de Kohonen con n elementos de entrada (tal que n sea igual a la cantidad de términos de cada vector), y un número variable de salidas (p.ej. 10 x 14 = 140 neuronas), que supondrá el tamaño del mapa de salida.
8.- Este mapa de salida estará representado también por un vector de pesos al que en un principio se le asignan valores pequeños y al azar.
9.- Durante el proceso de entrenamiento se tomará un vector-documento al azar. La neurona de salida cuyo vector se parezca más al vector-documento de entrada, será declarada neurona ganadora. Luego los pesos de esta neurona (y los de sus vecinas), serán ajustados para acercarse aún más a los valores del vector-documento.
10.- Este proceso se repite durante un determinado número de ciclos. Cuando el proceso de entrenamiento ha finalizado cada término se compara con los pesos de las neuronas de salida, de esta forma se asocia el término más cercano a cada una de las salidas.
Conectando las neuronas de salida con similares términos asociados se generarán las diferentes áreas del mapa.
Al mapa de salida se le pueden añadir herramientas complementarias de visualización, para obtener menús desplegables para cada nodo y facilitar el examen y visualización de la información representada en el mapa.
La aplicación de este modelo parece ser uno de los más prometedores en la clasificación automática mediante redes neuronales, a pesar de las limitaciones para trabajar con grandes volúmenes de información y el alto costo de procesamiento de la información.
Existen en la actualidad algunas aplicaciones que presentan un mapa de visualización para nodos Internet.
El propio Kohonen y su grupo de trabajo, sobre la misma línea de Xia Lin desarrolló WEBSOM, un sistema que permite ordenar automáticamente grandes masas de información en texto completo, con el fin de facilitar su exploración y navegación.
Se trabajo a partir e los artículos del grupo de noticias Usenet .
El tratamiento de este tipo de información es algo complicado debido a que, a diferencia de los mapas de Xia Lin donde se organiza información formal (artículos, ponencias, patentes, etc.), en los grupos Usenet se encuentran mensajes coloquiales, sin un formato específico, generalmente con errores ortográficos y sin correción de estilo.
No obstante, el sistema es capaz de ordenar temáticamente de forma satisfactoria más de 4600 mensajes que contienen cerca de 1200000 palabras.
El método utilizado consta de los siguientes pasos:
1.- Se toman los mensajes y se elimina la información no textual. Los códigos especiales y las expresiones numéricas son tratadas mediantes reglas heurísticas.
2.- Se desestiman aquellas palabras que presentan una baja ocurrencia.
3.- Con el fin de enfatizar el tema de cada mensaje, se eliminan las palabras comunes que dificultan la discriminación temática.
4.-Con estas palabras se genera un primer mapa (SOM) de categorías de palabras. Estas son ordenadas en un mapa de dos dimensiones de acuerdo a sus relaciones, de forma tal que las palabras que tienden a aparecer en el mismo nodo (o en uno cercano), forman la misma categoría.
5.- Este mapa es utilizado como un histograma que filtra la información de los documentos. Con la información filtrada y difuminada se genera un segundo mapa
El producto final es un mapa, donde cada documento ocupa un lugar en el espacio en función de sus contenidos temáticos. Cada área del mapa refleja un contenido específico y los tópicos van variando levemente a lo largo del mismo. Las diferentes tonalidades indican la densidad de documentos, cuanto más oscura más documentos encontraremos.
El intefaz de usuario para consultar el mapa se ha implementado en HTML y permite la exploración en cuatro niveles:
El nivel 1 ( mapa global ) nos presenta un mapa sensible con la totalidad del espacio documental. Si seleccionamos una región del mismo, esta aparecerá aumentada en un mapa similar (nivel 2).
En el nivel 2 ( zona aumentada ) es posible "moverse" hacia áreas vecinas sin necesidad de volver al mapa general y gracias a una herramienta que indica mediante flechas el rumbo a tomar.
Cuando seleccionamos una región de este segundo mapa accedemos al nivel 3
En el nivel 3 ( mapa de nodos ) obtenemos una lista de los mensajes o nodos de dicha región desde la que podemos seleccionar el mensaje deseado (nivel 4)
En el nivel 4 ( vista del mensaje ) simplemente accedemos al mensaje.
http://websom.hut.fi/websom ( demostración del funcionamiento de los mapas de WEBSON ).
NIVEL 1 MAPA GLOBAL

NIVEL 2 ZONA AUMENTADA
NIVEL 3 MAPA DE NODOS

Desarrollado por la Universidad de Arizona, este sistema intenta brindar, de forma automática y escalable, una aproximación temática a la categorización y búsqueda de información en la red. El proyecto se realizó siguiendo los siguientes pasos:
3.1.6. NEUROISOC: Un modelo de RNA para la base de datos del CSIC
El modelo de red neuronal de Kohonen es el que utilizó el CSIC en el desarrollo de la interfaz NeuroIsoc que representa las relaciones existentes entre las distintas materias de los documentos contenidos en la base de datos ISOC.
La clasificación de esta base de datos es sistemática y jerárquica, y se estructura en diecisiete jerarquías temáticas.
Los conjuntos de documentos se han formado a partir de los códigos de clasificación utilizados en dicha base de datos.
En el primer nivel se generó una matriz que representa las relaciones existentes entre las jerarquías, para lo que se realizaron las búsquedas necesarias por cada nivel de clasificación temática.
El mapa resultante de la aplicación expresa, en forma de áreas rectangulares, la coocurrencia de los números de clasificación de las diferentes materias.
El tamaño de las áreas representa la frecuencia con la que el número de clasificación pertinente co-ocurre con otras clases de la base de datos, de forma que cuantas más relaciones se establecen entre un área y las restantes, mayor es el tamaño del área en cuestión.
Las áreas ( de cuatro o más lados ) ocupan su lugar al desplegarse en función del mayor o menor contacto entre ellas, siendo la propia red neuronal la que busca la topología óptima estableciendo las relaciones de vecindad.
Las aplicaciones descritas presentan una nueva forma de representación y visualización del conocimiento. La posibilidad de tratar grandes volúmenes de información, obtener intefaces intuitivas y gráficas y el hecho de que lo que se representa son relaciones entre conceptos influye substancialmente en la manera en que el usuario se enfrenta al proceso de búsqueda y recuperación de la información.
3.2. PROCESO DE RECONOCIMIENTO ADAPTATIVO DE PATRONES ( PRAP )
El modelo PRAP es un modelo de identificación de patrones, basado en redes neuronales, válido para la creación de índices y aplicable a todo tipo de datos multimedia.
Los sistemas basados en metodología PRAP se caracterizan porque los datos dirigen: la creación de la red neuronal, la creación de las variables, la creación de las "reglas expertas" y la creación de los índices.
Los nuevos algoritmos inteligentes utilizados son capaces de aprender y decidir sus propias reglas en función de los datos simulando procesos cognitivos.
La metodología PRAP para la indexación y recuperación de textos aportan cinco ventajas funcionales con respecto a los sistemas de gestión documental "tradicionales":
Indexación automática. Es la propia red neuronal la que descubre los patrones binarios del contenido del documento que es indexado. Cada red neuronal se convierte en una memoria basada en el contenido, que es optimizada para el documento en cuestión que gestione el sistema.
El sistema define unos patrones que van desde el fragmento de una palabra a una frase completa, pudiendo recuperar mediante el lenguaje natural la información.
Búsqueda difusa o borrosa. Se refiere a la capacidad de recuperar la información por aproximación, ya que la tecnología PRAP trabaja con patrones y no con palabras clave y un error de dos o tres letras en una palabra o en una frase no es significativo como para cambiar el patrón básico que forman las letras de un texto. Es especialmente útil cuando la entrada de datos se realiza mediante OCR.
Uso de menos recursos. El hecho de que la indexación sea automática permite mantener un elevado volumen de datos de entrada sin grandes recursos ni esfuerzos en definir tablas de palabras clave o reglas
Precisión a través de una indexación integrada. El sistema permite al usuario determinar el grado de exactitud con el que desea interrogar, controlando así el nivel de precisión de la respuesta del sistema por lo que se puede "navegar" por la información cuando no se busca una respuesta "correcta".
Velocidad de recuperación. El índice es mantenido en un tamaño mínimo y puede ser cargado en la memoria del ordenador y operar a gran velocidad por medio de operaciones booleanas.
3.3. UTILIZACIÓN DE REDES NEURONALES EN EL OCR
Para el ser humano es relativamente sencillo reconocer los patrones de la escritura manuscrita siendo que esta tarea es sumamente difícil para la computadora.
Un ejemplo típico de red neuronal aplicada al reconocimiento de patrones son los OCR o programas de reconocimiento óptico de caracteres escritos. De acuerdo con Werbos (1998) el 50% de los sistemas de OCR se basan en redes neuronales.
Un programa de OCR consiste en un software que trata de convertir la imagen digitalizada de un documento manuscrito, fotocopiado, etc., en un archivo de texto plausible de ser utilizado por algún procesador de texto.
Los programas de OCR diseñados sobre bases algorítmicas son los mas populares hasta el momento, pero poseen un grado apreciable de inexactitud cuando el texto presenta " ruido " , es decir cuando el original contiene manchas ( como las producidas al fotocopiar una pagina ) o símbolos mezclados con el texto ( un dibujo ).
Los programas de OCR basados en el reconocimiento de patrones ( como las redes neuronales ) son capaces de leer y reconocer textos manuscritos o escritos a máquina, de imprenta o de impresora, convirtiéndolos en texto ASCII, editable por el usuario con cualquier programa de tratamiento de textos convencional.
Resulta muy útil para documentos en otros idiomas que pueden ser digitalizados usando el OCR para traducirlos después con un software apropiado, o para digitalizar formularios escritos, especialmente cuando hay que hacerlo en grandes volúmenes.
En documentación manuscrita se requiere una separación entre los caracteres al igual que entre las palabras sucesivas. En la actualidad no se dispone de instrumentos para la segmentación. La separación de campos tienen que estar prevista en el formulario antes de iniciar el proceso. También la calidad de cumplimentación de formularios incidirá en la calidad del reconocimiento.
Para la optimización de los resultados, el modulo OCR debe disponer de un modulo de videocorrección. Este modulo debe de estar situado entre el primer modulo para la manipulación física de los documentos y su escaneo y un último modulo de manipulación sobre bases de datos.
El modulo OCR dispone de tres componentes funcionales.
El ICR o Reconocimiento Inteligente de Caracteres, permite que un scanner "lea" un documento y pase el contenido a una base de datos.
Con eso, se acaba la digitalización manual de los textos, mejorando en tiempo de proceso y en porcentaje de errores. El sistema basado en redes neuronales puede leer una declaración de renta en tres segundos que es todo un récord comparado con el digitalizador más rápido, que tarda diez segundos por hoja.
No obstante, el ICR es aún una forma cara de enfrentar el problema para los usuarios "normales" en oficinas y casas.
Los software de última generación tienen la capacidad de
"aprender" a medida que van siendo usados, para
reconocer cada vez más tipos diferentes de letras. Entre éstos,
destacan los programas OmniPage de Caere y Corel Trace! de Corel
Corporation.
En España, el Instituto de Ingeniería del Conocimiento de la
Universidad Autónoma de Madrid ha desarrollado varios productos
-RAMA 32, ICARO, RAISS-, para el reconocimiento óptico de
caracteres en formularios de empresa.
Se trata de metodologías para la selección y recuperación de información especializada, a partir de bases de datos no previamente estructuradas. Estas deberán permitir un tipo de estructuración rápida que coloque automáticamente la información en bases de conocimiento especializadas. De estas últimas podrá ser recuperada como conocimiento adecuado a las relaciones de los usuarios: conceptos, relaciones, clasificaciones, reglas de decisión, etc.
Se llama minería de datos (data mining) al estudio de la recuperación de la información en condiciones adversas ( mucho ruido, búsquedas incompletas ), y con diversos tipos de datos ( números, registros estructurados, texto libre, etc ).
La Minería de Datos formalmente, es un conjunto de técnicas de análisis automático o semi-automático que permiten el descubrimiento de patrones, asociaciones, relaciones, cambios y anomalías entre los datos que sean interesantes para el tomador decisiones.
Para obtener información provechosa que no está representada explícitamente en los datos, la minería de datos debe ser conjuntada con otras técnicas de análisis de datos que utilizan tecnologías actuales como la inteligencia artificial, las redes neuronales y el reconocimiento de patrones entre otras.
Uno de los campos en que se ha trabajado en este sentido es el del aspecto semántico del lenguaje. En este sentido, los mapas autoorganizativos pueden utilizarse en la solución de ambigüedades contextuales actuando como clasificadores semánticos, para realizar una correcta elección del significado, determinada fundamentalmente por el contexto. Los mapas autoorganizativos son adecuados además para la clasificación de la información sintáctica, lo que puede ser utilizado en minería de datos para brindar los siguientes beneficios:
1.- Proporcionar una imagen global de la estructura y los tipos de contextos existentes en una base de datos lingüística o documental.
2.- Proporcionar un método de selección de un grupo de términos lingüísticos o documentos de interés.
3. Facilitar el trabajo de los clasificadores o indizadores humanos que pueden buscar relaciones entre los documentos (o términos) que se proyecten en unidades del mapa. De esta forma puede obtenerse de manera automática tanto para diccionarios electrónicos como para bases de datos documentales:
a) La determinación de un conjunto reducido de términos claves.
b) La representación vectorial de los documentos en función de dichos términos claves.c) La organización automática global de los documentos o diccionarios por temas.
d) Organización automática de palabras en clases semánticas
4.- Aportar un método para solucionar ambigüedades a nivel contextual y pragmático, que permite el desarrollo de software capaz de extraer automáticamente patrones léxicos y textuales a partir de las características lingüísticas internas de los textos que componen los córpora.
Otro de los objetivos de estudio en minería de datos ha sido la extracción de información relevante. En este sentido la empresa Integral Solutions Ltd. desarrolla la aplicación Clementine con el objetivo de extraer el valor agregado de la información.
Este sistema permite acceder al contenido de diversas bases de datos, permite la posibilidad de seleccionar registros para su manipulación, mediante las redes neuronales y la inducción de reglas es posible que el sistema "aprenda" a tomar ciertas decisiones sin supervisión humana, y la visualización de los datos puede realizarse de diferentes formas: histogramas, nubes de puntos, redes de relaciones, etc. Todas ellas interactivas.
El proceso de minería de datos pasa por los siguientes estadios:
PREPROCESADO DE LOS DATOS
El formato de los datos contenidos en la fuente de datos nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto". Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos o se reducen el número de valores posibles
SELECCIÓN DE CARACTERISTICAS
La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería.
Los métodos para la selección de características son básicamente dos:
Aquellos basados en la elección de los mejores atributos del problema,
Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.
USO DE UN ALGORITMO DE EXTRACCION DE CONOCIMIENTO
Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables.
INTERPRETACIÓN Y EVALUACIÓN
Comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema.
El objetivo de Excalibur ha sido siempre el mismo: mejorar la forma en que los usuarios recuperan la información almacenada en los ordenadores. En lugar de pedir a los usuarios que se adapten a la tecnología, buscamos que ésta se adapte a la forma de pensar y trabajar de las personas. De acuerdo con este objetivo, se ha desarrollado una tecnología puntera mediante la cual los usuarios podrán recuperar la información necesaria utilizando su propio lenguaje natural y su sentido común.
Excalibur proporciona potentes soluciones construidas sobre una arquitectura abierta, flexible, adaptable, de fácil implantación y preparada para el futuro. RetrievalWare de Excalibur constituye la primera familia de componentes de software con arquitectura cliente/servidor para la recuperación de la información dentro del amplio espectro de la información digital, incluyendo texto imágenes documentales y datos multimedia. Las aplicaciones llave en mano de RetrievalWare, los kits de herramientas multicapa del APRP de Excalibur y las Redes Semánticas pueden integrarse en los sistemas de información de grupos de trabajo, empresas o redes, e Internet.
Las aplicaciones y componentes de RetrievalWare hacen que el manejo de las herramientas sea fácil y de gran potencia. Los usuarios encuentran con precisión los datos requeridos mientras navegan por bases de datos cada vez más voluminosas, bien en entornos de grupos de trabajo o en Internet.
Ofrece una alternativa inteligente a los sistemas tradicionales: EL APRP, el Procesamiento de Lenguaje natural y las Redes Semánticas proporcionan niveles sin precedentes de precisión, flexibilidad y facilidad de uso en la recuperación de todo tipo de información. Así el usuario no tiene la necesidad de aprender lenguajes de interrogación complejos sino que accede a los documentos basándose en su significado y contenido.
Igualmente importante es la capacidad para mejorar la productividad y reducir costes en la explotación de los sistemas de gestión. Ello, porque elimina los pre-procesamientos de datos y mejora el proceso de decisón-ejecución mediante acceso rápido y preciso a la información más relevante. En programas de estas características, la dificultad casi siempre reside en aprender a usarlos. Es muy común que se necesiten varias horas de entrenamiento para poder estudiar y comprender el funcionamiento. Pero para que los usuarios se sientan más identificados con el programa, y que resulte más cómodo tiene una interface similar a un browser de Internet.
A la hora de estudiar el programa nosotros hemos centrado nuestra investigación en la opción de búsqueda que nos ofrece, sin incidir en como almacena la información, ni como organiza o clasifica esta. Vamos a ver la búsqueda a través de Intranet.
4.1. LA BÚSQUEDA EN EXCALIBUR.
La búsqueda de información en bases de datos cada vez más gigantescas lleva mucho tiempo. Además, buscar relaciones entre algunos de esos datos puede llegar a resultar complicado.
Excalibur es un sistema de búsqueda en bases de datos que realiza minuciosas búsquedas y no deja nada al azar: es capaz de rastrear información a través de Intranets, archivos escaneados e incluso Internet. Puede recuperar casi todos los formatos de archivos de texto, bases de datos archivos PDF, sistemas de groupware, noticias online, fax, E-mails e imágenes. Su capacidad de búsqueda va de la mano con la gran velocidad con que devuelve los datos.
Es el único sistema de texto que puede analizar términos de consulta como unidades de significado. Cuando entra en una consulta Retrieval no sólo busca conjuntos de palabras exactas, sino que relaciona palabras o conceptos que pueden ser relevantes en su consulta (esto es llamado "Word expansión). Lo que hace que esto sea posible es la red semántica incorporada en el RetrievalWare, incluyendo aproximadamente 285.000 significados y más de 2,5 millones de cadenas de expansión entre palabras, recopiladas de diccionarios electrónicos publicados y otras fuentes léxicas.
La búsqueda semántica es una búsqueda textual basada en el uso de diccionarios electrónicos, tesauros y otras fuentes semánticas, que representan redes semánticas (actualmente en inglés, en francés alemán y español) durante la indización y la búsqueda. La Red Semántica está dispuesta en multicapas, por lo que tiene la utilidad de extender automáticamente el alcance de la búsqueda de información para incluir virtualmente el vocabulario integro del idioma y/o vocabularios temáticos altamente especializados, de acuerdo al tipo de información o a las necesidades de búsqueda.
Estos diccionarios pueden organizarse siguiendo diversas jerarquías de especialización, activadas por la aplicación o por cada usuario, el cual puede añadir sus propias definiciones o conceptos sin afectar a la integridad de la base de conocimiento. Estas redes procesan el lenguaje natural incorporando sintaxis, morfología y el significado real de las palabras tal y como están definidas en los diccionarios y otras fuentes de referencia válidas. El resultado de la búsqueda es el texto ASCII del documento en que los términos pertenecientes se destacan en colores.
También analiza términos de consulta por patrones (en vez de utilizar la expansión semántica), que admite errores en el deletreo en el cuerpo del texto o en el texto de las consultas. Esto es Particularmente útil en aquellos entornos donde los documentos proceden de digitalización y proceso OCR (Reconocimiento Optico de Caracteres). Trabaja con un concepto llamado tecnología Adaptive Pattern Recognition Processing (APRP), y con un motor de búsqueda del tipo Fuzzy Searching (búsqueda difusa)
El Proceso de Reconocimiento Adaptativo de Patrones (APRPTM) de Excalibur aporta un nuevo enfoque al concepto de recuperación de información: diseñado a partir de modelos de sistemas biológicos, utiliza redes neuronales para procesar información.
APRPTM actúa como un sistema auto-organizador que aprende y memoriza patrones binarios extraídos de los datos para indexarlos automáticamente en la información digital. Se crea entonces una memoria basada en patrones que se auto-optimiza a partir del contenido origina de los datos.
Esta capacidad única proporciona grandes ventajas a las aplicaciones: En las aplicaciones de texto, tanto el auto-organizador APRPTM como los índices de patrones dirigidos directamente a los datos eliminan en gran medida la labor de definir atributos manualmente, crear arboles de descriptores, establecer regla expertas o clasificar y etiquetar información en los campos de las bases de datos. esto evita la realización de indexaciones categóricas y proporciona la posibilidad de búsqueda por aproximación
La llamada "búsqueda difusa" es una función basada en la tolerancia a los errores tanto de los datos de entrada como de los términos de la petición. Es muy útil y productiva, especialmente, cuando se digitalizan gran cantidad de documentos y se utilizan procesos de OCR sobre las imágenes digitalizadas.
Está pensado de la misma forma que el sistema nervisoso humano utiliza la red neuronal para procesar información. En otros términos: los datos están compuestos por determinados bits, el sistema crea una memoria basada en estos patrones y, cuando hace una búsqueda, toma en consideración ese conjunto de bits que forman la palabra, frase o lo que sea que se necesita encontrar. Entonces muestra no sólo lo que esté un cien por cien en concordancia con ello, sino que también devuelve los datos que estén cerca.
A partir de estas prestaciones, los usuarios no tienen la necesidad de tener y mantener conocimientos complejos del modo de formular las consultas para encontrar la información La misma información pude ser llamada según diferentes métodos y formas de búsqueda.
4.2. CARACTERÍSTICAS DEL PROGRAMA
El interfaz de usuario del módulo de consulta de INTRANET permite a los usuarios del sistema corporativo "intranet" utilizar el sofisticado motor de búsqueda RetrievalWare para acceder online a las librerías de texto. Con él, se puede efectuar una búsqueda por Concepto, Patrón o Booleana en las bases de datos ya existentes. Se puede guardar la búsqueda de parámetros y resultados para una futura referencia e incluso editar y realizar una consulta más tarde, si así lo desea. También, si el sistema lo incluye, pude guardar la búsqueda de parámetros para utilizarla como filtro para documentos entrantes en tiempo real.
El programa de búsqueda de Intranet RetrievalWare es un programa de HTML que puede aplicarse en cualquier PC o puesto d e trabajo utilizando un navegador. El interfaz de usuario del módulo de consulta de Intranet, sigue el estandar basado en el interfaz de convenciones para la navegación, incluyendo el uso de ventanas
Una vez en el navegador, nos conectamos a la dirección de RetrievalWare:
http:// your hosts name or IP adress/rware/home.html
La ventana de búsqueda de Intranet abre la base de datos, desde la cual puede seleccionar una librería (para realizar las consultas), acceder las consultas almacenadas, o acceder a "archivo" para hojear o consultar.
Las librerías es el grupo bases de datos, grupos de documentos, etc. indexadas de RetrievalWare disponibles para búsquedas. En el caso de realizar una consulta, debe seleccionar una o muchas librerías.
Una vez seleccionada una librería o librerías accedemos a la búsqueda a través de la pestaña de "Buscar"

4.2.1. CÓMO FUNCIONA LA BÚSQUEDA DE RETIEVALWARE
Proporciona tres tipos primarios de búsqueda: Concepto, Patrón y booleano. Puede incluso mezclar estos tipos en una única búsqueda, si lo desea. También ofrece una búsqueda experta (no tratamos en este trabajo)
Búsquedas predefinidas, puedes elegir un estilo de búsqueda genérico (reducida, media, amplia): una vez seleccionado estableces que tipo de búsqueda vas a realizar
En el modo de búsqueda por conceptos. Se utilizan diccionarios de castellano y libros de referencias como conocimientos base, desde el cual puede procesar sus consultas. Estas fuentes proporcionan información sobre los significados de palabras, sintaxis, variaciones de las palabras, y relaciones en ellas. Estas relaciones entre palabras hacen posible la unión de las mismas en un campo semántico.
En la red, cada significado tiene una lista asociada de palabras, indicando cómo cada palabra es unidad a cada significado. Palabras individuales pueden ser unidas a múltiples significados, a diferentes intensidades. Puede controlar cuantas y qué uniones están cruzadas cambiando la expansión del nivel o no utilizando expansión alguna.
La red semántica hace posible la búsqueda por conceptos o unidades de significado, en vez de buscar solamente uniones exactas para sus palabras de consulta. Por ejemplo, una búsqueda de "buscador de trabajo" puede igualmente localizar los conceptos similares de "solicitantes", "candidatos", contratos"

En el tipo de búsqueda por Patrón, puede buscar patrones que se aproximen a su consulta; esto puede ser útil en situaciones en las que tenga datos procedentes de OCR sin verificar, o palabras con varios o complicados deletreos.
El tipo Booleano es un camino rápido para buscar documentos con (o sin) un término(os) especifico(os).

El proceso de búsqueda es como una tubería, introduces palabras de consulta y estas pasan por diversas fases de análisis y de proceso. Este proceso a la vez contrata y expande la lista original de palabras de consulta, hasta que es creada una lista de búsqueda final.
Primeramente, las palabras están señaladas (la señalización descompone la cadena de caracteres en palabras, incluyendo formas especiales como son fechas o números de teléfono) Retrievalware entonces utiliza el diccionario de análisis morfológico (reduciendo palabras a simples formas desglosando sufijos y deletreando plurales) y procesando el idioma (traduciendo frases que tiene un significado distinto cuando van juntas o separadas). También quita ciertas palabras con una pequeña función (como "el" o "de") que proporcionan un pequeño valor localizando la información que esté buscando (lo que conocemos como palabras vacías).
Cuando las palabras de consulta van bajando por la tubería, son expandidas vía al diccionario y a las uniones en la red semántica. Cuando expande las palabras, encuentra otros términos y conceptos relacionados con las palabras de búsqueda y las añade a la lista de términos de búsqueda. La lista de palabras es clasificada, por lo que las palabras exactas de la búsqueda son clasificas en el lugar más alto, después más inmediatos los términos relacionados, y por último los términos más distantes. Esta clasificación de la lista de palabras es utilizada por el programa para buscar los índices de los documentos en la librería. Durante la búsqueda, el programa determina:
Utilizando el tipo concepto
Introduces la consulta en castellano sencillo. Los términos de la consulta son expandidos a lo largo de la red semántica a otros términos relacionados, hacia arriba del nivel de expansión entra en la pestaña de consulta (también escogiendo un estilo de búsqueda, o específicamente estableciendo el nivel de expansión después de haber escogido más opciones)
Los niveles de expansión de palabras determinara que conceptos relacionados el sistema buscará. Cuanto más alto establezca el nivel de expansión, mayor será el retorno, pero la consulta será más lenta (porque muchas más palabras pueden ser añadidas a la consulta).
Utilizando el tipo patrón
Como en las consultas por conceptos, las consultas por patrón son introducidas en castellano sencillo, y puede ser formulado y realizado muy rápidamente. Se suele utilizar una búsqueda Patrón si no está seguro de cómo se deletrea algo, o si está buscando sobre OCR.


En primer lugar nos gustaría señalar que hemos encontrado bastantes dificultades para encontrar literatura especializada, no ya en lo que se refiere a las redes neuronales, sino en como estas son aplicadas al mundo de la documentación.
Gran parte de la literatura consultada sobre RNA es demasiado técnica, dirigida a profesionales, lo que hace difícil su entendimiento a los iniciados en la materia.
La mayoría de las aplicaciones consultadas que utilizaban RNA no presentan claramente la tipología de RNA que utilizan ni tampoco los métodos seguidos en las aplicaciones. Parece que su funcionamiento está reservado, de momento, a cada empresa.
A falta de conocer estudios comparativos sobre la fiabilidad y precisión de estos métodos frente a los tradicionales en lo que se refiere a la recuperación de la información, o sobre satisfacción de usuarios, todo parece indicar que la aplicación de las RNA tienen un interesante futuro en el ámbito de la clasificación y recuperación de la información, sobre todo en el campo concreto de los mapas autoorganizativos.
Son muchas las ventajas que estos nos ofrecen: La clasificación automática, con el consiguiente ahorro de tiempo por parte de los profesionales, la posibilidad de tratar grandes volúmenes de información, la posibilidad de obtener interfaces intuitivas y gráficas, o la relación que se establece de vecindad entre documentos ya que al relacionarlos por su contenido tienden a ocupar puntos cercanos en el mapa. Estas dos últimas son especialmente interesantes desde el punto de vista del usuario cuando este no conoce el contenido de las bases de datos que consulta.
El WEBSOM es de los métodos vistos el que presenta mayores posibilidades ya que permite trabajar a texto completo y ha sido utilizado con éxito en distintos tipos de colecciones, dominios y lenguas.
La calidad en la recuperación documental de la red estará condicionada por la calidad en el entrenamiento de la misma.
Los tiempos empleados en el entrenamiento de la red todavía son largos, y
Las redes neuronales permiten también, a través de la tecnología PRAP, que el usuario no experto pueda recuperar información pertinente utilizando el lenguaje natural, - incluso con errores ortográficos - ya que el sistema almacena patrones de fragmentos de palabras y frases completas, además de permitirle navegar por la información y determinar el grado de exactitud con la que desea trabajar.
La aplicación de las RNA aplicadas al reconocimiento óptico de caracteres (OCR ) junto con el modelo PRAP va a permitir la rápida digitalización de grandes volúmenes de documentación con el consiguiente ahorro de tiempo y personal.
Aunque las investigaciones llevadas a cabo, en su mayoría, se han realizado sobre materias muy específicas, la aplicación de las RNA aplicadas a la gestión de la información están experimentando un auge considerable en la disciplina de la documentación.
Las aplicaciones basadas en los mapas autoorganizativos, el reconocimiento adaptativo de patrones o la minería de datos están aportando ya muchas ventajas, tanto a los profesionales de la información por la automatización de muchas tareas como a sus usuarios a los que ofrece nuevos métodos de recuperación documental.
Excalibur
El objetivo de Excalibur es mejorar la forma en que los usuarios recuperan la información almacenada en los ordenadores . De acuerdo con este objetivo, se ha desarrollado una tecnología puntera mediante la cual los usuarios podrán recuperar la información necesaria utilizando su propio lenguaje. La dificultad reside en aprender a usarlo, es probable utilizar varias horas y dias para poder estudiar y comprender el funcionamiento. Es intuitivo y resutla comodo porque tiene un interface similar a un browser de Internet.
Preferimos emplear el término "Librerias" en vez de la traducción al castellano "Bibliotecas" ya que esta traducción literal no se ajusta al concepto que utiliza Excalibur en las diferentes versiónes que se han hecho, para distinto sistemas de información. Se ha conservado el término Librerias para referirse al conjunto de documentos, bases de datos, archivos, etc que posee el sistema de información.
En las primeras traducciones de este concepto se empleó el término "conversacional" más que el significado real pero que no se ha consolidado.
Las redes semánticas son una representación esquemática del conocimiento, que imita el modo como se procesa el conocimiento en la memoria humana. Se aplican al desarrollo de programas de inteligencia artificial. Las redes semánticas incluyen conceptos y las relaciones entre éstos. Y según los manuales de teoria y los apuntes y técnicos sobre la materia consultados no tiene nada que ver con las redes neuronales.
En parte de los artículos leido nos indicaban que Excalibur utiliza Redes Neuronales, no hemos podido concretar donde funcionan. Tenemos claro que si utiliza la red semántica, aunque en estos momentos el diccionario que tinene (Espasa-Calpe 12 volumenes) no es el más adecuado para trabajar con Prensa Escrita pero perimite incorporar tesauros y lexicos especificos.
RetrievalWare soporta estructuras de diccionarios multicapas y permite la incorporación de términos de diccionarios temáticos especializados que se pueden utilizar por separado o unidos unos a otros. El concepto de diccionario multicapa se refiere a la capacidad de definir dentro de un mismo diccionario diferentes niveles de relación semántica, como sinónimos o antónimos. En cualquier momento se podrá incorporar a la red semántica de RetrievalWare un tesauro . Deja abierta la posibilidad
El manual técnico de Excalibur versión castellana, consultado nos dice que la busqueda por El Proceso de Reconocimiento Adaptativo de Patrones (APRPTM ) de Excalibur aporta un nuevo enfoque al concepto de recuperación de información: diseñado a partir de modelos de sistemas biológicos, utiliza redes neuronales para procesar información. APRPTM actúa como un sistema auto-organizador que aprende y memoriza patrones binarios extraídos de los datos para indexarlos automáticamente en la información digital. Se crea entonces una memoria basada en patrones que se auto-optimiza a partir del contenido origina de los datos.
Por ello pensamos que sea aquí donde Excalibur aplica las redes neuronales, tipo Redes autoorganizativas o no supervisadas. Realizando agrupamiento de patrones (clustering). Crea grupos de docuemtnos entrono a estos patrones y representa la densidad de porbabilidad. Siendo este tipo de red neuronal la más utilizada en el campo de la documentación
Documentos COTEC sobre oportunidades tecnológicas. 13 Redes Neuronales.
MARTÍN DEL BRIO, Bonifacio. Redes neuronales y sistemas borrosos: introducción teórica y práctica. Ed. Ra-ma, Madrid, 1997
MIRA, J. Et.al. Aspectos básicos de la Inteligencia Artificial. Ed. Sanz y Torres, Madrid, 1995
CASTILLO BLASCO, Lourdes. Desarrollo de un tesauro de términos geográficos y conversión en red semántica para su empleo en un sistema de recuperación de información de actualidad. Valencia : Universidad de Valencia, Departamento de Historia de la Ciencia y Documentación, 2000.
GUILLEM BACH, Carlos. "Prensa a la carta : situación actual y posible evolución". Cuadernos de Documentación Multimedia, 6-7 (1997-1998)
Excalibur RetievalWare. Madrid : OCS Software.
System administrators guide: RetrievalWare version 6.0. Columbia : Excalibur Technologies, 1997.
MASEDA, F. "La nueva generación de sistemas de gestión documental: tecnología de redes neuronales aplicada a la información textual". En: Actas de DOCUMAT94, Gijón, 1994.
MOYA ANEGÓN, Felix de. "NeuroIsoc: un modelo de red neuronal para la representación del conocimiento". En: Actas del IV Congreso ISKO-España EOCONSID99
MOYA ANEGÓN, Felix de; HERRERO SOLANA, Víctor; GUERRERO BOTE, Vicente:
La aplicación de las redes neuronales artificiales (RNA) a la recuperación de la información. Anuario SOCADI de Información y documentación, 1998.
MOREIRO GONZALEZ, Jose A.; LOPEZ ALONSO Miguel A.: "Teoría para un modelo conceptual de recuperación de objetos multimedia". En: Actas del IV Congreso ISKO-España EOCONSID99
MARTIN VEGA, A. "Las redes de neuronas artificiales en la recuperación de la información. Algunas fuentes para su estudio". En: Actas de DOCUMAT94, Gijón, 1994.
"Redes neuronales en ocr". Network of Excellence in Neural Networks
http://www.iic.uam.es/neuronet-iic/OCRNeuroNet/ManuscritoOCRNeuroNet.htm (17-5-01)
"Aplicación de técnicas de clasificación de información y redes neuronales para la
definición de arquitecturas para la mejora del proceso software" . García Guzmán, Javier, 1999
WEBSOM - Self-Organizing Maps for Internet Exploration
http://websom.hut.fi/websom (17-5-01)
"Mapas organizados para la minería de datos en procesamiento del lenguaje natural". Vivian Lopez, Batista; Luis Alonso Romero; M.G. Moreno García.
http://otilio.dcs.fi.uva.es/airene/Documentos/AIRENE_docs.html (19-5-01)