Aplicación de las redes neuronales artificiales (RNA) en Documentación

Las redes neuronales artificiales o RNA surgen ante la necesidad de utilizar sistemas que operasen como el cerebro humano, ya que hasta ahora se había conseguido métodos capaces de superar al cerebro humano en cálculos que se consideraban muy difíciles para él, pero en cambio no se podían realizar tareas que el cerebro ejecuta de forma simple a todas horas, como por ejemplo reconocer a una persona o saber discriminar si una persona se ha roto una pierna en base al resultado de una exploración o de una prueba.

1.2. ¿CÓMO ACTÚAN LAS RNA?

Las características más importantes del funcionamiento del cerebro como sistema e computación son las siguientes:

es robusto
es flexible, se adapta al entorno
puede tratar información ambigua o incompleta
es pequeño, compacto y consume poca potencia

Las redes neuronales pretenden conseguir todas estas características.

Como el comportamiento del cerebro se debe a la interacción de millones de células nerviosas, las RNA pretenden desarrollar un equivalente algorítmico de los procesos de reconocimiento y aprendizaje.

De tal manera, podríamos definir la red neuronal artificial como una implementación, en hardware o software, de un sistema de procesamiento de datos que intenta emular las funciones computacionales elementales de la red nerviosa del cerebro humano. Su propiedad esencial es que implementan un nuevo paradigma de computación muy útil en problemas que no se adecuan bien a las estructuras convencionales de cálculo. Mediante este procedimiento las redes neuronales pueden extraer información estructural de masas de datos complicados o imprecisos, que sinteticen una descripción del fenómeno que ha generado estos datos, es decir, simulan las funciones de un experto en el tema, capaz de enfrentarse con cierto grado de eficacia a situaciones nuevas.

De tal manera, las RNA pretenden imitar la estructura y funcionamiento del cerebro humano con el fin de resolver problemas prácticos mediante la construcción de sistemas de procesamiento de la información paralelos (sobre diferentes sectores a la vez), distribuidos (de modo que si una zona se pierde no cae toda la red) y adaptativos (aprenden de la experiencia pudiendo generalizar conceptos a partir de casos particulares) que puedan representar un cierto comportamiento inteligente.

1.3. ELEMENTOS DE UNA RNA

Todas las RNA tienen unos elementos en común que son los siguientes:

Neuronas y los elementos que la forman: valor, señal de salida, peso de la sinapsis (factor asignado a cada sinapsis), entrada total, función de salida, función de activación y reglas de aprendizaje (permiten modificar los pesos de la sinapsis).

Capa o nivel: conjunto de neuronas cuya capa tiene su origen en la misma fuente y cuyas salidas van al mismo destino.

Tipos de capas: entrada (reciben estímulos externos), ocultas (representación interna de la información) y salida.

Conexión entre neuronas: propagación hacia delante (ninguna salida de las neuronas es entrada del mismo nivel o niveles superiores) y propagación hacia detrás (la salida de las neuronas pueden ser entradas del mismo nivel o niveles anteriores y también de ellas mismas).

Dinámica: asincrónica (evalúan su estado continuamente, según les llega información), sincronía (cambios a la vez en todas las neuronas).

1.4. TIPOS DE RNA

Existen diversos tipos de redes neuronales. En este trabajo vamos simplemente a nombrarlas para que pueda haber una visión de conjunto.

Redes neuronales supervisadas: pueden emplearse como clasificadores de patrones, estimadores de funciones multivariadas o memorias asociativas.

Redes autoorganizadas o no supervisadas: en su entrenamiento no presentan las salidas objetivo que se desean asociar a cada patrón de entrada, será la red la que proporcione cierto resultado. La principal aplicación es la realización de agrupamiento de patrones (clustering), visualización de datos y representación de densidades de probabilidad, es por tanto, la más utilizada en el campo de la documentación.

Redes neuronales realimentadas: son más complicadas que las dos anteriores. En este caso la información se propaga tanto hacia delante como hacia atrás, comportándose como un sistema dinámico, de difícil análisis y en el que deberá garantizarse la estabilidad de su respuesta.

1.5. CARACTERÍSTICAS DE LAS RNA

Sin embargo, todas ellas tienen unas características en común. Son las siguientes:

Clasificación: puede identificar datos y clasificarlos en clases. A diferencia de las técnicas tradicionales puede generar para un problema concreto estructuras específicas de identificación de características.

Asociación: la red funciona como un proceso de recuperación de un dato a partir de una entrada relacionada con el dato almacenado

Agrupamiento: cuando no se produce una clasificación de los datos de entrada, es la red la que genera esta clasificación a medida que se va produciendo la señal.

Generalización: las redes pueden detectar las relaciones subyacentes entre diferentes elementos, y por tanto, pueden extrapolar las relaciones numéricas presentes en los datos disponibles en situaciones similares.

Optimización: cuando es necesario elegir la opción óptima entre diferentes alternativas, las redes proporcionan un procedimiento relativamente rápido para generar una solución subóptima que es suficientemente satisfactoria.

Predicción y control: la flexibilidad de las redes neuronales las hace adecuadas para la predicción ya que el sistema va aprendiendo y puede seguir de manera versátil estos cambios.

1.6. VENTAJAS DE LAS RNA

A diferencia de la computación tradicional, basada en algoritmos predecibles, la computación neuronal permite desarrollar sistemas que resuelven problemas complejos cuya formalización matemática es sumamente difícil. Esto se logra gracias a las RNA.

Los principios de funcionamiento de las RNA a tener en cuenta son:

Aprendizaje adaptativo: las RNA pueden comportarse en función de un entrenamiento con una serie de ejemplos ilustrativos. Una RNA es adaptativa porque puede modificarse constantemente con el fin de adaptase a nuevas condiciones de trabajo.

Autoorganización o generalización: una red puede responder a datos o situaciones que no ha experimentado antes, pero que pueden inferir en base a su entrenamiento (muy útil sobre todo cuando la información de entrada es poco clara o incompleta).

Tolerancia a fallos: las redes pueden reconocer patrones de información con ruido, distorsión o incompletos (tolerancia a fallos respecto de los datos); y por otra parte, pueden seguir trabajando (con cierta degradación) aunque se destruya parte de la red (tolerancia a fallos respecto de la estructura). La explicación de este fenómeno se encuentra en que, mientras la computación tradicional almacena la información en espacios únicos, localizados y direccionales, las redes neuronales o hacen de forma distribuida y con un alto grado de redundancia.

Operación en tiempo real: de todos los métodos existentes, las RNA son las más indicadas para el reconocimiento de patrones en tiempo real, debido a que trabajan en paralelo actualizando todas las instancias simultáneamente.

Fácil inserción en la tecnología existente: es relativamente sencillo obtener chips especializados para redes neuronales que mejoran su capacidad en ciertas tareas. Ello facilita la integración modular en los sistemas existentes.

2. LIMITACIONES DE LOS SISTEMAS TRADICIONALES DE GESTIÓN DOC.

Tradicionalmente, un profesional infiere una estructura a partir de información documental no estructurada que, implementada en una aplicación informática permite con posterioridad recuperar información.

Esta estructuración se realiza habitualmente mediante dos métodos:

El método de las tablas relacionales. De la información, no estructurada del documento se extraen una serie de palabras clave que lo identifican, para después recuperar esas palabras como valores de los campos de un registro predefinido. Lo que tenemos es, pues, un sistema que gestiona una referencia del documento.

El método de índices invertidos. A la información no estructurada del documento se sobreponen un conjunto de términos, previamente definidos como entradas a una estructura de árbol invertido. Disponemos pues de campos de texto en los que podemos recuperar por contenido con independencia de la posición que ocupe el término.

Las principales limitaciones de estos métodos serían:

1.- Los procesos de estructuración mediante estos métodos son subjetivos y rígidos.

2.- Resulta poco operativo para el usuario frente a los autores de la aplicación.

3.- Si con el paso del tiempo, hay nuevas necesidades de búsqueda, la tarea de reindexación es complicada, lenta y costosa.

3. APLICACIÓN DE LAS RNA EN LA GESTIÓN DE LA INFORMACIÓN

3.1. MAPAS AUTOOORGANIZATIVOS. CLASIFICACIÓN Y RECUPERACIÓN DE LA INFORMACIÓN

Las relaciones que se establecen entre los componentes que describen y definen la información son muy importantes para poder seleccionar posteriormente, de forma inteligente la información que contiene la base de conocimiento.

La clasificación automática de la información, y el modo en que esta es recuperada son los campos donde más se han aplicado las RNA.

El fin último de las aplicaciones descritas a continuación es desarrollar un modelo de representación del conocimiento que se asemeje a la forma en la que opera la mente humana, potenciando el sistema de browsing y posibilitando la interactividad y las relaciones multidimensionales en la recuperación de la información.

3.1.2. MAPAS AUTOORGANIZATIVOS DE KOHONEN

Kohonen demostró que , suponiendo una estructura propia y una descripción funcional del comportamiento de la red, una información de entrada por sí sola, era suficiente para forzar la formación de mapas topológicos. Estos mapas presentan la característica de organizar la información de entrada clasificándola automáticamente.

Una de las variantes de modelo es la llamada "Mapa de Preservación Topológica" (Topology-Preserving Map) o TPM, también conocida como "mapa auto-organizativo" (Self-Organizing Map) o SOM, y tiene la particularidad de que la salida en el SOM es bidimensional.

Basadas en las propiedades topológicas que presenta el cerebro humano, estas redes neuronales pueden adaptar sus respuestas de tal forma que la posición de la célula que produce la respuesta pasa a ser específica de una determinada característica de la señal de entrada

Se trata de establecer una correspondencia entre la información de entrada y un espacio de salida de dos dimensiones, o mapa topológico. De esta manera, los datos de entrada con características comunes activarán zonas próximas del mapa.

Este modelo de red representa sus neuronas de salida dispuestas de manera bidimensional. Cuando se ingresa un dato a la red esta reacciona de forma que solo una neurona de la capa de salida resulta activada. A esta neurona se la llama vencedora y determina un punto en el mapa bidimensional. De esta manera se clasifica la información de entrada, ya que la neurona ganadora representa la clase a la que pertenece la entrada, además de que ante entradas similares se activará siempre la misma neurona. Por tanto, la red es sumamente indicada para establecer relaciones, desconocidas previamente, entre un conjunto determinado de datos.

El método de aprendizaje del modelo SOM se denomina competitivo y es del tipo no supervisado y off-line.

Dos limitaciones hay que tener en cuenta: 1) el proceso de aprendizaje suele ser largo y arduo, y 2) para aprender nuevos datos es necesario repetir el proceso de aprendizaje por completo.

No obstante, la versatilidad de este tipo de red es muy amplia, lo que le permite clasificar todo tipo de información.

3.1.3. LOS MAPAS DE XIA LIN

Xia Lin, utiliza los mapas autoorganizados por características de Kohonen con el fin de generar una salida de una determinada colección de documentos que se pueda visualizar.

Lin genera sus mapas siguiendo el siguiente proceso:

1.- Se contruye una lista que incluya todos los términos que aparecen en los títulos y resúmenes de todos los documentos de la colección.

2.- Se eliminan los términos irrelevantes mediante una lista de palabras vacías.

3.- Se llevan los términos a su raíz y se reduce su número. Se liminan duplicados.

4.- Se eliminan los términos con alta y baja frecuencia de aparición.

5.- Se crea un vector para cada documento de n dimensiones, tal que n es el número de términos que han quedado en la lista.

6.- Se completa cada vector con el peso asociado a cada término-documento. A mas frecuencia del término en el documento, mayor es su peso.

7.- Estos vectores se utilizan como entrada para entrenar una red de Kohonen con n elementos de entrada (tal que n sea igual a la cantidad de términos de cada vector), y un número variable de salidas (p.ej. 10 x 14 = 140 neuronas), que supondrá el tamaño del mapa de salida.

8.- Este mapa de salida estará representado también por un vector de pesos al que en un principio se le asignan valores pequeños y al azar.

9.- Durante el proceso de entrenamiento se tomará un vector-documento al azar. La neurona de salida cuyo vector se parezca más al vector-documento de entrada, será declarada neurona ganadora. Luego los pesos de esta neurona (y los de sus vecinas), serán ajustados para acercarse aún más a los valores del vector-documento.

10.- Este proceso se repite durante un determinado número de ciclos. Cuando el proceso de entrenamiento ha finalizado cada término se compara con los pesos de las neuronas de salida, de esta forma se asocia el término más cercano a cada una de las salidas.

Conectando las neuronas de salida con similares términos asociados se generarán las diferentes áreas del mapa.

Al mapa de salida se le pueden añadir herramientas complementarias de visualización, para obtener menús desplegables para cada nodo y facilitar el examen y visualización de la información representada en el mapa.

La aplicación de este modelo parece ser uno de los más prometedores en la clasificación automática mediante redes neuronales, a pesar de las limitaciones para trabajar con grandes volúmenes de información y el alto costo de procesamiento de la información.

Existen en la actualidad algunas aplicaciones que presentan un mapa de visualización para nodos Internet.

3.1.4. WEBSOM

El propio Kohonen y su grupo de trabajo, sobre la misma línea de Xia Lin desarrolló WEBSOM, un sistema que permite ordenar automáticamente grandes masas de información en texto completo, con el fin de facilitar su exploración y navegación.

Se trabajo a partir e los artículos del grupo de noticias Usenet .

El tratamiento de este tipo de información es algo complicado debido a que, a diferencia de los mapas de Xia Lin donde se organiza información formal (artículos, ponencias, patentes, etc.), en los grupos Usenet se encuentran mensajes coloquiales, sin un formato específico, generalmente con errores ortográficos y sin correción de estilo.

No obstante, el sistema es capaz de ordenar temáticamente de forma satisfactoria más de 4600 mensajes que contienen cerca de 1200000 palabras.

El método utilizado consta de los siguientes pasos:

1.- Se toman los mensajes y se elimina la información no textual. Los códigos especiales y las expresiones numéricas son tratadas mediantes reglas heurísticas.

2.- Se desestiman aquellas palabras que presentan una baja ocurrencia.

3.- Con el fin de enfatizar el tema de cada mensaje, se eliminan las palabras comunes que dificultan la discriminación temática.

4.-Con estas palabras se genera un primer mapa (SOM) de categorías de palabras. Estas son ordenadas en un mapa de dos dimensiones de acuerdo a sus relaciones, de forma tal que las palabras que tienden a aparecer en el mismo nodo (o en uno cercano), forman la misma categoría.

5.- Este mapa es utilizado como un histograma que filtra la información de los documentos. Con la información filtrada y difuminada se genera un segundo mapa

El producto final es un mapa, donde cada documento ocupa un lugar en el espacio en función de sus contenidos temáticos. Cada área del mapa refleja un contenido específico y los tópicos van variando levemente a lo largo del mismo. Las diferentes tonalidades indican la densidad de documentos, cuanto más oscura más documentos encontraremos.

El intefaz de usuario para consultar el mapa se ha implementado en HTML y permite la exploración en cuatro niveles:

El nivel 1 ( mapa global ) nos presenta un mapa sensible con la totalidad del espacio documental. Si seleccionamos una región del mismo, esta aparecerá aumentada en un mapa similar (nivel 2).

En el nivel 2 ( zona aumentada ) es posible "moverse" hacia áreas vecinas sin necesidad de volver al mapa general y gracias a una herramienta que indica mediante flechas el rumbo a tomar.

Cuando seleccionamos una región de este segundo mapa accedemos al nivel 3

En el nivel 3 ( mapa de nodos ) obtenemos una lista de los mensajes o nodos de dicha región desde la que podemos seleccionar el mensaje deseado (nivel 4)

En el nivel 4 ( vista del mensaje ) simplemente accedemos al mensaje.

http://websom.hut.fi/websom ( demostración del funcionamiento de los mapas de WEBSON ).

NIVEL 1 – MAPA GLOBAL

NIVEL 2 – ZONA AUMENTADA

NIVEL 3 – MAPA DE NODOS

3.1.5. ET-MAP

Desarrollado por la Universidad de Arizona, este sistema intenta brindar, de forma automática y escalable, una aproximación temática a la categorización y búsqueda de información en la red. El proyecto se realizó siguiendo los siguientes pasos:

Se analizó el contenido de más de 110000 homepages del campo del entretenimiento.

Valiéndose del modelo SOM de Kohonen, se construyó con dicha información un mapa de dos niveles con diferentes regiones temáticas.

En aquellas regiones con más de 100 URLs, es posible acceder a un nuevo mapa más detallado, mientras que con menos de 100 URLs, se accede a una lista de ellos.

El mapa se actualiza constantemente gracias a unos agentes que rastrean la red.

sistema es muy similar a los mapas de Lin o WEBSOM.

3.1.6. NEUROISOC: Un modelo de RNA para la base de datos del CSIC

El modelo de red neuronal de Kohonen es el que utilizó el CSIC en el desarrollo de la interfaz NeuroIsoc que representa las relaciones existentes entre las distintas materias de los documentos contenidos en la base de datos ISOC.

La clasificación de esta base de datos es sistemática y jerárquica, y se estructura en diecisiete jerarquías temáticas.

Los conjuntos de documentos se han formado a partir de los códigos de clasificación utilizados en dicha base de datos.

En el primer nivel se generó una matriz que representa las relaciones existentes entre las jerarquías, para lo que se realizaron las búsquedas necesarias por cada nivel de clasificación temática.

El mapa resultante de la aplicación expresa, en forma de áreas rectangulares, la coocurrencia de los números de clasificación de las diferentes materias.

El tamaño de las áreas representa la frecuencia con la que el número de clasificación pertinente co-ocurre con otras clases de la base de datos, de forma que cuantas más relaciones se establecen entre un área y las restantes, mayor es el tamaño del área en cuestión.

Las áreas ( de cuatro o más lados ) ocupan su lugar al desplegarse en función del mayor o menor contacto entre ellas, siendo la propia red neuronal la que busca la topología óptima estableciendo las relaciones de vecindad.

Las aplicaciones descritas presentan una nueva forma de representación y visualización del conocimiento. La posibilidad de tratar grandes volúmenes de información, obtener intefaces intuitivas y gráficas y el hecho de que lo que se representa son relaciones entre conceptos influye substancialmente en la manera en que el usuario se enfrenta al proceso de búsqueda y recuperación de la información.

3.2. PROCESO DE RECONOCIMIENTO ADAPTATIVO DE PATRONES ( PRAP )

El modelo PRAP es un modelo de identificación de patrones, basado en redes neuronales, válido para la creación de índices y aplicable a todo tipo de datos multimedia.

Los sistemas basados en metodología PRAP se caracterizan porque los datos dirigen: la creación de la red neuronal, la creación de las variables, la creación de las "reglas expertas" y la creación de los índices.

Los nuevos algoritmos inteligentes utilizados son capaces de aprender y decidir sus propias reglas en función de los datos simulando procesos cognitivos.

La metodología PRAP para la indexación y recuperación de textos aportan cinco ventajas funcionales con respecto a los sistemas de gestión documental "tradicionales":

Indexación automática de todo el contenido

Búsqueda difusa o borrosa

Precisión a través de una indexación integrada

Uso de menos recursos

Velocidad de recuperación

Indexación automática. Es la propia red neuronal la que descubre los patrones binarios del contenido del documento que es indexado. Cada red neuronal se convierte en una memoria basada en el contenido, que es optimizada para el documento en cuestión que gestione el sistema.

El sistema define unos patrones que van desde el fragmento de una palabra a una frase completa, pudiendo recuperar mediante el lenguaje natural la información.

Búsqueda difusa o borrosa. Se refiere a la capacidad de recuperar la información por aproximación, ya que la tecnología PRAP trabaja con patrones y no con palabras clave y un error de dos o tres letras en una palabra o en una frase no es significativo como para cambiar el patrón básico que forman las letras de un texto. Es especialmente útil cuando la entrada de datos se realiza mediante OCR.

Uso de menos recursos. El hecho de que la indexación sea automática permite mantener un elevado volumen de datos de entrada sin grandes recursos ni esfuerzos en definir tablas de palabras clave o reglas

Precisión a través de una indexación integrada. El sistema permite al usuario determinar el grado de exactitud con el que desea interrogar, controlando así el nivel de precisión de la respuesta del sistema por lo que se puede "navegar" por la información cuando no se busca una respuesta "correcta".

Velocidad de recuperación. El índice es mantenido en un tamaño mínimo y puede ser cargado en la memoria del ordenador y operar a gran velocidad por medio de operaciones booleanas.

3.3. UTILIZACIÓN DE REDES NEURONALES EN EL OCR

Para el ser humano es relativamente sencillo reconocer los patrones de la escritura manuscrita siendo que esta tarea es sumamente difícil para la computadora.

Un ejemplo típico de red neuronal aplicada al reconocimiento de patrones son los OCR o programas de reconocimiento óptico de caracteres escritos. De acuerdo con Werbos (1998) el 50% de los sistemas de OCR se basan en redes neuronales.

Un programa de OCR consiste en un software que trata de convertir la imagen digitalizada de un documento manuscrito, fotocopiado, etc., en un archivo de texto plausible de ser utilizado por algún procesador de texto.

Los programas de OCR diseñados sobre bases algorítmicas son los mas populares hasta el momento, pero poseen un grado apreciable de inexactitud cuando el texto presenta " ruido " , es decir cuando el original contiene manchas ( como las producidas al fotocopiar una pagina ) o símbolos mezclados con el texto ( un dibujo ).

Los programas de OCR basados en el reconocimiento de patrones ( como las redes neuronales ) son capaces de leer y reconocer textos manuscritos o escritos a máquina, de imprenta o de impresora, convirtiéndolos en texto ASCII, editable por el usuario con cualquier programa de tratamiento de textos convencional.

Resulta muy útil para documentos en otros idiomas que pueden ser digitalizados usando el OCR para traducirlos después con un software apropiado, o para digitalizar formularios escritos, especialmente cuando hay que hacerlo en grandes volúmenes.

En documentación manuscrita se requiere una separación entre los caracteres al igual que entre las palabras sucesivas. En la actualidad no se dispone de instrumentos para la segmentación. La separación de campos tienen que estar prevista en el formulario antes de iniciar el proceso. También la calidad de cumplimentación de formularios incidirá en la calidad del reconocimiento.

Para la optimización de los resultados, el modulo OCR debe disponer de un modulo de videocorrección. Este modulo debe de estar situado entre el primer modulo para la manipulación física de los documentos y su escaneo y un último modulo de manipulación sobre bases de datos.

El modulo OCR dispone de tres componentes funcionales.

Submodulo de localización de campos y extracción de caracteres. Permitirá el tratar grandes volúmenes de documentos.

Submodulo de reconocimiento de caracteres individuales. se realiza mediante la técnica neuronal de empleo de Perceptrones Multicapa

Submodulo de validación e interpretación parcial. Ante una información concreta se pueden cruzar datos almacenados anteriormente. Para una optimización de las consultas se pueden utilizar índices.

Previo a la videocorrección la biblioteca puede:

Seleccionar imágenes de los campos a tratar, dados como coordenadas sobre la imagen del correspondiente documento, así como el resultado del reconocimiento parcial de los mismos

Definir para las mismas y sobre cada documento un orden de presentación en videocorrección

Incorporar mecanismos para la interpretación de campos pendientes de un documento en función del resultado de la videocorrección de otros anteriores.

Es frecuente que se queden caracteres sin identificar. La productividad de OCR no esta tanto en no tener un solo error, si no en su capacidad de procesar enormes cantidades de documentos

El ICR o Reconocimiento Inteligente de Caracteres, permite que un scanner "lea" un documento y pase el contenido a una base de datos.

Con eso, se acaba la digitalización manual de los textos, mejorando en tiempo de proceso y en porcentaje de errores. El sistema basado en redes neuronales puede leer una declaración de renta en tres segundos que es todo un récord comparado con el digitalizador más rápido, que tarda diez segundos por hoja.

No obstante, el ICR es aún una forma cara de enfrentar el problema para los usuarios "normales" en oficinas y casas.

Los software de última generación tienen la capacidad de "aprender" a medida que van siendo usados, para reconocer cada vez más tipos diferentes de letras. Entre éstos, destacan los programas OmniPage de Caere y Corel Trace! de Corel Corporation.

En España, el Instituto de Ingeniería del Conocimiento de la Universidad Autónoma de Madrid ha desarrollado varios productos -RAMA 32, ICARO, RAISS-, para el reconocimiento óptico de caracteres en formularios de empresa.

3.4. MINERIA DE DATOS

Se trata de metodologías para la selección y recuperación de información especializada, a partir de bases de datos no previamente estructuradas. Estas deberán permitir un tipo de estructuración rápida que coloque automáticamente la información en bases de conocimiento especializadas. De estas últimas podrá ser recuperada como conocimiento adecuado a las relaciones de los usuarios: conceptos, relaciones, clasificaciones, reglas de decisión, etc.

Se llama minería de datos (data mining) al estudio de la recuperación de la información en condiciones adversas ( mucho ruido, búsquedas incompletas ), y con diversos tipos de datos ( números, registros estructurados, texto libre, etc ).

La Minería de Datos formalmente, es un conjunto de técnicas de análisis automático o semi-automático que permiten el descubrimiento de patrones, asociaciones, relaciones, cambios y anomalías entre los datos que sean interesantes para el tomador decisiones.

Para obtener información provechosa que no está representada explícitamente en los datos, la minería de datos debe ser conjuntada con otras técnicas de análisis de datos que utilizan tecnologías actuales como la inteligencia artificial, las redes neuronales y el reconocimiento de patrones entre otras.

Uno de los campos en que se ha trabajado en este sentido es el del aspecto semántico del lenguaje. En este sentido, los mapas autoorganizativos pueden utilizarse en la solución de ambigüedades contextuales actuando como clasificadores semánticos, para realizar una correcta elección del significado, determinada fundamentalmente por el contexto. Los mapas autoorganizativos son adecuados además para la clasificación de la información sintáctica, lo que puede ser utilizado en minería de datos para brindar los siguientes beneficios:

1.- Proporcionar una imagen global de la estructura y los tipos de contextos existentes en una base de datos lingüística o documental.

2.- Proporcionar un método de selección de un grupo de términos lingüísticos o documentos de interés.

3. Facilitar el trabajo de los clasificadores o indizadores humanos que pueden buscar relaciones entre los documentos (o términos) que se proyecten en unidades del mapa. De esta forma puede obtenerse de manera automática tanto para diccionarios electrónicos como para bases de datos documentales:

a) La determinación de un conjunto reducido de términos claves.

b) La representación vectorial de los documentos en función de dichos términos claves.

c) La organización automática global de los documentos o diccionarios por temas.

d) Organización automática de palabras en clases semánticas

4.- Aportar un método para solucionar ambigüedades a nivel contextual y pragmático, que permite el desarrollo de software capaz de extraer automáticamente patrones léxicos y textuales a partir de las características lingüísticas internas de los textos que componen los córpora.

Otro de los objetivos de estudio en minería de datos ha sido la extracción de información relevante. En este sentido la empresa Integral Solutions Ltd. desarrolla la aplicación Clementine con el objetivo de extraer el valor agregado de la información.

Este sistema permite acceder al contenido de diversas bases de datos, permite la posibilidad de seleccionar registros para su manipulación, mediante las redes neuronales y la inducción de reglas es posible que el sistema "aprenda" a tomar ciertas decisiones sin supervisión humana, y la visualización de los datos puede realizarse de diferentes formas: histogramas, nubes de puntos, redes de relaciones, etc. Todas ellas interactivas.

El proceso de minería de datos pasa por los siguientes estadios:

PREPROCESADO DE LOS DATOS

El formato de los datos contenidos en la fuente de datos nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto". Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos o se reducen el número de valores posibles

SELECCIÓN DE CARACTERISTICAS

La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería.

Los métodos para la selección de características son básicamente dos:

Aquellos basados en la elección de los mejores atributos del problema,

Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.

USO DE UN ALGORITMO DE EXTRACCION DE CONOCIMIENTO

Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables.

INTERPRETACIÓN Y EVALUACIÓN

Comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema.

4. EXCALIBUR

El objetivo de Excalibur ha sido siempre el mismo: mejorar la forma en que los usuarios recuperan la información almacenada en los ordenadores. En lugar de pedir a los usuarios que se adapten a la tecnología, buscamos que ésta se adapte a la forma de pensar y trabajar de las personas. De acuerdo con este objetivo, se ha desarrollado una tecnología puntera mediante la cual los usuarios podrán recuperar la información necesaria utilizando su propio lenguaje natural y su sentido común.

Excalibur proporciona potentes soluciones construidas sobre una arquitectura abierta, flexible, adaptable, de fácil implantación y preparada para el futuro. RetrievalWare de Excalibur constituye la primera familia de componentes de software con arquitectura cliente/servidor para la recuperación de la información dentro del amplio espectro de la información digital, incluyendo texto imágenes documentales y datos multimedia. Las aplicaciones llave en mano de RetrievalWare, los kits de herramientas multicapa del APRP de Excalibur y las Redes Semánticas pueden integrarse en los sistemas de información de grupos de trabajo, empresas o redes, e Internet.

Las aplicaciones y componentes de RetrievalWare hacen que el manejo de las herramientas sea fácil y de gran potencia. Los usuarios encuentran con precisión los datos requeridos mientras navegan por bases de datos cada vez más voluminosas, bien en entornos de grupos de trabajo o en Internet.

Ofrece una alternativa inteligente a los sistemas tradicionales: EL APRP, el Procesamiento de Lenguaje natural y las Redes Semánticas proporcionan niveles sin precedentes de precisión, flexibilidad y facilidad de uso en la recuperación de todo tipo de información. Así el usuario no tiene la necesidad de aprender lenguajes de interrogación complejos sino que accede a los documentos basándose en su significado y contenido.

Igualmente importante es la capacidad para mejorar la productividad y reducir costes en la explotación de los sistemas de gestión. Ello, porque elimina los pre-procesamientos de datos y mejora el proceso de decisón-ejecución mediante acceso rápido y preciso a la información más relevante. En programas de estas características, la dificultad casi siempre reside en aprender a usarlos. Es muy común que se necesiten varias horas de entrenamiento para poder estudiar y comprender el funcionamiento. Pero para que los usuarios se sientan más identificados con el programa, y que resulte más cómodo tiene una interface similar a un browser de Internet.

A la hora de estudiar el programa nosotros hemos centrado nuestra investigación en la opción de búsqueda que nos ofrece, sin incidir en como almacena la información, ni como organiza o clasifica esta. Vamos a ver la búsqueda a través de Intranet.

4.1. LA BÚSQUEDA EN EXCALIBUR.

La búsqueda de información en bases de datos cada vez más gigantescas lleva mucho tiempo. Además, buscar relaciones entre algunos de esos datos puede llegar a resultar complicado.

Excalibur es un sistema de búsqueda en bases de datos que realiza minuciosas búsquedas y no deja nada al azar: es capaz de rastrear información a través de Intranets, archivos escaneados e incluso Internet. Puede recuperar casi todos los formatos de archivos de texto, bases de datos archivos PDF, sistemas de groupware, noticias online, fax, E-mails e imágenes. Su capacidad de búsqueda va de la mano con la gran velocidad con que devuelve los datos.

Es el único sistema de texto que puede analizar términos de consulta como unidades de significado. Cuando entra en una consulta Retrieval no sólo busca conjuntos de palabras exactas, sino que relaciona palabras o conceptos que pueden ser relevantes en su consulta (esto es llamado "Word expansión). Lo que hace que esto sea posible es la red semántica incorporada en el RetrievalWare, incluyendo aproximadamente 285.000 significados y más de 2,5 millones de cadenas de expansión entre palabras, recopiladas de diccionarios electrónicos publicados y otras fuentes léxicas.

La búsqueda semántica es una búsqueda textual basada en el uso de diccionarios electrónicos, tesauros y otras fuentes semánticas, que representan redes semánticas (actualmente en inglés, en francés alemán y español) durante la indización y la búsqueda. La Red Semántica está dispuesta en multicapas, por lo que tiene la utilidad de extender automáticamente el alcance de la búsqueda de información para incluir virtualmente el vocabulario integro del idioma y/o vocabularios temáticos altamente especializados, de acuerdo al tipo de información o a las necesidades de búsqueda.

Estos diccionarios pueden organizarse siguiendo diversas jerarquías de especialización, activadas por la aplicación o por cada usuario, el cual puede añadir sus propias definiciones o conceptos sin afectar a la integridad de la base de conocimiento. Estas redes procesan el lenguaje natural incorporando sintaxis, morfología y el significado real de las palabras tal y como están definidas en los diccionarios y otras fuentes de referencia válidas. El resultado de la búsqueda es el texto ASCII del documento en que los términos pertenecientes se destacan en colores.

También analiza términos de consulta por patrones (en vez de utilizar la expansión semántica), que admite errores en el deletreo en el cuerpo del texto o en el texto de las consultas. Esto es Particularmente útil en aquellos entornos donde los documentos proceden de digitalización y proceso OCR (Reconocimiento Optico de Caracteres). Trabaja con un concepto llamado tecnología Adaptive Pattern Recognition Processing (APRP), y con un motor de búsqueda del tipo Fuzzy Searching (búsqueda difusa)

El Proceso de Reconocimiento Adaptativo de Patrones (APRPTM) de Excalibur aporta un nuevo enfoque al concepto de recuperación de información: diseñado a partir de modelos de sistemas biológicos, utiliza redes neuronales para procesar información.

APRPTM actúa como un sistema auto-organizador que aprende y memoriza patrones binarios extraídos de los datos para indexarlos automáticamente en la información digital. Se crea entonces una memoria basada en patrones que se auto-optimiza a partir del contenido origina de los datos.

Esta capacidad única proporciona grandes ventajas a las aplicaciones: En las aplicaciones de texto, tanto el auto-organizador APRPTM como los índices de patrones dirigidos directamente a los datos eliminan en gran medida la labor de definir atributos manualmente, crear arboles de descriptores, establecer regla expertas o clasificar y etiquetar información en los campos de las bases de datos. esto evita la realización de indexaciones categóricas y proporciona la posibilidad de búsqueda por aproximación

La llamada "búsqueda difusa" es una función basada en la tolerancia a los errores tanto de los datos de entrada como de los términos de la petición. Es muy útil y productiva, especialmente, cuando se digitalizan gran cantidad de documentos y se utilizan procesos de OCR sobre las imágenes digitalizadas.

Está pensado de la misma forma que el sistema nervisoso humano utiliza la red neuronal para procesar información. En otros términos: los datos están compuestos por determinados bits, el sistema crea una memoria basada en estos patrones y, cuando hace una búsqueda, toma en consideración ese conjunto de bits que forman la palabra, frase o lo que sea que se necesita encontrar. Entonces muestra no sólo lo que esté un cien por cien en concordancia con ello, sino que también devuelve los datos que estén cerca.

A partir de estas prestaciones, los usuarios no tienen la necesidad de tener y mantener conocimientos complejos del modo de formular las consultas para encontrar la información La misma información pude ser llamada según diferentes métodos y formas de búsqueda.

4.2. CARACTERÍSTICAS DEL PROGRAMA

El interfaz de usuario del módulo de consulta de INTRANET permite a los usuarios del sistema corporativo "intranet" utilizar el sofisticado motor de búsqueda RetrievalWare para acceder online a las librerías de texto. Con él, se puede efectuar una búsqueda por Concepto, Patrón o Booleana en las bases de datos ya existentes. Se puede guardar la búsqueda de parámetros y resultados para una futura referencia e incluso editar y realizar una consulta más tarde, si así lo desea. También, si el sistema lo incluye, pude guardar la búsqueda de parámetros para utilizarla como filtro para documentos entrantes en tiempo real.

El intefaz de búsqueda de Intranet le permite realizar lo siguiente:

Escoger las librerías a consultar

Escoger significados para sus términos de consulta y establecer los niveles de expansión semántica que determinarán aquellos términos relacionados que van a ser automáticamente añadidos en la consulta.

Búsqueda por similitud, búsqueda de rangos en campos numéricos y de fecha, y frases exactas.

Búsqueda utilizando operadores Booleanos

Establecer un máximo número de documentos a ser recogidos

Filtar su consulta a través de los campos de datos asociados a los documentos. Así se limitará la búsqueda a ciertas categorías de documentos, por ejemplo resúmenes, propuestas, etc.

Utilizar un único documento recogido para encontrar otros como él.

Refinar la búsqueda sobre un grupo original de documentos devueltos

Ordenar las listas de documentos clasificándolos según diferentes criterios: por relevancia, por algún campo elegido, cronológicamente, etc.

Crear agentes de búsqueda en tiempo real que automáticamente recogen los documentos entrantes que respondan a la clave de búsqueda definida.

Las opciones de consulta son parámetros que introduces, de acuerdo con la consulta, define el alcance de la búsqueda. Ajustando estas opciones es una manera de estrechas o expandir una búsqueda.

El programa de búsqueda de Intranet RetrievalWare es un programa de HTML que puede aplicarse en cualquier PC o puesto d e trabajo utilizando un navegador. El interfaz de usuario del módulo de consulta de Intranet, sigue el estandar basado en el interfaz de convenciones para la navegación, incluyendo el uso de ventanas

Una vez en el navegador, nos conectamos a la dirección de RetrievalWare:

http:// your host’s name or IP adress/rware/home.html

La ventana de búsqueda de Intranet abre la base de datos, desde la cual puede seleccionar una librería (para realizar las consultas), acceder las consultas almacenadas, o acceder a "archivo" para hojear o consultar.

Las librerías es el grupo bases de datos, grupos de documentos, etc. indexadas de RetrievalWare disponibles para búsquedas. En el caso de realizar una consulta, debe seleccionar una o muchas librerías.

Una vez seleccionada una librería o librerías accedemos a la búsqueda a través de la pestaña de "Buscar"

4.2.1. CÓMO FUNCIONA LA BÚSQUEDA DE RETIEVALWARE

Proporciona tres tipos primarios de búsqueda: Concepto, Patrón y booleano. Puede incluso mezclar estos tipos en una única búsqueda, si lo desea. También ofrece una búsqueda experta (no tratamos en este trabajo)

Búsquedas predefinidas, puedes elegir un estilo de búsqueda genérico (reducida, media, amplia): una vez seleccionado estableces que tipo de búsqueda vas a realizar

En el modo de búsqueda por conceptos. Se utilizan diccionarios de castellano y libros de referencias como conocimientos base, desde el cual puede procesar sus consultas. Estas fuentes proporcionan información sobre los significados de palabras, sintaxis, variaciones de las palabras, y relaciones en ellas. Estas relaciones entre palabras hacen posible la unión de las mismas en un campo semántico.

En la red, cada significado tiene una lista asociada de palabras, indicando cómo cada palabra es unidad a cada significado. Palabras individuales pueden ser unidas a múltiples significados, a diferentes intensidades. Puede controlar cuantas y qué uniones están cruzadas cambiando la expansión del nivel o no utilizando expansión alguna.

La red semántica hace posible la búsqueda por conceptos o unidades de significado, en vez de buscar solamente uniones exactas para sus palabras de consulta. Por ejemplo, una búsqueda de "buscador de trabajo" puede igualmente localizar los conceptos similares de "solicitantes", "candidatos", contratos"

En el tipo de búsqueda por Patrón, puede buscar patrones que se aproximen a su consulta; esto puede ser útil en situaciones en las que tenga datos procedentes de OCR sin verificar, o palabras con varios o complicados deletreos.

El tipo Booleano es un camino rápido para buscar documentos con (o sin) un término(os) especifico(os).

4.2.2. CONSULTA

El proceso de búsqueda es como una tubería, introduces palabras de consulta y estas pasan por diversas fases de análisis y de proceso. Este proceso a la vez contrata y expande la lista original de palabras de consulta, hasta que es creada una lista de búsqueda final.

Primeramente, las palabras están señaladas (la señalización descompone la cadena de caracteres en palabras, incluyendo formas especiales como son fechas o números de teléfono) Retrievalware entonces utiliza el diccionario de análisis morfológico (reduciendo palabras a simples formas desglosando sufijos y deletreando plurales) y procesando el idioma (traduciendo frases que tiene un significado distinto cuando van juntas o separadas). También quita ciertas palabras con una pequeña función (como "el" o "de") que proporcionan un pequeño valor localizando la información que esté buscando (lo que conocemos como palabras vacías).

Cuando las palabras de consulta van bajando por la tubería, son expandidas vía al diccionario y a las uniones en la red semántica. Cuando expande las palabras, encuentra otros términos y conceptos relacionados con las palabras de búsqueda y las añade a la lista de términos de búsqueda. La lista de palabras es clasificada, por lo que las palabras exactas de la búsqueda son clasificas en el lugar más alto, después más inmediatos los términos relacionados, y por último los términos más distantes. Esta clasificación de la lista de palabras es utilizada por el programa para buscar los índices de los documentos en la librería. Durante la búsqueda, el programa determina:

Cuántas palabras exactas de la búsqueda están contenidas en un documento.

Cuántos términos relacionados hay.

Cuáles son las relaciones (sinónimo fuerte, antónimo, relacionado a. Etc.)

La proximidad (distancia física entre cada uno) de palabras relevantes en un documento.

Uilizando esta información, identifica y clasifica las "palabras hits" en documentos. Basado en la fuerza y número de estos hits, los documentos son encontrados y clasificados en orden a su probable relevancia. Las palabras hits son señaladas en el texto así pues puede encontrar rápidamente las partes más relevantes.

Utilizando el tipo concepto

Introduces la consulta en castellano sencillo. Los términos de la consulta son expandidos a lo largo de la red semántica a otros términos relacionados, hacia arriba del nivel de expansión entra en la pestaña de consulta (también escogiendo un estilo de búsqueda, o específicamente estableciendo el nivel de expansión después de haber escogido más opciones)

Los niveles de expansión de palabras determinara que conceptos relacionados el sistema buscará. Cuanto más alto establezca el nivel de expansión, mayor será el retorno, pero la consulta será más lenta (porque muchas más palabras pueden ser añadidas a la consulta).

Utilizando el tipo patrón

Como en las consultas por conceptos, las consultas por patrón son introducidas en castellano sencillo, y puede ser formulado y realizado muy rápidamente. Se suele utilizar una búsqueda Patrón si no está seguro de cómo se deletrea algo, o si está buscando sobre OCR.

5. CONCLUSIONES

En primer lugar nos gustaría señalar que hemos encontrado bastantes dificultades para encontrar literatura especializada, no ya en lo que se refiere a las redes neuronales, sino en como estas son aplicadas al mundo de la documentación.

Gran parte de la literatura consultada sobre RNA es demasiado técnica, dirigida a profesionales, lo que hace difícil su entendimiento a los iniciados en la materia.

La mayoría de las aplicaciones consultadas que utilizaban RNA no presentan claramente la tipología de RNA que utilizan ni tampoco los métodos seguidos en las aplicaciones. Parece que su funcionamiento está reservado, de momento, a cada empresa.

A falta de conocer estudios comparativos sobre la fiabilidad y precisión de estos métodos frente a los tradicionales en lo que se refiere a la recuperación de la información, o sobre satisfacción de usuarios, todo parece indicar que la aplicación de las RNA tienen un interesante futuro en el ámbito de la clasificación y recuperación de la información, sobre todo en el campo concreto de los mapas autoorganizativos.

Son muchas las ventajas que estos nos ofrecen: La clasificación automática, con el consiguiente ahorro de tiempo por parte de los profesionales, la posibilidad de tratar grandes volúmenes de información, la posibilidad de obtener interfaces intuitivas y gráficas, o la relación que se establece de vecindad entre documentos ya que al relacionarlos por su contenido tienden a ocupar puntos cercanos en el mapa. Estas dos últimas son especialmente interesantes desde el punto de vista del usuario cuando este no conoce el contenido de las bases de datos que consulta.

El WEBSOM es de los métodos vistos el que presenta mayores posibilidades ya que permite trabajar a texto completo y ha sido utilizado con éxito en distintos tipos de colecciones, dominios y lenguas.

La calidad en la recuperación documental de la red estará condicionada por la calidad en el entrenamiento de la misma.

Los tiempos empleados en el entrenamiento de la red todavía son largos, y

Las redes neuronales permiten también, a través de la tecnología PRAP, que el usuario no experto pueda recuperar información pertinente utilizando el lenguaje natural, - incluso con errores ortográficos - ya que el sistema almacena patrones de fragmentos de palabras y frases completas, además de permitirle navegar por la información y determinar el grado de exactitud con la que desea trabajar.

La aplicación de las RNA aplicadas al reconocimiento óptico de caracteres (OCR ) junto con el modelo PRAP va a permitir la rápida digitalización de grandes volúmenes de documentación con el consiguiente ahorro de tiempo y personal.

Aunque las investigaciones llevadas a cabo, en su mayoría, se han realizado sobre materias muy específicas, la aplicación de las RNA aplicadas a la gestión de la información están experimentando un auge considerable en la disciplina de la documentación.

Las aplicaciones basadas en los mapas autoorganizativos, el reconocimiento adaptativo de patrones o la minería de datos están aportando ya muchas ventajas, tanto a los profesionales de la información por la automatización de muchas tareas como a sus usuarios a los que ofrece nuevos métodos de recuperación documental.

Excalibur

El objetivo de Excalibur es mejorar la forma en que los usuarios recuperan la información almacenada en los ordenadores . De acuerdo con este objetivo, se ha desarrollado una tecnología puntera mediante la cual los usuarios podrán recuperar la información necesaria utilizando su propio lenguaje. La dificultad reside en aprender a usarlo, es probable utilizar varias horas y dias para poder estudiar y comprender el funcionamiento. Es intuitivo y resutla comodo porque tiene un interface similar a un browser de Internet.

Preferimos emplear el término "Librerias" en vez de la traducción al castellano "Bibliotecas" ya que esta traducción literal no se ajusta al concepto que utiliza Excalibur en las diferentes versiónes que se han hecho, para distinto sistemas de información. Se ha conservado el término Librerias para referirse al conjunto de documentos, bases de datos, archivos, etc que posee el sistema de información.

En las primeras traducciones de este concepto se empleó el término "conversacional" más que el significado real pero que no se ha consolidado.

Las redes semánticas son una representación esquemática del conocimiento, que imita el modo como se procesa el conocimiento en la memoria humana. Se aplican al desarrollo de programas de inteligencia artificial. Las redes semánticas incluyen conceptos y las relaciones entre éstos. Y según los manuales de teoria y los apuntes y técnicos sobre la materia consultados no tiene nada que ver con las redes neuronales.

En parte de los artículos leido nos indicaban que Excalibur utiliza Redes Neuronales, no hemos podido concretar donde funcionan. Tenemos claro que si utiliza la red semántica, aunque en estos momentos el diccionario que tinene (Espasa-Calpe 12 volumenes) no es el más adecuado para trabajar con Prensa Escrita pero perimite incorporar tesauros y lexicos especificos.

RetrievalWare soporta estructuras de diccionarios multicapas y permite la incorporación de términos de diccionarios temáticos especializados que se pueden utilizar por separado o unidos unos a otros. El concepto de diccionario multicapa se refiere a la capacidad de definir dentro de un mismo diccionario diferentes niveles de relación semántica, como sinónimos o antónimos. En cualquier momento se podrá incorporar a la red semántica de RetrievalWare un tesauro . Deja abierta la posibilidad

El manual técnico de Excalibur versión castellana, consultado nos dice que la busqueda por El Proceso de Reconocimiento Adaptativo de Patrones (APRPTM ) de Excalibur aporta un nuevo enfoque al concepto de recuperación de información: diseñado a partir de modelos de sistemas biológicos, utiliza redes neuronales para procesar información. APRPTM actúa como un sistema auto-organizador que aprende y memoriza patrones binarios extraídos de los datos para indexarlos automáticamente en la información digital. Se crea entonces una memoria basada en patrones que se auto-optimiza a partir del contenido origina de los datos.

Por ello pensamos que sea aquí donde Excalibur aplica las redes neuronales, tipo Redes autoorganizativas o no supervisadas. Realizando agrupamiento de patrones (clustering). Crea grupos de docuemtnos entrono a estos patrones y representa la densidad de porbabilidad. Siendo este tipo de red neuronal la más utilizada en el campo de la documentación

6. BIBLIOGRAFIA :

Documentos COTEC sobre oportunidades tecnológicas. 13 Redes Neuronales.

MARTÍN DEL BRIO, Bonifacio. Redes neuronales y sistemas borrosos: introducción teórica y práctica. Ed. Ra-ma, Madrid, 1997

MIRA, J. Et.al. Aspectos básicos de la Inteligencia Artificial. Ed. Sanz y Torres, Madrid, 1995

CASTILLO BLASCO, Lourdes. Desarrollo de un tesauro de términos geográficos y conversión en red semántica para su empleo en un sistema de recuperación de información de actualidad. Valencia : Universidad de Valencia, Departamento de Historia de la Ciencia y Documentación, 2000.

GUILLEM BACH, Carlos. "Prensa a la carta : situación actual y posible evolución". Cuadernos de Documentación Multimedia, 6-7 (1997-1998)

Excalibur RetievalWare. Madrid : OCS Software.

http://www.ocs.es

System administrator’s guide: RetrievalWare version 6.0. Columbia : Excalibur Technologies, 1997.

MASEDA, F. "La nueva generación de sistemas de gestión documental: tecnología de redes neuronales aplicada a la información textual". En: Actas de DOCUMAT’94, Gijón, 1994.

MOYA ANEGÓN, Felix de. "NeuroIsoc: un modelo de red neuronal para la representación del conocimiento". En: Actas del IV Congreso ISKO-España EOCONSID’99

MOYA ANEGÓN, Felix de; HERRERO SOLANA, Víctor; GUERRERO BOTE, Vicente:

La aplicación de las redes neuronales artificiales (RNA) a la recuperación de la información. Anuario SOCADI de Información y documentación, 1998.

MOREIRO GONZALEZ, Jose A.; LOPEZ ALONSO Miguel A.: "Teoría para un modelo conceptual de recuperación de objetos multimedia". En: Actas del IV Congreso ISKO-España EOCONSID’99

MARTIN VEGA, A. "Las redes de neuronas artificiales en la recuperación de la información. Algunas fuentes para su estudio". En: Actas de DOCUMAT’94, Gijón, 1994.

"Redes neuronales en ocr". Network of Excellence in Neural Networks

http://www.iic.uam.es/neuronet-iic/OCRNeuroNet/ManuscritoOCRNeuroNet.htm (17-5-01)

"Aplicación de técnicas de clasificación de información y redes neuronales para la

definición de arquitecturas para la mejora del proceso software" . García Guzmán, Javier, 1999

http://www.ie.inf.uc3m.es/Tesis/Documentos/ProcesosSoftware/RedesNeuronales/MejoraRedesNeuronales.html (17-5-01)

WEBSOM - Self-Organizing Maps for Internet Exploration

http://websom.hut.fi/websom (17-5-01)

"Mapas organizados para la minería de datos en procesamiento del lenguaje natural". Vivian Lopez, Batista; Luis Alonso Romero; M.G. Moreno García.

http://otilio.dcs.fi.uva.es/airene/Documentos/AIRENE_docs.html (19-5-01)