Programa TIDES
Translingual Information Detection, Extraction and Summarization (TIDES) .
Perteneciente a la Agencia de Proyectos de Investigación para la Defensa (DARPA) del gobierno estadounidense,TIDES es uno de los programas de mayor envergadura dentro de la creación automática de resúmenes, detección y extracción de información multilingüe.
Objetivo:
el programa TIDES tiene como
objetivo el desarrollo de una tecnología avanzada de
procesamiento del lenguaje que permita a los usuarios del idioma
inglés encontrar e interpretar información crítica
en múltiples lenguajes sin necesidad de su conocimiento. Ya
que los materiales de idiomas extranjeros están creciendo en
una proporción más rápida que los materiales del
idioma inglés . el programa TIDES pretende hacer accesibles y
utilizables estos materiales en el idioma inglés.
La meta del programa es reducir significativamente la cantidad de tiempo que se tarda en recuperar información multimgüe , extraer la parte importante de esa información, su resumen e interpretación y la traducción automática en un nuevo idioma.
TIDES desarrollará la capacidad para recuperar, resumir , extraer información y traducir la información en múltiples lenguas que usan interfaces de idioma inglesas. La información puede ser de dos tipos:
Estructurada:
Tablas.
Mapas
Diagramas
Textos publicados.
· Sin estructura:
Prosa.
Transcripciones de discursos.
E-mail.
Areas técnicas del programa:
TRADUCCIÓN AUTOMÁTICA: Aplicaciones encaminadas a la resolución del problema del desarrollo rápido de la traducción automática para los nuevos idiomas de interés. TIDES seleccionará varias docenas de idiomas para la :
Traducción de la pregunta: es la formación de una pregunta del idioma extranjero en la entrada inglesa.
Traducción del documento.
Refinamiento de la pregunta (usando regeneración de relevancia).la pregunta de refinamiento es el estrechamiento, ensanchado o elboración terminológica de la pregunta para el volúmen lingüístico.
ACCESO A LA INFORMACIÓN Y SISTEMAS DE DIRECCION: Pruebas de la hipótesis de que el acceso a la información y dirección pueden ser reforzadas substancialmente por interacciones entre los componentes de serie. Los ejemplos de tales interacciones son:
Descubrimiento del tema y interacción: es el proceso de separar materiales recuperados de los idiomas múltiples en las categorías de interés.
Nombre y correlación del evento: incluye el análisis detallado de los recursos disponibles para identificar nombres de las personas, corporaciones y organizaciones, fechas, eventos, y para establecer correlación entre entidades relacionadas.
Resumen del multi-documento: reducir el volumen de información a ser examinado por un factor típico de 10. También se utiliza el resumen de documentos múltiples para refinar la pregunta y mejorar el resultado.
El interés se extiende a las interfaces para las preguntas multi-modales en las conexiones de banda ancha con grandes multi-medios de comunicación de alto volumen y los datos multi-linguales.
El programa TIDES probará varias hipótesis e esta área:
un usuario terminal puede emplear la traducción automática para refinar una pregunta en un idioma extranjero y mejorar la actuación de la recuperación un 50%. La identificación de temas coherentes y consistentes mejorará otro 25%.
Pueden extraerse nombres, lugares, eventos, y las entidades relacionadas de los resultados de una búsqueda multilingüe, pueden ponerse en correlación y pueden alimentarse para mejorar la actuación de la recuperación un 25% más.
Un resumen multi-documento coherente puede usarse como una pregunta refinada para actuar en un sistema multilingüe comparable al uso que se le da en sistemas monolingües.
LAS HERRAMIENTAS Y RECURSOS: desarrollo de herramientas de análisis del cuerpo (estadístico, híbrido, lingüístico...) de manera que se habilite el extracto automatizado de gramática y vocabulario de cuerpos paralelos y comparables en múltiples idiomas.
Desarrollo de herramientas para construir cuerpos paralelos y comparables de los documentos y herramientas lingüísticas para el análisis rápido del idioma.
Desarrollo multilingüe de escrito y hablado de recursos idiomáticos de apoyo a las areas técnicas anteriores.
Desarrollo de arquitecturas para la interoperabilidad de componentes.
El programa TIDES proporcionará la habilidad de expresar una necesidad de información en inglés, y usará esta pregunta para analizar materiales en una multitud de idiomas. Recuperará materiales pertinentes, traducirá su volumen al inglés, nombres exactos de perdonas, eventos..., identificará eventos de interés y los pondrá en correlación al volumen de una serie de documentos en múltiples idiomas de manera resumida y traducida. El objetivo es desarrollar, rápidamente y con precisión , una comprensión de desdoblamiento de situaciones internacionales para proporcionar interpretaciones oportunas y validas para la toma de decisiones.
Marco temporal del programa:
El programa TIDES tiene una duración de 5 años con los siguientes objetivos:
· Capacidades del sistema en por lo menos 30 idiomas.
· 80% de la exactitud en correlación de entidad translingual.
· 70% de la exactitud rellenando plantillas multilingües.
· Habilidad de generar resúmenes pregunta específicos de 20 documentos en por lo menos 4 idiomas.
El año 2003 es el tercer año del programa , pudiendo presentar nuevos proyectos que serán evaluados por DARPA para su inclusión dentro del proyecto estando ya cerrados los 15 proyectos.