RESUMEN
En esta
tesis se abordan dos problemas que simplifican substancialmente la tarea de
procesamiento de oraciones escritas en Lenguaje Natural: la desambiguación
léxica y el análisis sintáctico superficial de textos
no restringidos. Se ha desarrollado un sistema de desambiguación que
es capaz de obtener de manera conjunta o separada, el etiquetado léxico
(POS tagging) --o proceso mediante el cual se elige la categoría léxica
correcta para las palabras de una frase-- y el análisis sintáctico
superficial (Shallow Parsing o Chunking) --consistente en la detección
de ciertos grupos no solapados de palabras relacionadas sintácticamente
como, sintagmas nominales (SN), verbales (SV), preposicionales(SP), ...--,
para textos no restringidos. La aproximación propuesta se basa en
modelos de lenguaje (ML) obtenidos automáticamente a partir de corpora
etiquetados con información lingüística. Para ello, se
utilizan técnicas de aprendizaje automático derivadas del campo
de la inferencia gramatical y de los modelos estadísticos. Los modelos inferidos se representan utilizando un formalismo homogéneo: máquinas de estados finitos. Éstos incluyen desde modelos de n-gramas, hasta cualquier modelo regular estocástico aprendido por medio de técnicas de inferencia gramatical u obtenido mediante cualquier otro método. Para estos últimos se introducen nuevos métodos de suavizado para ampliar la cobertura del leguaje. Además, el sistema ha sido ampliado para enriquecer los ML con información de las palabras, además de las categorías léxicas, mediante lo que hemos denominado modelos contextuales especializados o lexicalizados. Éstos permiten reflejar dependencias léxico-contextuales, que en muchos casos, ayudan de manera notable a resolver ciertas ambigüedades estructurales. El sistema propuesto se ha evaluado experimentalmente sobre diferentes corpora en inglés (Wall Street Journal) y en castellano (LexEsp, BDGEO), estableciéndose comparaciones con aproximaciones desarrolladas por otros investigadores.Se ha desarrollado un entorno gráfico que permite una utilización muy sencilla, especialmente adecuada para usuarios no expertos. Esta aplicación permite realizar de una forma amigable las tareas de supervisión por lingüistas de las diferentes salidas del sistema: etiquetado léxico y análisis sintáctico. Además, permite completar por parte del usuario el análisis superficial obtenido de manera automática. |
ABSTRACT
This thesis focuses on two problems
that substantially simplify the task of processing sentences written in Natural
Language: lexical disambiguation and shallow parsing of unrestricted texts.
A disambiguation system able to obtain, either together or separately, both
POS tagging--or process through which the accurate lexical category is selected
for the words in a sentence--and Shallow Parsing or Chunking--consisting in
the detection of certain non overlapped groups of
syntactically related words such as noun phrases (NP), verbal phrases (VS),
prepositional phrases (PP)…--for unrestricted texts, has been developed. The
suggested approximation is based on language models (LM) automatically obtained
from tagged corpora with linguistic information. In order to do this,
automatic learning techniques drawn from the field of grammatical inference
and from statistical language models are used. The models inferred are represented by means of a homogenous formalism: finite state machines. These range from n-grams models to any stochastic regular model learnt by means of grammatical inference techniques or by any other method. For these last ones, new smoothing methods are used in order to widen language coverage. Furthermore, the system has been expanded to enrich LM with information concerning the words and lexical categories by means of what has been called specialised or lexicalised contextual models. These allow reflecting lexical-textual dependencies that could help solve, in many cases, structural ambiguities. The system suggested has been experimentally assessed with different corpora in English (Wall Street Journal) and in Spanish (LexEsp, BDGEO) and comparisons have been made with approximations developed by other researchers. A graphical environment has been developed to facilitate the use for non-expert users. This application allows, on a user-friendly way, for the linguists to supervise the different system exits: POS tagging and Shallow Parsing. In addition, it allows for the user to complete the superficial analysis automatically obtained. |