PhD Ferran Pla

Ferran Pla
Etiquetado Léxico y Análisis Sintáctico Superficial basado en Modelos Estadísticos.
(POS tagging and Shallow Parsing based on Statistical Language Models)
Ph. D. Thesis.
Departament de Sistemes Informàtics i Computació.
Universitat Politècnica de València. 2000

RESUMEN

En esta tesis se abordan dos problemas que simplifican substancialmente la tarea de procesamiento de oraciones escritas en Lenguaje Natural: la desambiguación léxica y el análisis sintáctico superficial de textos no restringidos. Se ha desarrollado un sistema de desambiguación que es capaz de obtener de manera conjunta o separada, el etiquetado léxico (POS tagging) --o proceso mediante el cual se elige la categoría léxica correcta para las palabras de una frase-- y el análisis sintáctico superficial (Shallow Parsing o Chunking) --consistente en la detección de ciertos grupos no solapados de palabras relacionadas sintácticamente como, sintagmas nominales (SN), verbales (SV), preposicionales(SP), ...--, para textos no restringidos. La aproximación propuesta se basa en modelos de lenguaje (ML) obtenidos automáticamente a partir de corpora etiquetados con información lingüística. Para ello, se utilizan técnicas de aprendizaje automático derivadas del campo de la inferencia gramatical y de los modelos estadísticos.
Los modelos inferidos se representan utilizando un formalismo homogéneo: máquinas de estados finitos. Éstos incluyen desde modelos de n-gramas, hasta cualquier modelo regular estocástico aprendido por medio de técnicas de inferencia gramatical u obtenido mediante cualquier otro método. Para estos últimos se introducen nuevos métodos de suavizado para ampliar la cobertura del leguaje. Además, el sistema ha sido ampliado para enriquecer los ML con información de las palabras, además de las categorías léxicas, mediante lo que hemos denominado modelos contextuales especializados o lexicalizados. Éstos permiten reflejar dependencias léxico-contextuales, que en muchos casos, ayudan de manera notable a resolver ciertas ambigüedades estructurales.
El sistema propuesto se ha evaluado experimentalmente sobre diferentes corpora en inglés (Wall Street Journal) y en castellano (LexEsp, BDGEO), estableciéndose comparaciones con aproximaciones desarrolladas por otros investigadores.Se ha desarrollado un entorno gráfico que permite una utilización muy sencilla, especialmente adecuada para usuarios no expertos. Esta aplicación permite realizar de una forma amigable las tareas de supervisión por lingüistas de las diferentes salidas del sistema: etiquetado léxico y análisis sintáctico. Además, permite completar por parte del usuario el análisis superficial obtenido de manera automática.

ABSTRACT

    This thesis focuses on two problems that substantially simplify the task of processing sentences written in Natural Language: lexical disambiguation and shallow parsing of unrestricted texts. A disambiguation system able to obtain, either together or separately, both POS tagging--or process through which the accurate lexical category is selected for the words in a sentence--and Shallow Parsing or Chunking--consisting in the detection of certain non overlapped     groups of syntactically related words such as noun phrases (NP), verbal phrases (VS), prepositional phrases (PP)…--for unrestricted texts, has been developed. The suggested approximation is based on language models (LM) automatically obtained from tagged corpora with linguistic information. In order to do this, automatic learning techniques drawn from the field of grammatical inference and from statistical language models are used.
    The models inferred are represented by means of a homogenous formalism: finite state machines. These range from n-grams models to any stochastic regular model learnt by means of grammatical inference techniques or by any other method. For these last ones, new smoothing methods are used in order to widen language coverage. Furthermore, the system has been expanded to enrich LM with information concerning the words and lexical categories by means of what has been called specialised or lexicalised contextual models. These allow reflecting lexical-textual dependencies that could help solve, in many cases, structural ambiguities.
    The system suggested has been experimentally assessed with different corpora in English (Wall Street Journal) and in Spanish (LexEsp, BDGEO) and comparisons have been made with approximations developed by other researchers. A graphical environment has been developed to facilitate the use for non-expert users. This application allows, on a user-friendly way, for the linguists to supervise the different system exits: POS tagging and Shallow Parsing. In addition, it allows for the user to complete the superficial analysis automatically obtained.

Download PhD (in Spanish)