LA WEB SEMÁNTICA
Vanessa Armengol
1. La Web Semántica
1.1. Historia
1.2. ¿Qué es?
1.3. ¿Para qué sirve?
1.4. ¿Cómo funciona?
2. Elementos básicos de la Web Semántica
2.1. XML
2.2. RDF
2.3. OIL
2.4. DAML y DAML+OIL
2.5. PICS
2.6. Ontologías
2.7. Agentes
3. La recuperación de información en la Web Semántica
4. Ejemplos de Web Semántica
5. Aplicaciones
5.1. Aplicaciones en la recuperación de información
5.2. Otras aplicaciones
6. La Web Semántica hoy
7. Perspectivas de futuro
8. Bibliografía
1. La Web Semántica
1.1. Historia
La aparición de la WWW se puede situar en 1989 [Abrams 1998, Connolly 2000], cuando Tim Berners-Lee presentó su proyecto de “World Wide Web” [Berners-Lee 1989] en el CERN (Suiza), con las características esenciales que perduran en nuestros días. El propio Berners-Lee completó en 1990 el primer servidor web y el primer cliente, y un año más tarde publicó el primer borrador de las especificaciones de HTML y HTTP.
El lanzamiento en 1993 de Mosaic, el primer navegador de dominio público, compatible con Unix, Windows, y Macintosh, por el National Center for Supercomputing Applications (NCSA), marca el momento en que la WWW se da a conocer al mundo, extendiéndose primero en universidades y laboratorios, y en cuestión de meses al público en general, iniciando el que sería su vertiginoso crecimiento. Los primeros usuarios acogieron con entusiasmo la facilidad con que se podían integrar texto y gráficos y saltar de un punto a otro del mundo en una misma interfaz, y la extrema sencillez para contribuir contenidos a una web mundial.
Por estas mismas fechas se define la interfaz CGI para la generación dinámica de páginas web, con lo que se consigue ofrecer información actualizada en tiempo real, enlazar con bases de datos, o tener en cuenta entradas del usuario, y más aún, servir como punto de acceso y plataforma para la ejecución de aplicaciones distribuidas.
En 1994 miembros del equipo que creó Mosaic desarrollan Netscape, un navegador con sensibles mejoras que contribuye a impulsar la propagación de la web. Este mismo año se celebra el primer congreso internacional de la WWW, y unos meses más tarde se constituye el consorcio W3C, que desde entonces y presidido por Tim Berners-Lee, se ha hecho cargo de estandarizar las principales tecnologías web.
En 1995 Sun lanza oficialmente la primera versión del
lenguaje Java, y un año más tarde Netscape presenta JavaScript.
Estos lenguajes y otros posteriores permiten que las propias páginas
web contengan programas enteros, dando opción a una mayor autonomía
respecto del servidor, mayor eficiencia, capacidad dinámica y capacidad
de interacción.
El problema de Internet actualmente es que sólo se trata de una enorme
base de datos que contiene los documentos, artículos o archivos multimedia,
inconexos de los usuarios de medio mundo. Los actuales documentos de HTML a
pesar de poseer cierta cantidad de metadatos que permite su indexación
en buscadores, esta sólo se refiere al formato del documento en general
y no a cada uno de sus componentes.
Los agentes de búsqueda no se diseñan para “comprender”
la información que reside en la web. Por este motivo, cuando introducimos
unas palabras en un buscador, éste lo interpreta como una “simple
cadena de caracteres” sin tener en cuenta su contenido semántico,
produciéndose mucho ruido en los resultados obtenidos. Esto ocurre, porque
la red actual está pensada para ser leída por los humanos y no
por las máquinas, que no pueden entenderla.
Para ello, Berners-Lee, junto con otros investigadores, está dando forma
a la Web Semántica, entendida como “una web donde los ordenadores
no sólo serán capaces de presentar toda la información
contenida en la web sino que, además, podrán “entenderla”
y gestionarla de forma “inteligente” o lógica” (Tim
Berners-Lee, 2001).
La Web Semántica se describe como una extensión de la Web actual
en la que la información podrá ser procesada automáticamente
por los ordenadores, posibilitando que éstos puedan llevar a cabo tareas
más complejas para los usuarios.
El funcionamiento básico de la Web Semántica se basará
en la compatibilidad de todos los datos. Se intentará convertir la información
en conocimiento, referenciando datos dentro de las páginas web con metadatos
en un esquema común consensuado sobre algún dominio. Los metadatos,
además de especificar el esquema de datos, podrán tener información
adicional de cómo hacer deducciones de ellos.
Con esto, se mejorarán las búsquedas de información y las
aplicaciones de comercio electrónico, ya que las anotaciones de información
seguirán un esquema común, y los buscadores web compartirán
con las anotaciones web los mismos esquemas.
Los agentes web encontrarán la información de forma precisa, además
podrán realizar inferencias automáticamente buscando información
relacionada con la que se encuentra situada en las páginas, y con los
requerimientos de la consulta indicada por el usuario.
1.2. ¿Qué es?
La Web Semántica es una Web extendida, dotada de mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a una información mejor definida. Al dotar a la Web de más significado y, por lo tanto, de más semántica, se pueden obtener soluciones a problemas habituales en la búsqueda de información gracias a la utilización de una infraestructura común, mediante la cual, es posible compartir, procesar y transferir información de forma sencilla. Esta Web extendida y basada en el significado, se apoya en lenguajes universales que resuelven los problemas ocasionados por una Web carente de semántica en la que, en ocasiones, el acceso a la información se convierte en una tarea difícil y frustrante.
1.3. ¿Para qué sirve?
La Web ha cambiado profundamente la forma en la que nos comunicamos, hacemos
negocios y realizamos nuestro trabajo. La comunicación prácticamente
con todo el mundo en cualquier momento y a bajo coste es posible hoy en día.
Podemos realizar transacciones económicas a través de Internet.
Tenemos acceso a millones de recursos, independientemente de nuestra situación
geográfica e idioma. Todos estos factores han contribuido al éxito
de la Web. Sin embargo, al mismo tiempo, estos factores que han propiciado el
éxito de la Web, también han originado sus principales problemas:
sobrecarga de información y heterogeneidad de fuentes de información
con el consiguiente problema de interoperabilidad.
La Web Semántica ayuda a resolver estos dos importantes problemas permitiendo
a los usuarios delegar tareas en software. Gracias a la semántica en
la Web, el software es capaz de procesar su contenido, razonar con este, combinarlo
y realizar deducciones lógicas para resolver problemas cotidianos automáticamente.
1.4. ¿Cómo funciona?
Supongamos que la Web tiene la capacidad de construir una base de conocimiento
sobre las preferencias de los usuarios y que, a través de una combinación
entre su capacidad de conocimiento y la información disponible en Internet,
sea capaz de atender de forma exacta las demandas de información por
parte de los usuarios en relación, por ejemplo, a reserva de hoteles,
vuelos, médicos, libros, etc.
Si esto ocurriese así en la vida real, el usuario, en su intento, por
ejemplo, por encontrar todos los vuelos a Praga para mañana por la mañana,
obtendría unos resultados exactos sobre su búsqueda. Sin embargo
la realidad es otra.
La figura 1 muestra los resultados inexactos que se obtendrían con el
uso de cualquier buscador actual, el cual ofrecería información
variada sobre Praga pero que no tiene nada que ver con lo que realmente el usuario
buscaba.
El paso siguiente por parte del usuario es realizar una búsqueda manual
entre esas opciones que aparecen, con la consiguiente dificultad y pérdida
de tiempo. Con la incorporación de semántica a la Web los resultados
de la búsqueda serían exactos.
La figura 2 muestra los resultados obtenidos a través de un buscador
semántico. Estos resultados ofrecen al usuario la información
exacta que estaba buscando. La ubicación geográfica desde la que
el usuario envía su pregunta es detectada de forma automática
sin necesidad de especificar el punto de partida, elementos de la oración
como "mañana" adquirirían significado, convirtiéndose
en un día concreto calculado en función de un "hoy".
Algo semejante ocurriría con el segundo "mañana", que
sería interpretado como un momento determinado del día. Todo ello
a través de una Web en la que los datos pasan a ser información
llena de significado.
El resultado final sería la obtención de forma rápida y
sencilla de todos los vuelos a Praga para mañana por la mañana.
Buscador Actual
Resultados de la búsqueda:
Toda la magia de Budapest y Praga
... Suplementos Gran Premio Fórmula 1 en Budapest para las salidas del
... con Ferias y/o Congresos en Praga del 9 ... Más información
de los vuelos ...
LA VANGUARDIA DIGITAL - Praga, testigo de la historia europea
... Para emergencias el teléfono de la policía es el 150, el de
las ambulancias el ... 46) y Praga tres días por semana. Los vuelos salen
de Madrid (Tel ...
Foros sobre Europa República Checa Praga inkietante
... solo decirte que me llamó la atención tu alias (aunque no
me llamo Raula) y que me voy mañana mismo para Praga ... buscador de
vuelos ...
ofertas de espectáculos, viajes y hoteles al mejor precio
... autoridades que tienen tres copas gigantes para entregar a ... mañana
creo que cogeremos el bus mañana ... En Atrápalo puedes también
reservar vuelos ...
Figura 1 - Resultados obtenidos con un buscador normal
Buscador Semántico
Resultados de la búsqueda:
viajaconnosotros.com - viajes a Praga
... todos los vuelos a Praga desde tu ciudad que saldrán mañana
por la mañana, ordenados según su hora de salida ...
viajes a Praga - vuelos disponibles
... lista de vuelos. Horarios de salida y llegada ...
Ofertas especiales - vuelos a Praga
... ofertas especiales de vuelos a Praga ...
Figura 2 - Resultados obtenidos con un buscador semántico
La forma en la que se procesará esta información no sólo
será en términos de entrada y salida de parámetros sino
en términos de su SEMÁNTICA. La Web Semántica como infraestructura
basada en metadatos aporta un camino para razonar en la Web, extendiendo así
sus capacidades.
No se trata de una inteligencia artificial mágica que permita a los ordenadores
entender las palabras de los usuarios, es sólo la habilidad de una máquina
para resolver problemas bien definidos, a través de operaciones bien
definidas que se llevarán a cabo sobre datos existentes bien definidos.
Para obtener esa adecuada definición de los datos, la Web Semántica
utiliza RDF y OWL, dos estándares que ayudan a convertir la Web en una
infraestructura global en la que es posible compartir, y reutilizar datos y
documentos entre diferentes tipos de usuarios.
· RDF proporciona información descriptiva simple sobre los recursos
que se encuentran en la Web y que se utiliza, por ejemplo, en catálogos
de libros, directorios, colecciones personales de música, fotos, eventos,
etc.
· OWL es un mecanismo para desarrollar temas o vocabularios específicos en los que asociar esos recursos. Lo que hace OWL es proporcionar un lenguaje para definir ontologías estructuradas que pueden ser utilizadas a través de diferentes sistemas. Las ontologías, que se encargan de definir los términos utilizados para describir y representar un área de conocimiento, son utilizadas por los usuarios, las bases de datos y las aplicaciones que necesitan compartir información específica, es decir, en un campo determinado como puede ser el de las finanzas, medicina, deporte, etc. Las ontologías incluyen definiciones de conceptos básicos en un campo determinado y la relación entre ellos.
2. Elementos básicos de la Web Semántica

Las diferentes Capas
A continuación se explica brevemente las diferentes capas que componen
la Web Semántica:
· Unicode
Unicode es una codificación del texto que permite utilizar los símbolos
de diferentes idiomas sin observar caracteres extraños. Esto permite
expresar información en la Web Semántica en cualquier idioma.
· URI
URI es el acrónimo de Uniform Resource Identifier, o en castellano, Identificador
Uniforme de Recursos. Es un poco confusa la diferencia entre URI y URL, por
lo que vamos a decir que un URL es un recurso que puede ser accedido vía
Internet.
· XML + NS + xmlschema
Tal vez la capa más técnica de la Web Semántica. En esta
capa se agrupan las diferentes tecnologías que hacen posible que los
agentes puedan entenderse entre ellos.
· RDF + rdfschema
Directamente basada y apoyada en la capa anterior, esta capa define el lenguaje
universal con el cual podemos expresar diferentes ideas en la Web Semántica.
· Lenguaje de Ontologías
Los lenguajes de ontologías nos permiten extender la funcionalidad de
la Web Semántica, agregando nuevas clases y propiedades para describir
los recursos.
· Lógica
· Prueba
· Confianza
· Firma Digital
2.1. XML
XML (eXtensive Markup Language), permite la codificación para la distribución
de documentos complejos por Internet.
Vamos a dar unos datos previos que hará más fácil entender
porque se elige este formato.
SGML (Standard Generalized Markup Language) es una norma que pretende establecer
una manera genérica de especificar, definir documentos, la cual permitiese
a su vez usar formatos de mayor flexibilidad y portabilidad. Con lo cual reunía
tres condiciones básicas:
1. Formal: pues permite establecer la validez de los documentos
2. Estructurado: para que fuese capaz de manejar documentos complejos
3. Ampliable: para facilitar la gestión de grandes depósitos de
información
XML es un subconjunto de SGML, y define un formato de texto diseñado
para la transmisión de datos estructurados. Al ser un subconjunto de
SGML mantiene sus características de validación, estructurado
y especialmente facilita la extensibilidad, porque es un metalenguaje que permite
describir lenguajes de marcas, tanto la definición de etiquetas como
la relación estructural que existe entre ellas.
Un ejemplo de como funciona XML sería algo así:
<agenda>
<persona>
<nombre>Kike</nombre>
<telefono>638002993</telefono>
<comentario>Es
un bombon</comentario>
</persona>
<persona>
<nombre>Maria</nombre>
<telefono>956-78.90.12</telefono>
<telefono>652135792</telefono>
</persona>
</agenda>
2.2. RDF
RDF son las siglas definen Resource Description Framework (algo así como
marco de descripción de recursos) Como su nombre indica el área
en la que está enmarcado es la descripción de recursos de la red,
entendiendo por recurso todo lo que nos dé de sí la imaginación
en tanto que a definir cualquier cosa, páginas, personas, dispositivos...
RDF permite que las condiciones que se quieren "preguntar" sobre un
recurso sean definidas como un conjunto de propiedades que componen el esquema.
RDF ofrece una estructura semántica inambigua (por el uso de los URI,
Uniform Resource Identifier) que permite codificación, intercambio y
procesamiento automático de los metadatos normalizados.
RDF proporciona también reglas para facilitar técnicamente la
manera de explicar conceptos de modo que los ordenadores puedan procesarlo rápidamente
y proporciona un medio que posibilita la edición de vocabularios con
propiedades definidas para la descripción de los recursos de una comunidad.
RDF usa la sintaxis del lenguaje XML para el intercambio y procesamiento de
metadatos, las condiciones se recogen en los rdf: Descripcion de los elementos
XML.
2.3. OIL
OIL (Lenguaje de Intercambio de Ontologías = Ontology
Interchange Language) es un lenguaje estándar propuesto por el “Proyecto
OnToKnowledge” (www.ontoknowledge.org).
El OIL fusiona tres paradigmas:
1. modelo de datos basado en frames o marcos con
2. semántica basada en lógica de descripción y
3. sintaxis basada en normas de la web como el XML y el Esquema RDF.
El OIL se ha aplicado con éxito en muchas áreas como la gestión
del conocimiento o el comercio electrónico.
2.4. DAML y DAML+OIL
El DAML (Darpa Agent Markup Language) es un lenguaje creado
por DARPA como un lenguaje de inferencia y ontología basado en RDF. DAML
va un paso por delante del Esquema RDF al proporcionarnos propiedades y clases
con más profundidad. DAML permite ser más expresivo que con el
Esquema RDF y nos devuelve a lo que era el debate sobre al Web Semántica
al proporcionarnos términos simples para crear inferencias.
El DAML nos da un método para expresar cosas tales como propiedades únicas
y no ambiguas, listas, restricciones, cardinalidades, listas de paridad disjuntas
y tipos de datos, etc.
A continuación podemos ver un ejemplo de lo anterior:
Una construcción de DAML que podríamos ver es la propiedad daml:inverseOf.
El eso de esta propiedad permite expresar que una propiedad es inversa de otra.
Los valores rdfs:range y rdfs:domain, del daml:inverseOf es rdf:Property. Aquí
tenemos un ejemplo de daml:inverseOf
:hasName daml:inverseOf :isNameOf .
:Pepe :hasName "Pepe” .
"Pepe" :isNameOf :Pepe.
La segunda construcción útil de DAML que podríamos ver
es la clase daml:UnambiguousProperty.
Decir que una propiedad es un daml:UnambiguousProperty significa que si el objeto
de la propiedad es el mismo, entonces los sujetos son equivalentes:
foaf:mbox rdf:type daml:UnambiguousProperty .
:x foaf:mbox .
:y foaf:mbox .
implica que:
:x daml:equivalentTo :y .
Recientemente, el “Comité Conjunto Especial de Estados Unidos y
la Unión Europea de Lenguajes Marcado de Agentes” (Joint US/EU
ad hoc Agent Markup Language Committee) ha publicado el DAML+OIL, como el lenguaje
estándar de representación de ontologías en Marzo de 2001
(www.daml.org/2001/03/daml+oil-index). Este lenguaje va un paso por delante
del DAML y fusiona características de OIL y DAML.
2.5. PICS
Los PICS (Platform for the Internet Content Selection), nos indican lo adecuado
o conveniente de determinados ficheros de datos según la comunidad en
la que se encuentre el usuario. Es una infraestructura para asociar las etiquetas
con los contenidos de Internet. Aunque en un principio estaba destinado al control
del acceso de los niños a Internet, su uso se puede extender a otras
etiquetas que incluyan privacidad, licencias, etc. PICS es una plataforma sobre
la cual se han construido otros servicios de clasificación que no sólo
define una manera de construir etiquetas sino que es un mecanismo para realizar
las valoraciones. Este mecanismo esta formado, al menos por lo siguiente:
· Las etiquetas, que son los metadatos que indican la valoración
de un documento
· Los servicios de valoración, es decir, las organizaciones, grupos
o personas que realizan una valoración
· Los perfiles, que son las reglas que da el usuario para definir el
filtro para evitar recibir documentos no deseados.
Para que el filtrado de documentos no deseados se lleve a cabo, también
es necesario un software cliente y otro servidor que tengan implementado el
sistema de valoración. Estas funciones se pueden realizar por separado,
lo cual permite que por un lado los desarrolladores de software puedan realizar
una aplicación informática sin suministrar un sistema de valoración
mientras que por otro una organización puede crear sistemas de valoración
sin tener que desarrollar el software.
2.6. Ontologías
Las ontologías son colecciones de enunciados redactados en un lenguaje, como el RDF, que define las relaciones entre conceptos y especifica reglas lógicas para razonar con ellos. Los ordenadores "comprenderán" el significado de los datos semánticos de una página de la red siguiendo vínculos con ontologías especificadas.
2.7. Agentes
El concepto de tecnología de agentes está aún en desarrollo,
pero una definición que podemos manejar de agente es la siguiente: un
agente es una entidad de software que funciona continua y autónomamente
en un medio particular a menudo habitado por otros agentes y procesos, sin requerir
de guía constante o intervención humana. En otras palabras, un
agente es un asistente personal que está dentro de la computadora y que
cumple varios roles en representación de una función específica
o de un usuario.
En la web semántica serán los encargados de realizar la búsqueda
de servicios, para ello, la semántica facultará a los agentes
para describir unos a otros la función exacta que realizan, y qué
datos han de recibir para ello.
3. La recuperación de información en la Web Semántica
Los actuales buscadores de Internet, como google se basan en un sistema en el
que los usuarios meten manualmente los enlaces y al hacer una búsqueda
se aplica un algoritmo de emparejamiento de patrones, que tiene en cuenta el
número de veces que se hace referencia a cada URL candidata a ser resultado
de búsqueda.
Si bien hemos aprendido a convivir con este sistema de búsqueda, la única
información que recuperamos con él son conceptos descontextualizados,
es decir, si en un buscador ponemos la palabra "flor" recuperaremos
una editorial que se llame flor, una página web para expresar sentimientos
en Internet y, si tenemos suerte alguna página especializada en margaritas.
La web semántica nos permitirá hacer búsquedas precisas
del tipo quiero el viaje más barato que hay entre Madrid y Barcelona,
teniendo en cuenta que me gusta ir en ventanilla y en no fumadores.
En el estado actual de Internet esto es ahora posible gracias a los sistemas
multiagente. Donde un agente es una entidad de software que funciona continua
y autónomamente en un medio particular a menudo habitado por otros agentes
y procesos, sin requerir de guía constante o intervención humana.
También debe poseer ciertas habilidades sociales, reactividad ante el
mundo que le rodea y comportamiento basado en deseos que pertenecen a cada agente
en particular. Los sistemas multiagentes se han propuesto como la mejor herramienta
para realizar aprendizaje automático en Internet. Mediante esta herramienta
es posible hacer recomendaciones acertadas del tipo "pincha en este sitio
web, pues me parece que te interesa", "esta persona tiene intereses
muy similares a los tuyos, te interesaría contactar con ella" y
esto lo hará software puro y duro, sin más intervención
humana que la de la propia acción del usuario y acertarán. También
será posible clasificar automáticamente sitios ó documentos
de una manera acertada y un montón de más cosas que ni siquiera
nos imaginamos.
El problema con el que ahora se topa la tecnología de sistemas multiagente
es la volatilidad y desestructuración de la información base para
realizar las inferencias. Volviendo al ejemplo del sistema multiagente para
encontrar el viaje de tus sueños el único lugar desde el que puede
recuperar la información son páginas html en forma de tablas,
éstas páginas pueden cambiar su estructura cada mes, lo que requiere
cambios de programación. Esto no es un problema si la información
está almacenada y puede ser consultada desde bases de datos y/o ficheros
xml/rdf.
Hoy en día podemos ver cómo se popularizan foros al estilo de
slashdot que dejan un fichero rdf (por ejemplo http://slashdot.rdf), dónde
quedan las noticias de manera estructurada. La idea es que éste u otros
métodos de compartir la información dinámica se popularice.
Mientras tanto esta tecnología quedará res
tringida a poderosas bases de datos centralizadas como por ejemplo
las de Amazon, que hagan recomendaciones de compra en base a lo que ya se ha
comprado.
4. Ejemplos de Web Semántica
Dos de los ejemplos más conocidos de aplicación de Web Semántica
son RSS y FOAF.
· RSS es un vocabulario RDF basado en XML que permite
la catalogación de información (noticias y eventos) de tal manera
que sea posible encontrar información precisa adaptada a las preferencias
de los usuarios. Los archivos RSS contienen metadatos sobre fuentes de información
especificadas por los usuarios cuya función principal es avisar a los
usuarios de que los recursos que ellos han seleccionado para formar parte de
esa RSS han cambiado sin necesidad de comprobar directamente la página,
es decir, notifican de forma automática cualquier cambio que se realice
en esos recursos de interés seleccionados. Un ejemplo de la aplicación
de RSS se puede encontrar en las Noticias de la Oficina Española del
W3C como canal RSS (http://www.w3c.es/noticias.rss).
· FOAF es un proyecto de Web Semántica, que permite
crear páginas Web para describir personas, vínculos entre ellos,
y cosas que hacen y crean. Se trata de un vocabulario RDF, que permite tener
disponible información personal de forma sencilla y simplificada para
que pueda ser procesada, compartida y reutilizada. Dentro de FOAF podemos destacar
FOAF-a-Matic (http://www.ldodds.com/foaf/foaf-a-matic.es.html), que se trata
de una aplicación Javascript que permite crear una descripción
FOAF de uno mismo. Con esta descripción, los datos personales serán
compartidos en la Web pasando a formar parte de un motor de búsqueda
donde será posible descubrir información a cerca de una persona
en concreto y de las comunidades de las que es miembro de una forma sencilla
y rápida. FOAFNAUT (http://www.foafnaut.org/), por su lado, se utiliza
para mostrar relaciones de estructuras FOAF con SVG.
Los buscadores semánticos son un ejemplo más de aplicaciones basadas
en Web Semántica. El objetivo es satisfacer las expectativas de búsqueda
de usuarios que requieren respuestas precisas. Otros ejemplos de aplicaciones
basadas en Web Semántica pueden encontrarse en:
SWAD-Europe: Aplicaciones de Web Semántica - análisis y selección
(http://www.w3.org/2001/sw/Europe/reports/open_demonstrators/hp-applications-survey).
5. Aplicaciones
5.1. Aplicaciones en la recuperación de información
Greg Newby hace un análisis sobre los hechos que deben
ser tenidos en cuenta para el desarrollo de la Web Semántica. Este análisis
se estructura sobre los conceptos de “espacio de información”,
que se define como el conjunto de conceptos y relaciones entre los mismos soportadas
por un sistema de información, y su contrapuesto “espacio cognitivo”
que es el conjunto de conceptos y relaciones entre los conceptos que conoce
un humano.
Se considera que un objetivo a largo plazo para los Sistemas de Recuperación
de la Información (SRI), es actuar como extensiones de la memoria humana.
Para conseguir este objetivo los “espacios de información”
de los SRIs deberán parecerse cada vez más a los “espacios
cognitivos” humanos. La WS ayudará a dar pasos en esta dirección.
Para que la comunicación tenga éxito, tanto entre máquinas
como entre humanos, debe existir un mapa conceptual común. Esto es lo
que tratan de solucionar las ontologías y los traductores de ontologías
o las herramientas de integración de ontologías. Los métodos
de búsqueda actuales tratan de establecer un vínculo entre las
palabras de una consulta y las palabras de un documento. Lo que se pretende
lograr es que los nuevos sistemas enlacen una necesidad de información
con el contenido de un documento.
Para ello hay esencialmente tres técnicas relacionadas con la WS:
- Técnicas de mapeo directo.
- Técnicas basadas en reglas.
- Técnicas derivadas del contexto.
Los SRI se basan para efectuar sus búsquedas, en una combinación
de factores basados en cadenas de caracteres que, como sabemos, producen muchos
problemas. Pero son técnicas que han demostrado cierta eficacia y no
sería bueno descartarlas. Seguramente deberán ser combinadas con
las nuevas técnicas de recuperación para, por ejemplo, ordenar
los resultados.
Todos sabemos cómo funciona una búsqueda tradicional/actual. Tecleamos
palabras relacionadas con nuestra necesidad de información y obtenemos
muchos documentos de los cuáles sólo algunos nos interesan. Nuestra
satisfacción en la búsqueda aumentaría considerablemente
si pudiésemos añadir con garantías criterios de búsqueda
tales como: tipo de documento, tipo de autor del documento, tema principal,
etc. Por ejemplo podríamos buscar páginas sobre comida para perros,
pero que estuviesen elaboradas por un veterinario. Incluso podríamos
pedirle que nos devolviese aquellas que, aunque no fuesen obra de veterinarios,
estuviesen enlazadas desde páginas de asociaciones de veterinarios.
Para evitar los problemas de ambigüedad del lenguaje en la recuperación
de información se necesita una rica estructura de marcado de los documentos.
Ésta se irá creando en la medida que:
- Todos los usuarios podrán ser autores.
- Podrán crear nuevos conceptos.
- Podrán crear nuevas relaciones entre los conceptos que ya existan.
- Los usuarios son “propietarios” de la información que han
creado.
- Los usuarios son conceptos.
- Los agentes son usuarios.
Aunque la recuperación inteligente de información aún no
puede ser considerada como un hecho, ya existen prototipos que se basan en la
semántica, por ejemplo BUSTER, desarrollado por la Universidad de Bremen.
Está formado por dos partes:
- BUSTER/Q: una herramienta para la recuperación inteligente
de información.
- BUSTER/SI: una herramienta para la integración semántica de
fuentes de datos heterogéneas. Tienen disponible una demo en su web (http://www.semantic-translation.com/).
Por último cabe destacar UIMA, una iniciativa de IBM que, dicen algunos
autores, desbancará al mismísimo Google. UIMA (Unstructured Informartion
Management Arquitectura) es una estructura de recuperación de datos basada
en XML. Se fundamenta en hipótesis de combinación y en inteligencia
artificial sintáctica, además de incluir elementos de procesamiento
de lenguaje natural.
5.2. Otras aplicaciones
Además de los motores de búsqueda, existen otras
funciones o tareas que conviene que sean realizadas por agentes automáticos
los cuales pueden mejorar su rendimiento a través de la Web Semántica.
Conviene añadir que, todos estos usos, son en realidad derivaciones de
la Recuperación de Información:
- Comercio electrónico: el comercio electrónico
ha adquirido una gran relevancia en la actualidad. De hecho tres de cada cinco
empresas utilizan en alguna medida el comercio electrónico, además
hay una clara tendencia al incremento en el uso del comercio electrónico.
Por este motivo el uso de las tecnologías relacionadas con la red semántica
se convierte en un tema fundamental de interés.
La tecnología ontológica se convierte en una tecnología
prometedora para el comercio electrónico desde donde se proporciona un
marco para la integración de información, una estructura conceptual
y se permite la integración adicional con búsqueda y recuperación
basadas en el conocimiento de la información incorporada en el documento.
La Web Semántica puede mejorar la automatización de la mayoría
de las tareas de procesamiento de la información, que en la actualidad
lleva a cabo el individuo.
La información contenida, por ejemplo, productos y servicios, en las
aplicaciones de comercio electrónico deben ser conceptualizadas a partir
de ontologías que proporcionan la descripción y la jerarquía
de la información que se utiliza, así como sus relaciones: descripción
de las clases y subclases de productos junto con las cualidades del producto
asociadas.
El interés del comercio electrónico reside en permitir un mercado
electrónico global en donde las empresas de cualquier tamaño y
localización geográfica pueden resolver y dirigir los negocios
intercambiando información formalmente estructurada en base a lenguajes
de marcado y ontologías. Asimismo será necesario modelar progresivamente
aplicaciones ontológicas que favorezcan el intercambio eficiente de información.
La primera generación de ontologías aplicables al comercio electrónico
proporciona un sistema de especificaciones que permiten modelar el marco donde
se desarrolla el comercio electrónico. La segunda generación se
centra en desarrollar los nuevos modelos que favorecerán la interoperabilidad
requerida en el intercambio de información dinámico y complejo
incorporado al comercio electrónico.
Por ejemplo, si un usuario desea planificar un viaje a un destino turístico,
deberá acceder manualmente a todas las páginas que contienen la
información que necesita para su viaje: en primer lugar, deberá
reservar el vuelo; posteriormente, deberá acceder a la página
de una cadena hotelera y efectuar la reserva de plaza; y por último,
consultará los horarios y líneas del transporte local en la página
del ayuntamiento de la ciudad destino. Por tanto, con la Web actual no hay manera
de que se pueda automatizar este proceso. Porque un agente encontraría
la cadena de caracteres “53” y no sabría diferenciar si es
el número de la calle o el precio de la habitación. El usuario
desearía poder especificar sus preferencias de viaje a un programa (agente
inteligente) que llevara a cabo todo el proceso sin intervención humana,
y evitar perder horas navegando y accediendo de forma manual a las páginas
que necesita. Esto que no es posible ahora, será posible con la Web del
futuro que se ha bautizado como Web Semántica.
- Sistemas de información geográfica (GIS): El
intercambio de información entre diferentes GIS a veces falla debido
a confusiones en el significado de términos.
(http://www.ii.uam.es/~castells/docencia/semanticweb/trabajos/ui-99ws.pdf).
Un ejemplo de GIS que usa un traductor semántico es el Feature manipulation
Engine (FME) desarrollado por el gobierno canadiense
- Intermediación de derechos de propiedad intelectual:
La Web Semántica actúa también como estructura para gestionar
el enorme mercado de productos digitales. Señalamos la iniciativa MARS
como ejemplo de este uso. Cada documento digital contendrá un número
único, el URN, que funciona como una especie de marca de agua, que será
siempre visible y comprensible para los motores como un metadato más.
Éste número servirá para el control de las transacciones
de productos con copyright por parte de los vendedores.
(http://www.semanticweb.org/SWWS/program/full/paper15.pdf).
- Mejora de los resultados en la recuperación de información
audiovisual: Para ello se requiere el desarrollo de estándares
específicos para este tipo de datos. Por ejemplo el MPEG-7 (http://archive.dstc.edu.au/RDU/staff/jane-hunter/semweb/paper.html).
Existen proyectos de reconocimiento de imágenes por parte de máquinas,
que pueden tener prometedores resultados en la recuperación de información
multimedia, aunque también en muchos otros ámbitos, como por ejemplo,
la medicina.
El proyecto FUSION (http://metadata.net/sunago/fusion.htm) tiene como objetivos
desarrollar un esquema XML que defina los atributos de las imágenes (metadatos).
Además utilizan un software para el procesamiento de imágenes.
Asimismo hay aplicaciones de reconocimiento de cadenas de sonido y motores de
búsqueda de canciones, como Song Surfer de MTG-IUA UPF. Más complicado
es idear sistemas que permitan estrategias de búsqueda no basadas en
texto.
- Servicios móviles dependientes del contexto (Mobile Context-
Aware services): Las aplicaciones de la Web Semántica para los
servicios en Internet estarán también disponibles para los dispositivos
móviles. Éstas fueron desarrolladas en principio por el Departamento
de Defensa de EE.UU., pero tienen también bastantes aplicaciones civiles.
(http://wwww.daml.org/2003/01/iow/cmu2/).
- Para el control de datos de empresas: A modo de páginas
amarillas, son directorios de empresas estructurados de forma comprensible para
las máquinas. Esto facilita las relaciones y los negocios entre unas
empresas y otras. Por ejemplo UDDI, que es una propuesta de IBM, Microsoft y
Ariba.
- Aplicaciones educativas: El estudiante, una vez conectado, seleccionará
una serie de temas de una ontología general. El sistema organizará
un curso personalizado y adaptado de forma automática según el
perfil del estudiante. Los profesores que así lo deseen podrán
convertirse en “recursos de aprendizaje”. El sistema podrá
también agrupar a estudiantes similares, o representar los resultados
de cada uno en un formato estándar y convertir cada uno de sus perfiles
en un registro de una base de datos de currícula, accesible en las condiciones
de privacidad requeridas.
- Manejo de datos matemáticos: La WS también puede acoger
los contenidos matemáticos, o al menos así lo creen los que desarrollan
lenguaje de marcado para matemáticas (MathML).
- Adaptación de la web a los discapacitados: Mediante la mejora
de las herramientas de lectura, escritura y traducción y la extracción
del contenido de las representaciones gráficas.
Otras aplicaciones futuras (extraídas de textos científicos
y no de novelas de ciencia-ficción):
- Cámaras que detecten agresiones de forma automática (Kemp, TNO-FEL).
- La casa domótica. El frigorífico se comunica con el supermercado
y el microondas con el fabricante del producto congelado que vamos a calentar
para averiguar el tiempo de cocción.
- Tu coche avisará a las personas implicadas de que llegarás tarde
porque estás en un atasco (el propio atasco es un nodo de la Web Semántica).
Asimismo, si sufres un accidente, tu coche avisará a los servicios de
urgencias, etc.
Según Ronald Poell, la Web Semántica es sólo una estructura,
un pegamento que mejorará diferentes tecnologías ya existentes,
como por ejemplo, reconocimiento del habla, extracción de contenido visual,
búsquedas no basadas en texto, resumen automático, traducción
automática. Probablemente la WS nos proporcionará nuevas tecnologías
que aún no podemos ni imaginar.
6. La Web Semántica hoy
Los resultados alcanzados hasta ahora hacia la realización
de la web semántica son muy preliminares si se mira desde la óptica
más ambiciosa, la de la adopción universal de la web semántica.
Se ha avanzado mucho con las herramientas, los estándares y la infraestructura
necesarios para el despliegue de la web semántica, y se han desarrollado
proyectos y experiencias piloto para poner a prueba las herramientas y las ideas.
En este punto, el desarrollo de aplicaciones reales basadas en esta tecnología
se ha identificado como una realización necesaria para que la web semántica
prospere [Haustein 2002].
Existe un gran interés desde el entorno corporativo, el sector público
y el mundo académico por hacer de la web semántica una realidad,
ya que se piensa que puede ser una pieza importante para el progreso de la sociedad
de la información. Las grandes agencias de financiación pública
(programas marco EU-IST en Europa, DARPA en EE.UU.) incluyen áreas prioritarias
específicas dedicadas a la web semántica, y están invirtiendo
grandes presupuestos en proyectos de investigación y desarrollo en este
campo (la última llamada del VI Programa Marco ha destinado más
de 60.000 millones de euros al área “Semantic-based Knowledge Systems”
para los próximos cuatro años).
Las principales empresas (IBM, Microsoft, Sun, Oracle, BEA,
SAP, HP…) están participando activamente en el desarrollo de los
estándares y tecnologías.
La web semántica se ha convertido en un área de investigación
de moda en los centros de investigación de todo el mundo, entre ellos
el MIT, la Universidad de Stanford, la Universidad de Maryland, la Universidad
de Innsbruck (Austria), la Universidad de Karlsruhe (Alemania), la Universidad
de Manchester, la Open University en el Reino Unido, por citar tan sólo
algunos de los grupos más fuertes. También en la Universidad Autónoma
de Madrid se están llevando a cabo proyectos en esta área, y se
ha formado una línea de investigación y desarrollo en web semántica,
47 de la que participa el autor de este artículo. En pocos años
se ha consolidado una comunidad investigadora considerable, de cuyo reflejo
cabe destacar un gran congreso internacional que se celebra con carácter
anual (International Semantic Web Conference 48 ), y revistas como el Journal
of Web Semantics, 49 o el área The Semantic Web de Electronic Transactions
on Artificial Intelligence 50 (ETAI). Es muy de destacar así mismo el
apoyo y el importante papel del W3C en el proyecto de la web semántica,
con la creación de grandes y muy activos grupos de trabajo para el desarrollo
de esta área, y muy en especial liderando el esfuerzo de estandarización
de lenguajes y tecnologías específicas para la web semántica.
Aún queda mucho trabajo por hacer. Se necesita crear más y mejor tecnología e infraestructura, y más aún, desarrollar aplicaciones reales que pongan en práctica los principios de la web semántica, que pueblen la web con ontologías, y que hagan que la web semántica adquiera la masa crítica imprescindible para hacerse realidad. En espera de que se alcance esta meta y al margen de ese debate, se han desarrollado ideas muy aprovechables a niveles específicos, y se han abierto nuevos campos para la innovación, suficientemente interesantes, en opinión de este autor, para que merezca la pena involucrarse en esta área.
7. Perspectivas de futuro
Parece factible el funcionamiento de Agentes Electrónicos
que combinen información de diferentes fuentes (páginas web),
haciendo interpretaciones y dando soluciones elaboradas a partir de las mismas.
Si se consiguen lenguajes de marcado con mayor expresividad para representar
los conocimientos que contienen las ontologías, se alcanzarán
metas significativas, como sería el fomento de las transacciones entre
empresas por comercio electrónico.
La perspectiva de futuro que todos desearíamos, simplificada en que los
agentes web no sólo encontrarán la información de forma
precisa, sino que podrán realizar inferencias automáticamente
buscando información relacionada con la que se encuentra situada en las
páginas, y con los requerimientos de la consulta indicada por el usuario,
no se ve cercana.
Parece muy lejos el día en que de forma mayoritaria los contenidos de
la web tengan significado semántico, y el entendimiento de los numerosos
matices que la inteligencia humana procesa, hoy por hoy, es lago inalcanzable
para las máquinas.
De momento no hay un sistema para que los ordenadores interpreten la información
y tomen decisiones adaptándolas al contexto. Las posibilidades a corto
y medio plazo de la WS son muy reducidas. Una cosa es que se trate de un objetivo
que vale la pena perseguir y otro que sea factible.
Pero pese a todo lo dicho hasta aquí, el objetivo de la Web Semántica
es magnífico, producirá importantes avances en algunos o en todos
los terrenos relacionados con la representación y el acceso al conocimiento
y por lo tanto es importante apoyar esa perspectiva de futuro.
8. Bibliografía
· Arroyo Menéndez, David y García Cataño,
Carlina. “Biblioteca Digital y Web Semántica”, 2002. En:
http://www.sindominio.net/biblioweb/telematica/bibdigwebsem.htm.
[última consulta: 19 - 04 - 2005].
· Lozano Tello, A. “Ontologías en la Web
Semántica”.
I Jornadas de Ingeniería Web´01. www.informandote.com/jornadasIngWEB/articulos/jiw02.pdf
[última consulta: 14-05-2005].
· Berners-Lee, T., Hendler, J., Lassila, O. “The
Semantic Web”. Scientific American. Mayo 2001, vol. 284, nº 5, p.
34-43.
· Ding, Y., ET AL. “The semantic web: yet another hip?”.
Data & Knowledge Engineering. 2002, vol. 41, nº 2002, p. 205-227.
· Codina, Ll. “La Web Semántica: una visión crítica”.
El profesional de la información. Marzo-abril 2003, vol. 12, nº
2, p. 149-152.
· Lu, S., Dong, M., Fotouhi, F. “The Semantic Web: opportunities
and challenges for next-generation Web applications”. Informtaion Research.
July 2002, vol. 7, nº 4.
· Brooks, T.A. “The Semantic Web, universalist
ambition and some lessons from librarianship”. Information Research. July
2002, vol. 7, nº 4.
· World Wide Web Consortium: W3C. EE.UU.: W3C® (MIT, ERCIM, Keio),
Copyright © 1994-2005. http://www.w3.org.
[última consulta: 2-05-2005].
· Berners-lee, T. “Semantic web road map”. En: IW3C Design
Issues. Cambridge, Massachusetts: W3C, 1998. http://www.w3.org/DesignIssues/Semantic.html
. [última consulta: 2-05-2005].
· Castells, Pablo y Saiz, Francisco. “Tecnologías de modelado y gestión del conocimiento en la Web Semántica” . Madrid: Universidad Autónoma de Madrid, Escuela Técnica Superior de Informática, 2001. http://www.ii.uam.es/~castells/docencia/semanticweb/. [última consulta: 2-05-2005].
· Castells, Pablo. “Aplicación de técnicas de la Web Semántica”. Madrid: Universidad Autónoma de Madrid, 2002. http://giig.ugr.es/~mgea/coline02/Articulos/pcastells.pdf [última consulta: 2-05-2005].
· Robledano Esteban, Luis Fernando. “Gestión del Conocimiento en la Web Semántica”. En: http://www.iit.upco.es/~luisf/index.html [última consulta: 25-04-2005].
· URL: https://listas.hispalinux.es/pipermail/web-semantica-ayuda/2003-April/000013.html [última consulta: 25-04-2005].
· URL: http://www.w3c.es/divulgacion/guiasbreves/WebSemantica [última consulta: 25-04-2005].
· URL: http://www.w3.org/2001/sw/ [última consulta: 25-04-2005].
· URL: http://www.w3.org/TR/owl-features/ [última consulta: 25-04-2005].
· URL: http://www.w3.org/RDF [última consulta: 25-04-2005].
· URL: http://www.w3.org/RDF/FAQ [última consulta: 25-04-2005].
· URL: http://www.w3c.es/Traducciones/es/SW/2005/owlfaq [última consulta: 25-04-2005].
· URL: http://www.w3.org/2001/sw/WebOnt/impls [última consulta: 25-04-2005].
· URL: http://www.schemaweb.info/schema/BrowseSchema.aspx [última consulta: 25-04-2005].
· URL: http://pear.cs.umbc.edu/swoogle/ [última consulta: 25-04-2005].