World Wide Web es un sistema de hipertexto global que Tim Berners Lee desarrolló inicialmente en 1989 en el Laboratorio Europeo de Física de Partículas, CERN en Suiza. En 1993 la Web empezó a crecer rápidamente y se mantuvo debido al NCSA (Centro Nacional de Aplicaciones de Supercomputadores) que desarrolló un navegador de Web llamado Mosaic, una aplicación basada en X Windows. Esta aplicación proporcionó la primera interfaz gráfica de usuario para la Web e hizo la navegación más sencilla.
Hoy en día existen navegadores y servidores de Web disponibles para casi todas las plataformas. Se pueden obtener a través de FTP libremente o comprar una copia de licencia. El rápido crecimiento de la Web se debe a que la gente puede navegar de forma flexible por los recursos que están ampliamente extendidos en Internet y recuperarlos. Para tener una idea del crecimiento de la Web, aquí se muestran algunas estadísticas:
- Junio de 1993 - sólo 130 sitios Web disponibles
- Diciembre de 1994 - más de 11500 sitios Web disponibles
Presentar un documento en hipertexto tiene ciertas ventajas para el usuario. Por ejemplo, si se quiere más información sobre un tema en particular, con una simple pulsación de ratón se puede leer más detalle sobre ello. Los temas con un enlace a otro documento se puede identificar fácilmente porque están resaltados. Un documento de Web podría incluir enlaces a otros documentos residiendo en diferentes sitios Web. Si se activa el enlace, con una pulsación de ratón, el otro documento se recupera automáticamente del servidor correspondiente y se muestra.
El protocolo de comunicación estándar entre los servidores Web y los clientes es el Protocolo de Transferencia de Hipertexto (HTTP) que es un estándar borrador de Internet. HTTP es un protocolo genérico orientado a objetos. IETF ha organizado un grupo de trabajo para mejorar el rendimiento de HTTP. Los navegadores de Web pueden utilizar también muchos otros protocolos de Internet como por ejemplo FTP, Gopher, WAIS y NNTP (Protocolo de Transferencia de Noticias de Red). De manera que no se necesita un determinado cliente para tener acceso a todos estos otros recursos también disponibles en la red. Más adelante se explica cómo diferencia el navegador de Web entre todos estos protocolos y cuál de ellos se soportan.
Una transacción HTTP consiste básicamente en:
- Conexión
- El establecimiento de una conexión del cliente al servidor. El puerto de TCP/IP 80 es el puerto bien-conocido, pero se pueden especificar otros puertos que no estén reservados en la URL.
- Petición
- El envío, de un cliente, de un mensaje de petición para el servidor.
- Respuesta
- El envío, del servidor, de una respuesta al cliente.
- Cierre
- El cierre de la conexión de alguna o ambas partes.
Para una descripción más detallada de HTTP referirse a los documentos borrador del correspondiente grupo de trabajo IETF.
El lenguaje de etiquetas estándar para los documentos de Web es HTML (Lenguaje de Etiquetas de Hipertexto) que es un estándar borrador de Internet y está actualmente bajo construcción por varios grupos de trabajo de IETF. HTML es una aplicación SGML (Lenguaje de Etiquetas Generalizado Estándar). Si se desea crear un documento Web se tiene que usar las etiquetas HTML para construir la estructura lógica del documento, por ejemplo cabeceras, listas y párrafos. Existe algunas etiquetas disponibles para definir enlaces a otros documentos o para incluir figuras en el texto.
<HTML> <!-- Comienzo del documento --> <HEAD> <!-- Un documento de ejemplo --> <TITLE>Esto es un ejemplo</TITLE> </HEAD> <!-- Fin de la sección de cabecera --> <BODY> <!-- Comienzo del cuerpo del texto --> <H1>Primera Cabecera</H1> <P>El primer párrafo. <UL> <!-- lista sin ordenar --> <LI>Artículo uno </UL> <!-- Fin de la lista --> </BODY> <!-- Fin del cuerpo del texto --> </HTML> <!-- Fin del documento -->Para conseguir una introducción a HTML referirse al siguiente documento.
Todos los documentos, imágenes, audio o vídeo clips de la Web se llaman recursos. Para direccionar e identificar el método de acceso para estos recursos la Web usa URLs (Localizador Uniforme de Recursos). URL es un protocolo estándar de Internet y puede encontrarse en el RFC 1738. La estructura global para construir nuevos esquemas de direccionamiento para codificar nombres de direcciones y de objetos en Internet se describe en el RFC 1630. Este RFC introduce el término URI (Identificadores de Recursos Universal) como un modelo más teórico para construir estos esquemas. Una URL es una forma específica de una URI. En general, las URLs se escriben como sigue:
<esquema>:<parte-específica-esquema>Un URL contiene el nombre del esquema que se está usando (<esquema>) seguido de dos puntos y de una ristra (la <parte-específica-esquema>) cuya interpretación depende del esquema. El RFC cubre los siguientes esquemas, y otros esquemas pueden seguirle en el futuro:
- ftp - Protocolo de Transferencia de Ficheros
- http - Protocolo de Transferencia de HiperTexto
- gopher - Protocolo Gopher
- mailto - Dirección de Correo Electrónico
- news - Noticias USENET
- nntp - Noticias USENET usando acceso NNTP
- telnet - Sesiones Interactivas
- wais - Servidores de Información de Área Ancha
- file - Nombres de Fichero Específicos de Host
- prospero - Servicio de Directorio Prospero
Mientras que la sintaxis para el resto de la URL puede variar dependiendo del esquema particular seleccionado, los esquemas URL que involucran el uso directo de un protocolo basada en IP para un host específico en Internet usa una sintaxis común para los datos específicos del esquema:
//<usuario>:<clave>@<host>:<puerto>/<trayectoria-url>Pueden excluirse algunas partes o todas "<usuario>:<clave>@", ":<clave>", ":<puerto>", y "/<trayectoria-url>". Los datos específicos del esquema comienzan con una doble barra "//" para indicar que cumple con la sintaxis de esquema común de Internet.
La "trayectoria-url" al final del esquema suministra los detalles de cómo se puede acceder a los recursos específicos. Nótese que la "/" entre el host (o puerto) y la trayectoria-url no es parte de la trayectoria-url.
Según la definición anterior la URL de HTTP se parece a esto:
http://<host>:<puerto>/<trayectoria>?<parte-búsqueda>donde:
- host
- El nombre de dominio cualificado totalmente de un host de red o una dirección IP decimal punteada (por ejemplo, www.gomera.com).
- puerto
- El número de puerto para conectarse. Si este parámetro se omite en una URL de HTTP, por defecto es 80.
- trayectoria
- La trayectoria especifica el selector HTTP, una ruta a un documento HTML por ejemplo.
- ? parte-búsqueda
- La parte de búsqueda es una ristra que se indica precedida con un signo de interrogación.
La URL del RFC 1630 por ejemplo se puede escribir como:
http://info.cern.ch/hypertext/WWW/Addressing/URL/URI_Overview.htmlLa sintaxis de todos los otros esquemas definidos como FTP y Gopher, por ejemplo, se explican en el RFC 1738.
Existe tres formas de acceder a la Web:
- Usar un navegador de Web en una máquina propia
Esta es la mejor opción pero la LAN corporativa debe tener acceso a Internet. En la mayoría de los casos estas redes no tienen acceso directo a Internet, sino que se conectan con un cortafuegos. En este caso se tiene que especificar un servidor SOCKS o una pasarela proxy donde se esté registrado para tener acceso a Internet. Otra forma de conectarse es usar el protocolo SLIP. Con este protocolo se puede configurar una conexión por módem a un proveedor de acceso a Internet.
- Usar un navegador sobre una máquina con acceso TELNET (no es tan bueno pero es posible).
- Acceder a la Web por E-mail (no es muy atractivo pero sí posible).