Vous êtes sur la page 1sur 4

Internet profunda

Se
conoce
como Internet
profunda o Internet
invisible (en ingls:Deepweb, Invisible
Web, Deep Web, Dark Web o Hidden Web)
a todo el contenido de Internet que no forma
parte del Internet superficial, es decir, de las
pginas indexadas por las redes de
los motores de bsqueda de la red. Esto se
debe a las limitaciones que tienen las redes
para acceder a todos los sitios web por
distintos motivos.
Ilustracin de la Internet profunda

La mayor parte de la informacin encontrada en la Internet Profunda est


enterrada en sitios generados dinmicamente y para los motores de bsqueda
tradicionales es difcil hallarla. Fiscales y Agencias Gubernamentales han
calificado a la Internet Profunda como un refugio para la delincuencia debido al
contenido ilcito que se encuentra en ella.

Causas
La principal causa de la existencia de la Internet profunda es la imposibilidad
de los motores de bsqueda de encontrar o indexar gran parte de la
informacin existente en Internet. Se estima que la Internet Profunda es 500
veces mayor que la Internet Superficial, siendo el 95% de esta informacin
pblicamente accesible. Si los buscadores tuvieran la capacidad para acceder
a toda la informacin entonces la magnitud de la "Internet profunda" se
reducira casi en su totalidad; sin embargo, no desaparecera totalmente
porque siempre existirn pginas privadas.
Los siguientes son algunos de los motivos por los que los buscadores son

incapaces de indexar la Internet profunda:

Pginas y sitios web protegidos con contrasea.


Documentos en formatos no indexables.
Enciclopedias, diccionarios, revistas en las que para acceder a la
informacin hay que interrogar a la base de datos, como por ejemplo la
base de datos de la RAE.

Tamao
La Internet profunda (Deep Web) es un conjunto de sitios web y bases de datos
que buscadores comunes no pueden encontrar ya que no estn indexadas. El
contenido que puede ser hallado dentro de la Internet profunda es muy
amplio.5Se estima que la Internet Profunda es 500 veces mayor6 que la Internet
Superficial, siendo el 95% de esta informacin pblicamente accesible.

El internet se ve divido en dos ramas, La internet profunda y la superficial.


El Internet superficial se compone de pginas estticas o fijas , mientras que
Web profunda est compuesta de pginas dinmicas. La pginas estticas no
dependen de una base de datos para desplegar su contenido si no que residen
en un servidor en espera de ser recuperadas, y son bsicamente
archivos HTML cuyo contenido nunca cambia . Todos los cambios se realizan
directamente en el cdigo y la nueva versin de la pgina se carga en el
servidor. Estas pginas son menos flexibles que las pginas dinmicas . Las
pginas dinmicas se crean como resultado de una bsqueda de base de
datos. El contenido se coloca en una base de datos y se proporciona slo
cuando lo solicite el usuario.
Se estima que la informacin que se encuentra en la Internet profunda es de
7,500 terabytes, lo que equivale a aproximadamente 550 billones de
documentos individuales. El contenido de la internet profunda es de 400 a 550
veces mayor de lo que se puede encontrar en la Internet superficial. En
comparacin, se estima que la Internet superficial contiene solo19 terabytes de
contenido y un billn de documentos individuales. En 2010 existan ms de
200,000 sitios en la internet profunda.
La ACM por sus siglas en ingls (Association for Computing Machinery) public
en 2007 que Google y Yahoo indexaban el 32 % de los objetos de la internet
profunda , y MSN tena la cobertura ms pequea con el 11 % . Sin embargo,
la cobertura de lo tres motores era de 37 % , lo que indicaba que estaban
indexando casi los mismos objetos.9 Se prev que alrededor del 95% del
internet es internet profunda, tambin le llaman invisible u oculta, la informacin
que alberga no siempre est disponible para su uso. Por ello se han
desarrollado herramientas como buscadores especializados para acceder a
ella.

Denominacin
Son pginas de texto, archivos, o en ocasiones informacin a la cual se puede
acceder por medio de la World Wide Webque los buscadores de uso general
no pueden, debido a limitaciones o deliberadamente, agregar a sus indices de
pginas webs. La Web profunda se refiere a la coleccin de sitios o bases de
datos que un buscador comn, como Google, no puede o quiere indexar. Es un
lugar especifico del Internet que se distingue por el anonimato. Nada que se
haga en esta zona puede ser asociado con la identidad de uno, a menos que
uno lo dese.
Bergman, en un artculo semanal sobre la Web profunda publicado en el
Journal of Electronic Publishing, mencion que Jill Ellsworth utiliz el trmino
"la Web invisible" en 1994 para referirse a los sitios web que no estn
registrados por algn motor de bsqueda.
Bergman cit un artculo de 1996 de Frank Garca:

Sera un sitio que, posiblemente est diseado razonablemente, pero no se


molestaron en registrarlo en alguno de los motores de bsqueda. Por lo tanto,
nadie puede encontrarlos! Ests oculto. Yo llamo a esto la Web invisible.
Otro uso temprano del trmino Web Invisible o web profunda fue por Bruce
Monte y Mateo B. Koll de Personal Library Software, en una descripcin de la
herramienta @ 1 de web profunda, en un comunicado de prensa de diciembre
de 1996.
El primer uso del trmino especfico de web profunda, ahora generalmente
aceptada, ocurri en el estudio de Bergman de 2001 mencionado
anteriormente.
Por otra parte, el trmino web invisible se dice que es inexacto porque:

Muchos usuarios asumen que la nica forma de acceder a la web es


consultando un buscador.
Alguna informacin puede ser encontrada ms fcilmente que otra, pero
sto no quiere decir que est invisible.
La web contiene informacin de diversos tipos que es almacenada y
recuperada en diferentes formas.
El contenido indexado por los buscadores de la web es almacenado
tambin en bases de datos y disponible solamente a travs de las
interrogaciones del usuario, por tanto no es correcto decir que la
informacin almacenada en bases de datos es invisible.

Rastreando la Internet profunda


Los motores de bsqueda comerciales han comenzado a explorar mtodos
alternativos para rastrear la Web profunda. El Protocolo del sitio (primero
desarrollado e introducido por Google en 2005) y OAI son mecanismos que
permiten a los motores de bsqueda y otras partes interesadas descubrir recursos
de la Internet Profunda en los servidores web en particular. Ambos mecanismos
permiten que los servidores web anuncien las direcciones URL que se puede
acceder a ellos, lo que permite la deteccin automtica de los recursos que no
estn directamente vinculados a la Web de la superficie.El sistema de bsqueda
de la Web profunda de Google pre-calcula las entregas de cada formulario HTML y
agrega a las pginas HTML resultantes en el ndice del motor de bsqueda de
Google. Los resultados surgidos arrojaron mil consultas por segundo al contenido
de la Web profunda15 . Este sistema se realiza utilizando tres algoritmos claves:

La seleccin de valores de entrada, para que las entradas de bsqueda de


texto acepten palabras clave.
La identificacin de los insumos que aceptan slo valores especificos (por
ejemplo, fecha).
La seleccin de un pequeo nmero de combinaciones de entrada que
generan URLs adecuadas para su inclusin en el ndice de bsqueda Web.

Recursos de la internet profunda


Los recursos de la Internet Profunda pueden estar clasificados en una de las
siguientes categoras:

Contenido de Acceso limitado: los sitios que limitan el acceso a sus pginas
de una manera tcnica (Por ejemplo, utilizando el estndar de exclusin de
robots o captcha, que prohben los motores de bsqueda de la navegacin
por y la creacin de copias en cach22 .
Contenido Dinmico: Las pginas dinmicas que devuelven respuesta a
una pregunta presentada o acceder a travs de un formulario,
especialmente si se utilizan elementos de entrada en el dominio abierto
como campos de texto.
Contenido No Vinculado: paginas que no estn conectadas con otras
pginas, que pueden impedir que los programas de rastreo web tengan
acceso al contenido. Este material se conoce como pginas sin enlaces
entrantes.
Contenido Programado: pginas que slo son accesibles a travs de
enlaces producidos por JavaScript, as como el contenido descargado de
forma dinmica a partir de los servidores web a travs de soluciones de
Flash o Ajax.
Sin contenido HTML: contenido textual codificado en multimedia (imagen o
video) archivos o formatos de archivo especficos no tratados por los
motores de bsqueda.
Web privada: los sitios que requieren de registro y de una contrasea para
iniciar sesin
Web contextual: pginas con contenidos diferentes para diferentes
contextos de acceso (por ejemplo, los rangos de direcciones IP de clientes
o secuencia de navegacin anterior).
http://es.wikipedia.org/wiki/Internet_profunda

Vous aimerez peut-être aussi