Académique Documents
Professionnel Documents
Culture Documents
Web robots (también conocidos como Web Wanderers, Crawlers, o arañas), son programas
que recorren la Web de forma automática. Los motores de búsqueda como Google y utilizar
para indexar el contenido de la web, los spammers los utilizan para buscar direcciones de
correo electrónico, y tienen muchos otros usos.
Acerca de / robots.txt
In a nutshell En una palabra
Web site owners use the /robots.txt file to give instructions about their site to web robots;
this is called . propietarios de sitios Web utilizan el archivo robots.txt / a dar instrucciones
sobre su sitio web a los robots, lo que se llama El Protocolo de Exclusión de Robots.
It works likes this: a robot wants to vists a Web site URL, say
http://www.example.com/welcome.html. Funciona le gusta esto: un robot quiere los visiten
una URL del sitio Web, por ejemplo http://www.example.com/welcome.html. Before it does
so, it firsts checks for http://www.example.com/robots.txt, and finds: Antes de hacerlo, lo
primeros controles de http://www.example.com/robots.txt, y encuentra:
User-agent: * User-agent: *
Disallow: / Disallow: /
The " " means this section applies to all robots. El "User-agent: *" significa que esta
sección se aplica a todos los robots. The " " tells the robot that it should not visit any pages
on the site. El "No permitir: /" le dice al robot que no debe visitar las páginas en el
sitio.
There are two important considerations when using /robots.txt: Hay dos consideraciones
importantes cuando se utiliza / robots.txt:
robots can ignore your /robots.txt. los robots pueden ignorar su / robots.txt.
Especially malware robots that scan the web for security vulnerabilities, and email
address harvesters used by spammers will pay no attention. Especialmente los
robots de software malicioso que exploran la web en busca de vulnerabilidades de
seguridad, y cosechadoras dirección de correo electrónico utilizada por los spammers
no prestan atención.
the /robots.txt file is a publicly available file. el fichero / robots.txt es un archivo a
disposición del público. Anyone can see what sections of your server you don't want
robots to use. Cualquiera puede ver qué secciones de su servidor en el que no quiere
robots de usar.
So don't try to use /robots.txt to hide information. Así que no trate de usar / robots.txt para
ocultar información.
The /robots.txt is a de-facto standard, and is not owned by any standards body. El robots.txt
/ es un estándar de facto, y no es propiedad de ningún organismo de normalización. There
are two historical descriptions: Hay dos descripciones históricas:
the original 1994 document. original de 1994 Un estándar para exclusión de robots
documento.
a 1997 Internet Draft specification en 1997 un proyecto de especificación de
Internet un método para control de robots web
The rest of this page gives an overview of how to use /robots.txt on your server, with some
simple recipes. El resto de esta página ofrece una visión general de cómo usar / robots.txt
en su servidor, con algunas recetas sencillas. To learn more see also the . Para obtener más
información, véase también el FAQ .
The short answer: in the top-level directory of your web server. La respuesta corta: en el
directorio de nivel superior de su servidor web.
When a robot looks for the "/robots.txt" file for URL, it strips the path component from the
URL (everything from the first single slash), and puts "/robots.txt" in its place. Cuando un
robot se ve para el "/ robots.txt" archivo de la URL, se quita el componente de ruta de la URL
(todo, desde la barra primer single), y pone "/ robots.txt" en su lugar.
For example, for " , it will remove the " ", and replace it with " ", and will end up with
"http://www.example.com/robots.txt". Por ejemplo, para
"http://www.example.com/shop/index.html, también eliminará el directorio" /
tienda / index.html ", y sustituirlo por" "/ robots.txt, y terminará con
"http://www.example.com/robots.txt".
So, as a web site owner you need to put it in the right place on your web server for that
resulting URL to work. Así que, como propietario de un sitio web es necesario ponerlo en el
lugar correcto en el servidor web para que los URL que se obtiene al trabajo. Usually that is
the same place where you put your web site's main " " welcome page. Por lo general, que es
el mismo lugar donde poner su sitio web principal "index.html" página de bienvenida.
Where exactly that is, and how to put the file there, depends on your web server software.
¿Dónde exactamente que es, y cómo poner el archivo existe, depende de su software de
servidor web.
Remember to use all lower case for the filename: " ", not " . Recuerde que debe utilizar
todo en minúsculas el nombre de archivo "robots.txt", no "robots.txt.
User-agent: * User-agent: *
Disallow: /cgi-bin/ Disallow: / cgi-bin /
Disallow: /tmp/ Disallow: / tmp /
Disallow: /~joe/ Disallow: / ~ juan /
In this example, three directories are excluded. En este ejemplo, tres directorios son
excluidos.
Note that you need a separate "Disallow" line for every URL prefix you want to exclude --
you cannot say "Disallow: /cgi-bin/ /tmp/" on a single line. Tenga en cuenta que necesita
separar la "Disallow" línea para cada prefijo de URL que desea excluir - no se puede decir
"No permitir: / cgi-bin / / tmp /" en una sola línea. Also, you may not have blank lines in a
record, as they are used to delimit multiple records. Además, no puede haber líneas en
blanco en un registro, ya que se utilizan para delimitar varios registros.
Note also that globbing and regular expression are supported in either the User-agent or
Disallow lines. Tenga en cuenta también que esta expansión y de expresiones regulares no
son compatibles ni en el usuario-agente o líneas Disallow. The '*' in the User-agent field is a
special value meaning "any robot". El '*' en el campo User-agent es un valor especial que
significa "ningún robot". Specifically, you cannot have lines like "User-agent: *bot*",
"Disallow: /tmp/*" or "Disallow: *.gif". En concreto, no se puede tener líneas como "User-
agent: * * bot", "No permitir: / tmp / *" o "Disallow: *. gif".
What you want to exclude depends on your server. Lo que quiere excluir depende de tu
servidor. Everything not explicitly disallowed is considered fair game to retrieve. Todo lo que
no se considera explícitamente rechazado juego justo para recuperar. Here follow some
examples: He aquí algunos ejemplos:
To exclude all robots from the entire server Para excluir todos los robots de
todo el servidor
User-agent: * User-agent: *
Disallow: / Disallow: /
To allow all robots complete access Para permitir que todos los robots de
acceso completo
User-agent: * User-agent: *
Disallow: No permitir:
(or just create an empty "/robots.txt" file, or don't use one at all) (O simplemente crear un
vacío "/ robots.txt" archivo, o no usar ninguno en absoluto)
To exclude all robots from part of the server Para excluir todos los robots de
la parte del servidor
User-agent: * User-agent: *
Disallow: /cgi-bin/ Disallow: / cgi-bin /
Disallow: /tmp/ Disallow: / tmp /
Disallow: /junk/ Disallow: / basura /
User-agent: * User-agent: *
Disallow: / Disallow: /
To exclude all files except one Para excluir todos los archivos excepto uno
This is currently a bit awkward, as there is no "Allow" field. Este es actualmente un poco
incómodo, ya que no hay "Permitir" sobre el terreno. The easy way is to put all files to be
disallowed into a separate directory, say "stuff", and leave the one file in the level above this
directory: La forma más fácil es poner todos los archivos a ser rechazado en un directorio
aparte, decir "cosas", y dejar el archivo en un nivel por encima de este directorio:
User-agent: * User-agent: *
Disallow: /~joe/stuff/ Disallow: / ~ juan / cosas /
Alternatively you can explicitly disallow all disallowed pages: Alternativamente, usted puede
prohibir explícitamente todas las páginas no permitidos:
User-agent: * User-agent: *
Disallow: /~joe/junk.html Disallow: / ~ juan / junk.html
Disallow: /~joe/foo.html Disallow: / ~ juan / foo.html
Disallow: /~joe/bar.html Disallow: / ~ juan / bar.html
1. User-agent: * #Para todos los crawlers
2. Disallow: /ejemplo/
3. Disallow: /admin/
4. Allow: /
5.
Veran que en la ultima linea se agrego "Allow: /", esto significa que todo el
contenido es accesible, claro con exepcion de los directorios delimitados por el
Disallow.
robots.txt
Los buscadores tipo google se sirven de robots, programas con
algoritmos mas o menos complejos, que les permiten leer una página
web, recuperar y guardar su contenido -o partes relevantes del
mismo- en una base de datos y seguir los enlaces que tenga a otras
páginas web
El archivo robots.txt
Cuando un robot visita una página, por ejemplo
http://www.ignside.net/, lo primero que solicita al servidor es el
archivo http://www.ignside.net/robots.txt.
User-agent: webcrawler
Disallow:
User-agent: lycra
User-agent: BadBot
Disallow: /
User-agent: *
Disallow: /tmp
Disallow: /logs
Puedes consultar una lista de los robots conocidos en robotstxt.org
Visit-time
Se están intentando añadir nuevas directivas que permitan controlar
el tiempo en el que los robots indexan las páginas:
...
Visit-time: 0200-0745
# Un documento CADA 30 minutos
Request-rate: 1/30m
¿necesitas mas?
http://www.w3.org/TR/html40/appendix/notes.html#h-B.4.1.1
http://www.robotstxt.org/wc/norobots.html
http://www.robotstxt.org/wc/robots.html
http://www.w3.org/Search/9605-Indexing-Workshop/ReportOutcomes/Spidering.txt
http://www.robotstxt.org/wc/faq.html
http://www.conman.org/people/spc/robots2.html#format.directives.visit-time
El archivo Robots.txt es ideal tenerlo en cada uno de los sitios, ya que con él podremos
indicar a los buscadores lo que queremos que indexe y lo que no, pudiendo decirle el
tiempo máximo que puede estar por cada carpeta.
Veamos una lista de los tres mejores generadores de robots.txt
En Mcanerin nos presentan una aplicación para generar archivos para robots, en él nos
permite especificar las carpetas que queremos que rastreen y el tiempo máximo que
deben estar los robots en dicha carpeta/página.
Frobee.com nos permite validar nuestro archivo robots.txt, para ver si éste está correcto
antes de mostrarlo a los robots.
En definitiva, es mejor tener un archivo Robot.txt para que no tengamos problemas con
los buscadores, ya que sin él podrían indexar hasta la carpeta de administración del sitio.
El protagonista del actual post suele llevarse menos menciones que los demás factores de una estrategia
SEO de una manera injusta ya que es quien nos permite indicar a los buscadores, en sus rastreos, que
páginas deseamos que sean indexadas y, por el contrario, que tipo de contenidos no queremos que
aparezcan en los resultados de búsqueda. Nos referimos al fichero “robots.txt”
Si entre nuestra estructura del site existen parcelas de la misma que aloja contenidos que no queremos
que sean indexados por los buscadores, podemos utilizar el archivo “robots.txt” para dar esa orden pues
es el primero de los ficheros que analizan las arañas de los motores de búsqueda para seguir sus
instrucciones. Eso si, no es obligatorio contar con este tipo de archivos aunque esto puede dar lugar que
en nuestras estadísticas de tráfico aparezcan errores 404 (de ficheros no encontrados). Pero es de gran
utilidad, por ejemplo, para que nuestra web no tenga indexado el mismo contenido dependiente de
diferentes urls, es decir, contenido duplicado. O bien para nuestra página de estadísticas si las tenemos
abiertas o de acceso a nuestro CMS.
“Robot.txt” debe colocarse en al directorio raíz o root directory de nuestro site y, además, introducir la
etiqueta del Robot en el encabezado de la página:
<head>
<title> Marketing Online Blog - Lineas de Marketing</title>
<meta name="description" content="Blog de las disciplinas del
marketing online">
<meta name="robots" content="index, follow">
</head>
En los ejemplos que os ofrecemos a continuación, indicaremos a los buscadores que es lo que deseamos
que nunca aparezca en un resultado de búsqueda.
Estas líneas se consideran una única entrada en el archivo. Puede incluir todas las entradas que desee,
varias líneas Disallow y varios user-agents en una misma entrada.
Cada sección del archivo robots.txt es independiente y no se genera a partir de secciones anteriores.
Por ejemplo:
User-agent: *
Disallow: /carpeta1/
User-Agent: Googlebot
Disallow: /carpeta2/
En este ejemplo, no se permitirían para Googlebot únicamente las URL coincidentes con /carpeta2/.
User-agent: *
Google utiliza varios robots diferentes (user-agents). El robot que utilizamos para nuestra búsqueda web
es Googlebot. El resto de nuestros robots, como Googlebot-Mobile y Googlebot-Image, siguen las reglas
configuradas para Googlebot, aunque también pueden definirse reglas específicas para ellos.
Bloqueo de user-agents
La línea Disallow indica las páginas que desea bloquear. Puede insertar una URL específica o un patrón.
La entrada debe comenzar con una barra inclinada (/).
Disallow: /
Bloquear un directorio y todo lo que contiene, inserte una barra inclinada después del nombre del
mismo.
Disallow: /directorio-sintitulo/
Disallow: /archivo_privado.html
User-agent: Googlebot-Image
Disallow: /imagenes/perros.jpg
User-agent: Googlebot-Image
Disallow: /
User-agent: Googlebot
Disallow: /*.pdf$
ROBOTS.TXT
Algunos buscadores usan robots para indexar tus páginas. Para ello buscan un
fichero de texto llamado robots.txt en el que puedes indicar que partes de tu sitio
son indexables y que robots pueden acceder a estas.
Inicio
Ejemplos:
User-agent: *
Disallow :
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /borrador/
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow : /
User-agent: Googlebot
Disallow : /
User-agent: *
Disallow:/borrador/pruebas.html
Archivos Robots.txt
10 Jan
2011
in Share 0
Los bots de los motores de búsqueda van a rastrear éste archivo de texto, el cual
proporcionará algunas indicaciones que pueden optimizar la indexación de nuestro sito.
El robot.txt también indica a los buscadores qué partes de la web deben indexar y cuáles
no, pudiéndose incluír en el fichero directrices para restringir el acceso a contenidos .
Por lo general los CMS o gestores de contenidos dinámicos generan el archivo
robots.txt con los parámetros básicos de manera automática.
Un fichero robot.txt tipo que permite el libre acceso al sitio quedaría así:
User-Agent: *
Con este comando se le indica a los rastreadores que tienen libre acceso para indexar
todos los contenidos que haya en el sitio web.
El caso opuesto, un robot.txt que bloquearía por completo el acceso a los motores de
búsqueda se leería de la siguiente forma:
User-Agent: *
Disallow: /
User-Agent: *
Disallow: /directorio/archivostemporales
El fichero robots.txt es útil para evitar indexación de contenido duplicado, así como
para informar a los buscadores de la implementación de un sitemap. Para ello, tan sólo
es necesario añadir una línea al fichero con la URL absoluta donde se encuentre el
archivo sitemap.
Ejemplo:
http://www.misitio.com/sitemap.xml
El archivo robots.txt, nos permite especificar páginas de nuestra web a las que no podrán
acceder los sistemas automatizados de rastreo de páginas web ( como por ejemplo los robots
de buscadores ), esto es útil para evitar que algunas secciones cómo páginas de resultado de
búsqueda, URL's con parámetros no representativos, páginas privadas o de usuario...
ArribaTabla de contenido
· El archivo robots.txt
· Ejemplo
http://www.programacionweb.net/robots.txt
En este archivo indicaremos las páginas que no pueden ser rastreadas utilizando única y
exclusivamente las siguientes directivas sensibles a mayúsculas:
Ambas directivas nos permiten usar el carácter asterisco ( * ) como comodín para una o más
letras.
Podemos escribir comentarios de una sola línea con el caracter almohadilla ( # ) al principio de
línea.
ArribaEjemplo
robots.txt
000 # Permitir todas las páginas a todos los robots ...
User-agent: *
001 Disallow:
002 # ... pero Googlebot no puede acceder al directorio /an
tigoogle/
003 User-agent: Googlebot
Disallow: /antigoogle/
004
Maximizar Seleccionar CMD
005
006
Podeis ver y chequear el archivo robots.txt de vuestra web, con nuestra herramienta de analisis
y edición de robots.txt
Contenido
[ocultar]
1 El archivo robots.txt
2 Desventajas
3 Cuerpo o estándar RFC oficial para el protocolo de robots.txt
4 Ejemplos
5 Observaciones
6 Véase también
7 Enlaces externos
[editar] Desventajas
Este protocolo es consultivo. Confía en la cooperación de los robots del sitio Web, de
modo que marca una o más áreas de un sitio fuera de los límites de búsqueda con el uso
de un archivo robots.txt, aunque éste no necesariamente garantice aislamiento completo.
Algunos administradores de sitios Web utilizan el archivo robots.txt para hacer algunas
secciones privadas, invisibles al resto del mundo, pero dado que los archivos están
disponibles en forma pública, su contenido podría ser visto de todas maneras por
cualquier persona con un navegador Web y conocimientos medianamente avanzados.
En algunos casos el incluir un directorio en este archivo le anuncia su presencia a
posibles hackers, así ellos pueden determinar fácilmente algunos softwares usados en el
sitio mediante buscar "huellas típicas" en el robots.txt.
User-agent: *
Disallow:
Este ejemplo les niega el acceso a todos los bots (implementando el comodín [/], en
todos los archivos almacenados en el directorio raíz:
User-agent: *
Disallow: /
El siguiente es un ejemplo que dice que todos los subdirectorios que incluyan el
comodín (/) deben ser bloqueados, únicamente éstos, exceptuando a todos los demás
archivos y directorios que no contienen un comodín, para su revisión:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private
Acerca de / robots.txt
Los propietarios de sitios Web utilizan el archivo / robots.txt para dar
instrucciones sobre su sitio web a los robots de búsqueda, lo que se llama El
Protocolo de Exclusión de Robots.
¿Qué pasa cuando un robot quiere visitar una página Web URL?
User-agent: *
Disallow: /
El "User-agent: *" significa que esta sección se aplica a todos los robots.
Disallow ": /" indica al robot que no debe visitar las páginas del sitio.
de correo electrónico recolectado por los spammers para vender las direcciones de
correo electrónico.
ver qué secciones de su servidor tiene y puede indicar cuales no desea que vean.
Si el robot malicioso opera desde una única dirección IP, puede bloquear su acceso
a su servidor web a través de la configuración del servidor o con un firewall de red.
Si el robot copia gran cantidad de direcciones IP, de varias PCs que son parte de
una gran red de PC´s, entonces se vuelve más difícil. La mejor opción entonces es
utilizar las reglas de configuración de seguridad de su servidor para que en forma
automática bloquee el acceso a las direcciones IP que desean hacer muchas
conexiones, pero el problema es que se reciben tanto robots buenos como malos.
Podría ser porque fue escrito por un programador de software sin experiencia. En
estos días es más probable que el robot esté explícitamente escrito para analizar su
sitio, en lugar de obtener información de los abusos, es más rentable, pero poco
ético recoger direcciones de correo electrónico y venderlas para enviar spam.
Implicaciones de Seguridad
Algunas personas están preocupadas porque en sus páginas de venta o páginas de
aterrizaje, puedan tener accesos maliciosos a través de estos robots y logren
robarles su dinero de sus cuentas de banco.
Así que, como propietario de un sitio web usted necesita ponerlo en el lugar
correcto en el servidor web para que funcione. Por lo general, es el mismo lugar
donde pone su página de bienvenida principal "index.html".
Qué poner en él
El archivo "/ robots.txt" es un archivo de texto, con uno o más registros. Por lo
general, contiene un registro único de este aspecto:
User-agent: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / ~ juan /
Tenga en cuenta que necesita separar la línea "Disallow" para cada prefijo de URL
que desea excluir - usted no puede decir "No permitir: / cgi-bin / / tmp /" en una
sola línea. Además, no puede haber líneas en blanco en un registro, ya que se
utilizan para delimitar varios registros.
User-agent: *
Disallow: /
User-agent: *
No permitir:
User-agent: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / junk /
User-agent: BadBot
Disallow: /
User-agent: Google
No permitir:
User-agent: *
Disallow: /
1. La Búsqueda de la Dirección IP puede ayudar a saber más acerca de qué robots
están visitando su sitio.