Vous êtes sur la page 1sur 3

ramonyago.com http://www.ramonyago.

com/robots-txt-optimizado-para-wordpress/
Ramn Yago
robots.txt optimizado para WordPress
En mi anterior artculo vimos qu era el f ichero robots.txt, cmo crearlo y utilizarlo. Ahora vamos a ver
cmo optimizarlo para WordPress, uno de los gestores de contenido ms utilizados a nivel mundial y con
el que estn hechos miles de blogs y webs.
Ante la pregunta de si es necesario utilizar el robots.txt con WordPress y cmo se conf igura, si buscas en
internet encontrars muchas respuestas y conf iguraciones distintas. Lo cierto es que resulta hasta
complicado decidir lo que hacer, y ms cuando muchos autores no suelen explicar por qu utilizan
determinadas cosas.
Despus de leer, analizar y revisar un buen nmero pginas y conf iguraciones, estas son las conclusiones
a las que he llegado.
Es necesario ut ilizar el f ichero robot s.t xt con WordPress?
La respuesta es interesante: Si que hace falta utilizarlo, para evitar que los buscadores indexen y
muestren cosas como carpetas de administracin, plugins, etc., pero no hace falta crearlo salvo para
aadir conf iguraciones personalizadas.
Entonces, cmo puede ser eso?
En las versiones modernas de WordPress, existe una f uncin PHP llamada do_robots que se encarga de
generar automticamente el f ichero robots.txt cuando un motor de bsqueda consulta tu sitio. De esta
f orma, aunque tu no veas o tengas el robots.txt en tu carpeta raz, cuando Google o cualquier otro
buscador analice tu sitio si que va a encontrarlo, ya que se genera dinmicamente.
El nico detalle para que esta f uncin f uncione (valga la redundancia) es que tengas conf igurados los
Permalinks, o sea, que no tengas activada la conf iguracin por def ecto que viene al instalar WordPress.
Dicha conf iguracin se modif ica en el men Ajustes -> Enlaces permanentes.
Haz una prueba: Introduce en el navegador la URL de cualquier web creada con WordPress con robots.txt al
f inal. Te f unciona?
Ej: http://www.tusitiowebwordpress.com/robots.txt
Por def ecto, esta f uncin genera las siguientes lneas :
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Qu signif ica esto? Que los buscadores no indexen nada de lo que haya en la carpeta de administracin
ni en las libreras del programa.
Ahora la duda es, tenemos que aadir algo ms al robots.txt?, porque en la web de wordpress viene
un f ichero de ejemplo con bastantes lneas ms:
User-agent: * Indicamos que estas reglas son aplicables a todos los buscadores
Disallow: /cgi-bin/ Indicamos que no indexen programas que pudiese haber en cgi-bin
Disallow: /wp-admin/ Indicamos que no indexen la carpeta de administracin
Disallow: /wp-includes/ Indicamos que no indexen las libreras que utiliza WordPress
Disallow: /wp-content/plugins/ Indicamos que no indexen los plugins, que pueden contener html en ellos
Disallow: /wp-content/cache/ Indicamos que no indexen la cach
Disallow: /wp-content/themes/ Indicamos que no indexen los temas instalados
Disallow: /trackback/ Indicamos que no indexen los trackback (avisos entre blogs)
Disallow: /f eed/ Indicamos que no indexen el f eed listado de artculos
Disallow: /comments/ Indicamos que no indexen los comentarios
Disallow: /category/*/* Indicamos que no indexen las subcategorias (si es que estn bajo category)
Disallow: */trackback/ Indicamos que no indexen subdirectorios de trackback
Disallow: */f eed/ Indicamos que no indexen subdirectorios de f eed
Disallow: */comments/ Indicamos que no indexen subdirectorios de comentarios
Disallow: /*? Indicamos que no indexe bsquedas, que incluyen el smbolo ?
Allow: /wp-content/uploads/ Idicamos que indexe todos los f icheros que hemos subido al blog: imgenes,
vdeos, etc.
Aqu es donde la cosa empieza a complicarse, porque no hay nadie que hable claro sobre el tema.
Personalmente soy de la opinin de Yoast, que el tercer bloque de lneas no hace f alta y la de cgi-bin
tampoco, porque en una instalacin estndar no hay nada en esa carpeta. La de cache en mi instalacin no
aparece.
Los trackback, f eed, categoras, comentarios y bsquedas, por qu deshabilitarlos?. Al f in y al cabo no
debera pasar nada porque se indexasen. Hay gente que comenta que hay que quitarlos porque se pueden
ver como contenido duplicado, pero eso parece estar ya solucionado en WordPress. Por otra parte, que se
indexe una bsqueda o un comentario tampoco est tan mal. Hay veces que Google me ha mostrado como
resultados de bsqueda comentarios de algn post. Si eso ayuda a la persona que est buscando, pues
mejor.
En cuanto al Allow f inal de la carpeta uploads tampoco creo que haga f alta. Por def ecto los buscadores
analizan todo, salvo lo que venga como Disallow. Por tanto hacer un Allow no tiene demasiado sentido.
Bueno, ent onces si por algn mot ivo quiero bloquear alguna cosa ms, cmo lo hago?
Aqu tienes cuatro opciones:
Indicar a los buscadores que no indexen una determinada pgina web, con opcin a que
tampoco sigan los enlaces que contiene. Por ejemplo, aade la siguiente lnea a la cabecera de cada
una de las pginas que NO quieras que se indexen: <meta content=noindex,nofollow
name=robots>
Esta lnea indica que no se indexe y tampoco se sigan los enlaces internos (nof ollow). Reemplaza robots
por el nombre del robot que pref ieras si slo quieres que af ecte a uno.
Decirle a los buscadores que no nos indexen en la opcin en Settings del men de WordPress,
la cual aade una etiqueta como la de arriba a todas nuestras pginas.
Instalar un plugin para modif icar el f ichero robots.txt desde el panel de administracin de
WordPress.
Crear un robots.txt a mano y ponerlo en la carpeta raz.
Una vez que hayas creado tu nuevo robots.txt, el f ichero que tendr validez ser el tuyo, o sea, que
prevalece sobre el que genera WordPress por def ecto.
Qu ms nos hace f alt a saber?
Aqu van algunos puntos interesantes:
Se recomienda no incluir en un f ichero robots.txt ms de 200 lneas de Disallow.
Cuando deshabilites algo, CUIDADO. Una vez que hagas el Disallow de una carpeta, si te has
equivocado y quieres volver a indexarla pueden pasar hasta 3 meses desde que tu la agregues
hasta que los buscadores vuelvan a mostrarla.
Utiliza los Disallow cuando quieras bloquear carpetas completas. Si es slo una pgina suelta, utiliza
las etiquetas meta para ms comodidad.
Si quieres modif icar la f uncin do_robots, puedes ver su cdigo aqui.
Tambin puedes aadir un hook para el f iltro robots_txt:
add_f ilter( robots_txt, wpse8170_my_robots_txt, 10, 2 );
f unction wpse8170_my_robots_txt( $output, $public ) {
if ( 0 != $public ) {
$output .=
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
;
}
return $output;
}
Para ver qu ha indexado Google de nuestra web y compararlo con lo que le hemos dicho que no
indexe en meta o robots.txt, introduce en la bsqueda site:www.tusitioweb.com. Ah puedes ver si
est f uncionando todo correctamente.
Si incluyes una carpeta en el robots.txt y tambin en el sitemap.xml, Google la mostrar, aunque no
mostrar la descripcin debajo del enlace. Lo he probado con un mapa html de mi web que coloqu
hace poco y mira lo que aparece:
Bueno, espero que te haya gustado el artculo y que te resulte til. Se admiten comentarios y opiniones

Vous aimerez peut-être aussi