ROBOTS TXT
No es el de la guerra de las galaxias, ese era C3PO.
¿Que es?
Imaginate que internet es un campo de cultivo y todas las webs son lechugas.
Los buscadores(google, Lycos, yahoo, msn etc) son los recolectores que tienen herramientas (programas robots) y de vez en cuando se dan una vueltecita por el huerto y recolectan....¿Que recolectan? las lechugas (los ficheros robots .txt) .que tu previamente has instalado en tu web
Esta breve introduccion es para los de mi pueblo, para vosotros que estais mas espabilaos (en temas de cultivo a lo mejor no) os dire que de la informacion que he ido recopilando he sacado en conclusion lo siguiente:
Son archivos de texto con la extension .txt.
Los buscadores se sirven de programas robots que le permiten leer, recuperar y guardar el contenido de una pagina. Estos robots estan continuamente rastreando webs y saltando de enlace en enlace. Su labor es muy util pero tambien puede perjudicarnos al indexar algunas paginas de contenido temporal o que no deseamos que indexen.
Podemos dar instrucciones a estos robots para que hagan una cosa u otra utilizando este tipo de archivos que incluiremos en el directorio raiz de nuestra web.
¿Como?
Mediante el archivo que vamos a crear "robots.txt".
Cuando un robot llega a tu pagina, lo primero que hace es dirigirse al archivo http://www.tudominio/robots.txt. y comprobar si existe algun tipo de restriccion o no.
Si no tienes este archivo creado, entiende que puede indexar todo el contenido de tu web y asi lo hace.
¿Como se crea y que reglas utiliza?
Abres el bloc de notas y escribes en el documento lo que te indico en los siguientes casos, despues los guardas como robots.txt
Varios casos que se pueden dar:
- Primero un caso en el que se prohiben a todos los buscadores indexar tu pagina y su contenido:
(esto es lo que va dentro del archivo de texto que debes crear)
User-agent: *.....(aqui se indica el robot al que se hace referencia)(el * incluye a todos los buscadores)
Disallow: /....... (aqui el directorio o subdirectorio que quieres bloquear)(la / indica que se refiere a todo el directorio de la pagina)
- Segundo caso, en el que prohibimos que google indexe nuestro sitio pero el resto de buscadores no:
(esto es lo que va dentro del archivo de texto que debes crear)
User-agent: Googlebot
Disallow : /
- Tercer caso, se prohibe el acceso al robot de google y se permite a todos los demas el acceso excepto al directorio señalado
(esto es lo que va dentro del archivo de texto que debes crear)
User-agent: Googlebot
Disallow : /
User-agent: *
Disallow: /mipaginawuay/ejercicios.html
- Cuarto caso, todos los robots tienen prohibido el acceso a los directorios reseñados:
(esto es lo que va dentro del archivo de texto que debes crear)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /borrador/
Quinto caso, no existe ninguna restricción, asi que todos los robots indexaran tu sitio:
(esto es lo que va dentro del archivo de texto que debes crear)
User-agent: *
Disallow :
(este es el caso que normalmente se va a utizar)
¿Puedo ponerle la extension que quiera?
NO.Su extension debe de ser robots.txt y asi debes de guardarlo
¿Cuantos archivos robots se pueden poner?
Solo uno por sitio.
¿Porque es importante y en que te va a ayudar?
Porque facilita la busqueda a los buscadores, lo recomiendan y ademas sirve para mejorar posicionamiento.
Esto lo he comprobado en una de mis web que por poner un sitemap, un archivo robots.txt y modificar algunas etiquetas como el titulo repetido en varias paginas, me subio de una puntuacion 4 a 7.(esta puntuacion la podeis obtener introduciendo vuestro dominio en la siguiente pagina: http://www.cuwhois.com/index.php )
Ademas otra ventaja es indicar a los buscadores que paginas no deseas que indexen y que por consiguiente no salgan en los resultados de las busquedas que se realizan.
¿En que parte de la web se incrustan?
Pues en el directorio raiz principal de la web, no sirve de nada instalarlos en subdirectorios. Si se tiene que referir a una pagina de un subdirectorio, pues se pone la ruta del mismo ycon eso basta.
Debes subirlo al servidor igual que subes los demas archivos.
¿Existen otros metodos?
Si. Usando las etiquetas metas que conocemos
<META name="ROBOTS" content="NOINDEX">
Con las siguientes posibilidades: ALL, INDEX, NOFOLLOW, NOINDEX
(Estas etiquetas debes ponerlas en todas tus paginas).
¿Te tocara la loteria en Navidad?
Pues eso ya no lo se, ojala nos toque a todos, por lo menos en salud.
Consejos:
No abusar de las restricciones, cuantas mas paginas de indexen mejor
Recordar respetar mayusculas, minusculas
Utilizar el bloc de notas para generarlo
Sigo con la mia de estar abierto a cualquier tipo de sugerencia o modificacion de la informacion que facilito porque no soy ningun experto y seguro que en algo me equivoco (esto seguro que lo lee Foley que sabe mas que yo de posicionamiento).
---.Saludos.---