¿Qué son los archivos robots.txt?

que son los archivos robts.txt

| www.GustavoGuardadoRoa.com |

facebook costa ricatwitter costa ricagoogle plus costa ricapinterest costa ricalinkedin costa ricaemail costa rica
youtube costa ricaSitios en la Webstumbleupon sitios en la web costa ricatumblr sitios en la web costa ricainstagram sitios en la web costa ricagoogle my business sitios en la web costa rica

Costa Rica (506) 8322-2771 - seoanddesign@gmail.com

marketing digital

 

robots.txt

User-agent: *
Disallow: /folder/
Disallow: /file.html
Disallow: /image.png

¿Qué es un archivo robots.txt?

El archivo robots.txt es un simple archivo de texto ubicado en su servidor web que le dice a los webcrawlers como Googlebot si deben acceder a un archivo o no.

Ejemplos básicos de robots.txt

Aquí hay algunas configuraciones comunes de robots.txt (te explicaré en detalle a continuación).

Permitir acceso completo

User-agent: *
Disallow:

Bloquear todo acceso 

User-agent: *
Disallow: /

Bloquear una carpeta

User-agent: *
Disallow: /folder/

Bloquear un archivo

User-agent: *
Disallow: /file.html

¿Por qué deberías aprender acerca de robots.txt?

  • - El uso inadecuado del archivo robots.txt puede perjudicar tu clasificación
  • - El archivo robots.txt controla cómo las arañas de los motores de búsqueda ven e interactúan con tus páginas web.- Este archivo se menciona en varias de las directrices de Google.
  • - Este archivo, y los bots con los que interactúan, son partes fundamentales de cómo funcionan los motores de búsqueda


Sugerencia: para ver si tu archivo robots.txt está bloqueando archivos importantes utilizados por Google, use la herramienta de directrices de Google.

Motor de búsqueda de arañas

Lo primero que observa una araña de un motor de búsqueda como Googlebot cuando visita una página es el archivo robots.txt.

¿Qué es Googlebot?

  • - Googlebot es el webcrawler utilizado por Google.
  • - Es utilizado por Google para encontrar y recuperar páginas web.
  • - La información recopilada por Googlebot se utiliza para actualizar el índice de Google.


Googlebot visita miles de millones de páginas web y visita constantemente páginas en toda la web.

¿Qué es un webcrawler?

Los rastreadores web (también conocidos como bots, robots o arañas) son un tipo de software diseñado para seguir enlaces, recopilar información y luego enviar esa información a algún lugar. 

¿Qué hace Googlebot?

  • - Lista de verificación para dónde ir
    - escanear página
    - enviar a Google
    - lista y registro 
  • - Googlebot recupera el contenido de las páginas web (las palabras, el código y los recursos que conforman la página web).
    - Si el contenido que recupera tiene enlaces a otras cosas, eso se nota.
    - Luego, envía la información a Google.

La diferencia entre Googlebot y el índice de Google.

Googlebot

  • - Googlebot recupera contenido de la web.
  • - Googlebot no juzga el contenido de ninguna manera, solo lo recupera.
  • - La única preocupación que tiene Googlebot es "¿Puedo acceder a este contenido?" y "¿Hay algún otro contenido al que pueda acceder?"


El índice de Google

  • - El índice de Google toma el contenido que recibe de Googlebot y lo usa para clasificar las páginas


El primer paso de ser clasificado por Google es ser recuperado por Googlebot.

Asegurando que Googlebot puede ver tus páginas

Dado que Googlebot es la forma en que Google actualiza su índice, es esencial que Googlebot pueda ver tus páginas.

Las primeras preguntas fundamentales que se debe hacer un webmaster son ...

  • - ¿Puede Googlebot "ver" mis páginas?
  • - ¿Puede Googlebot acceder a todo mi contenido y enlaces por completo?
  • - ¿Puede Googlebot acceder a todos los recursos de mi página?


Echate un vistazo a cada uno de los más cercanos ...

1. ¿Puede Googlebot "ver" mis páginas?

Para tener una idea de lo que Google ve en tu sitio, hacé la siguiente búsqueda en Google ...

site:tusitioweb.com

Al poner "site:" delante de tu nombre de dominio, solicitará a Google que enumere las páginas que Google ha indexado para tu sitio.

Sugerencia: asegurate de que no haya espacio entre "site:" y tu nombre de dominio cuando hacés esto. Aquí hay un ejemplo usando mi sitio ...

site:gustavoguardadoroa.com

Si ves menos de la cantidad de páginas que esperarías, es probable que debas asegurarte de no estar bloqueando Googlebot con tu archivo robots.txt

2. ¿Puede Googlebot acceder a todos mis contenidos y enlaces por completo?

El siguiente paso es asegurarte de que Google vea tu contenido y enlaces correctamente.

El hecho de que Googlebot pueda ver tus páginas no significa que Google tenga una imagen perfecta de qué son exactamente esas páginas.

El bot de Google no ve un sitio web de la misma manera que los humanos. La imagen es la los humanos podemos ver, pero lo que Googlebot ve es solo el código que llama a esa imagen.

Googlebot puede tener acceso a esa página web (el archivo html), pero no puede acceder a la imagen que se encuentra en esa página web por varios motivos.

En ese escenario, el índice de Google no incluirá esa imagen, lo que significa que Google tiene una comprensión incompleta de tu página web.

Cómo Googlebot "ve" una página web

Googlebot no ve páginas web completas, solo ve los componentes individuales de esa página.

  • - HTML
  • - JS
  • - CSS


Si Googlebot no puede acceder a alguno de esos componentes, no los enviará al índice de Google.

Para usar mi ejemplo anterior, aquí está Googlebot viendo una página web (html y css) pero no viendo la imagen.

No son solo imágenes. Hay muchas piezas en una página web. Para que Google pueda clasificar tus páginas web de manera óptima, Google necesita la imagen completa.

Hay muchos escenarios en los que Googlebot podría no ser capaz de acceder al contenido web, aquí hay algunos de los más comunes.

  • - Recurso bloqueado por robots.txt
  • - Enlaces de página no legibles o incorrectas
  • - Confianza excesiva en Flash u otra tecnología con la que los rastreadores web puedan tener problemas - Errores de codificación o HTML incorrectos
  • - Enlaces dinámicos demasiado complicados.


La mayoría de estas cosas se pueden verificar rápidamente utilizando la herramienta de pautas de Google.

Si tenés una cuenta de Google, usá la herramienta "buscar y renderizar" que se encuentra en la consola de búsqueda de Google. Esta herramienta te proporcionará un ejemplo en vivo de lo que Google ve exactamente para una página individual.

Vos querés que te encuentren en la red. Google nos quiete ayudar pero también te agrego otras herramientas imprescindibles para web de Google.

3. ¿Puede Googlebot acceder a todos los recursos de mi página?

Si tu archivo robots.txt bloquea los archivos CSS y JavaScript, entonces puede causar algunos malentendidos graves sobre el contenido de tu página web (mucho peor que solo una imagen faltante).

Cada vez es más cierto que una página web puede ser realmente diferente o tener un contenido diferente si los recursos de la página no están cargados.

Un ejemplo para ilustrar esto sería una página móvil que usa CSS o javascript para determinar qué mostrar dependiendo del dispositivo que esté mirando la página. Si Googlebot no puede acceder al CSS o Javascript de esa página, es posible que no se dé cuenta de que la página puede ser móvil.

En este escenario y en otros similares, Google "verá" tu página, e incluso puede entenderla, pero puede que no lo sepa lo suficiente como para darse cuenta de que puede clasificarse en muchos otros escenarios que lo que solo presenta el HTML.

Esto también se puede verificar usando las Directrices para webmasters.

¿Puedo controlar Googlebot?

Sí.

Googlebot sigue las instrucciones que recibe a través de los estándares de robots.txt e incluso tiene formas avanzadas de control que son específicas de Google.

Algunas formas en que puede controlar Googlebot son ...

  • - Usando un archivo robots.txt
  • - Incluyendo instrucciones de robot en los metadatos de tus páginas web
  • - Incluyendo instrucciones de robot en tus encabezados
  • - Usando sitemaps
  • - Usando la consola de búsqueda de Google


La forma más común, con mucho, es usar el archivo robots.txt

¿Qué es un archivo robots.txt?

El archivo robots.txt controla cómo las arañas de los motores de búsqueda como Googlebot ven e interactúan con sus páginas web.

En resumen, un archivo robots.txt le dice a Googlebot qué hacer cuando visita sus páginas al listar los archivos y carpetas a los que no quiere que acceda Googlebot.

Sitemaps y Googlebot

Los sitemaps son una manera de ayudar a Googlebot a entender tu sitio web, o como dice Google ...

"Un mapa del sitio es un archivo donde puede enumerar las páginas web de tu sitio para informar a Google y otros motores de búsqueda sobre la organización del contenido de tu sitio. Los rastreadores web de motores de búsqueda como Googlebot leen este archivo a más rastrear inteligentemente tu sitio ".

Google afirma que los mapas de sitio se usan mejor en ciertos escenarios, específicamente.

  • - Tu sitio es muy grande.
  • - Tu sitio tiene un gran archivo de páginas de contenido que están aisladas o que no están vinculadas entre sí.
  • - Tu sitio es nuevo y tiene pocos enlaces externos.
  • - Tu sitio utiliza contenido multimedia enriquecido, se muestra en Google Noticias o utiliza otras anotaciones compatibles con sitemaps.

Los sitemaps se usan para muchas cosas ahora, pero en lo que respecta a Googlebot, los sitemaps básicamente crean una lista de urls y otros datos que Googlebot puede usar como guía cuando visite tus páginas web.

Google explica cómo crear sitemaps aquí.

Googlebot y la consola de búsqueda de Google

Otro lugar donde puedes controlar Googlebot es la consola de búsqueda de Google.

Si Googlebot accede a su servidor web demasiado rápido, puede cambiar la velocidad de rastreo.

También puede ver una descripción general de cómo Googlebot está accediendo a su sitio web, probar su archivo robots.txt, ver los errores de rastreo de Googlebot y realizar solicitudes de "búsqueda y procesamiento" que lo ayudarán a comprender cómo ve Google. sus páginas web.

¿Cuántos webbrawlers de Googlebots / Google hay?

Hay nueve tipos diferentes de buscadores web de Google.

  • - Googlebot (búsqueda web de Google)
  • - Google Smartphone
  • - Google Mobile (teléfono con funciones)
  • - Imágenes de Googlebot
  • - Googlebot Video
  • - Googlebot News
  • - Google Adsense
  • - Google Mobile Adsense
  • - Google Adsbot (control de calidad de la página de destino)


Si deseás detalles sobre cada uno, asegurate de visitar la página de ayuda de los rastreadores de Google proporcionada por Google (enumera los detalles de cada webcrawler que usa).

¿Qué es el agente de usuario de Googlebot?

Como hay varios Googlebots, actualmente existen varios agentes de usuario de Googlebot, veamos los principales:

Googlebot (búsqueda web de Google)

Nombre de agente de usuario: Googlebot

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot Smartphone

Nombre de agente de usuario: Googlebot

Googlebot Smartphone

Nombre de agentes de usuario: Googlebot 

Mozilla/5.0 (iPhone; CPU iPhone OS 8_3 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12F70 Safari/600.1.4 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Imagen de Googlebot

Nombre de agente de usuario: Googlebot-Image (Googlebot)

Googlebot-Image/1.0

Googlebot Video

Nombre de agentes de usuario: Googlebot-Video (Googlebot)

Googlebot-Video/1.0

La página de ayuda de los rastreadores de Google proporciona información de agente de usuario sobre todos los buscadores web de Google y es el lugar donde debe buscar la información más actualizada y confiable.

Googlebot e idiomas / ubicaciones

Si tus páginas muestran diferentes idiomas o contenido dependiendo de la ubicación o el idioma de la solicitud, es posible que Googlebot no vea todo tu contenido (recomiendan utilizar hreflang).

Pero este artículo trata sobre Googlebot, y lo que Googlebot ha comenzado a hacer para el idioma y el contenido basado en la ubicación es interesante.

Vamos a ver...

Si tus páginas muestran diferentes idiomas o contenido dependiendo de la ubicación o el idioma de la solicitud, es posible que Googlebot no vea todo tu contenido (recomiendan utilizar hreflang).

Pero este artículo trata sobre Googlebot, y lo que Googlebot ha comenzado a hacer para el idioma y el contenido basado en la ubicación es interesante.

Vamos a ver...

Cuando los usuarios visitan tu página y tenés una ubicación o una solución basada en el idioma para diferentes contenidos, un usuario en Italia verá el contenido en italiano y un usuario en América verá el contenido en inglés.

Googlebot tiene su sede en Estados Unidos, entonces, ¿cómo funciona eso? ¿Cómo verá Googlebot ese contenido italiano?

Rastreo consciente de la ubicación por Googlebot

Googlebot emplea dos técnicas principales (de las que Google nos habla) para crear un rastreo consciente del entorno local ...

    • - Rastreo distribuido geográficamente: Googlebot parece estar usando direcciones IP basadas fuera de los EE. UU., además de las antiguas direcciones IP que usa Googlebot que parecen estar basadas en los EE. UU.
    • - Rastreo dependiente del idioma: Googlebot rastrea con un campo Accept-Language establecido en el encabezado HTTP.


    Entonces, en otras palabras, Googlebot emplea métodos para rastrear la web como usuario desde cualquier lugar, pero (y esto es un gran "pero"), Google sigue recomendando el uso de hreflang.

    Siempre revisá la página de rastreo de Googlebot con reconocimiento de ubicación en las páginas de ayuda oficiales de Google para tomar decisiones.

    Encontrar páginas de ayuda oficiales de Google

    La mayoría de los enlaces en este contenido van a las páginas de ayuda oficiales de Google.

    Una buena manera de ver todo lo que Google ha dicho sobre Googlebot (o cualquier otro tema) es usar la herramienta "Ask Google - Preguntar a Google" en este sitio. Busca solo la documentación oficial de Google.

    Aquí están los resultados para Googlebot: artículos de Googlebot de Google.

    Recursos Robots.txt

    Preguntas frecuentes de Robots.txt

    ¿Puedo bloquear solo robots malos?

    En teoría sí, en la práctica, no. Si el robot defectuoso obedece a /robots.txt y conoce el nombre que busca en el campo User-Agent. luego podés crear una sección en tu /robotst.txt para excluirla específicamente. Pero casi todos los robots malos ignoran /robots.txt, haciendo que eso no tenga sentido.

    Si el robot defectuoso opera desde una única dirección IP, puede bloquear su acceso a su servidor web a través de la configuración del servidor o con un firewall de red.

    Si las copias del robot funcionan en muchas direcciones IP diferentes, como las PC secuestradas que forman parte de una Botnet grande, entonces se vuelve más difícil. La mejor opción es usar una configuración avanzada de reglas de firewall que bloquee automáticamente el acceso a las direcciones IP que hacen muchas conexiones; Pero eso puede golpear a los robots buenos y también a los robots malos.

    ¿Qué pasa si no puedo hacer un /robots.txt?

    A veces no podés crear un archivo /robots.txt, porque no administras todo el servidor. No todo está perdido: hay un nuevo estándar para usar etiquetas HTML META para mantener a los robots fuera de tus documentos.

    La idea básica es que si incluís una etiqueta como:

    <META NAME="ROBOTS" CONTENT="NOINDEX">

     

    en tu documento HTML, ese documento no será indexado.

    Si lo haces:

    <META NAME="ROBOTS" CONTENT="NOFOLLOW">


    Los enlaces en ese documento no serán analizados por el robot.

    ¿Qué es el atributo de enlace rel = "nofollow"?

    El rel = "nofollow" es un atributo que puede establecer en una etiqueta de enlace HTML, inventado por Google y adoptado por otros. Esos enlaces no obtendrán ningún crédito cuando Google clasifique los sitios en la web en los resultados de búsqueda, eliminando así el incentivo principal detrás de los robots de spammers de comentarios de blog.

    Consultá Cómo evitar el spam de comentarios en el blog oficial de Google.

    Según esa descripción, parece que solo afecta el ranking, y el robot de Google puede seguir los enlaces e indexarlos. Si es así, es diferente de la semántica de la meta etiqueta NOFOLLOW de los robots.

    Gustavo Guardado Google +

    Te ofrecezco desarrollar tu proyecto web de forma profesional.
    Tengo a tu disposición diversas opciones atractivas para tu Posicionamiento Web Orgánico o tu Posicionamiento Web Pagado, también puedo ayudarte en tu estrategia de Marketing Digital Costa Rica.

    http://www.sitios-enlaweb.com/images/blank-space.png

SEO Costa RicA

Permitínos mejorar tus
resultados de marketing en línea.
Hemos aumentado el tráfico,
los clientes potenciales y
las ventas de compañías en
turismo, bienes raíces, medicina.
Además, para cientos de pequeñas
empresas locales como dentistas,
veterinarios, fontaneros, dermatólogos, etc. Presios SEO

costa rica properties

Inscríbete a nuestro Boletín Electrónico
Recibí consejos GRATIS sobre las
últimas noticias de Marketing Digital
.


costa rica properties

optimizar las url

Optimizar las URL para motores
de búsqueda y personas


costa rica properties

que es seo
Bajar PDF -> ¿Qué es SEO?


costa rica properties

curso seo que funciona
Cursos SEO
Aprenda las técnicas y
estrategias para mejorar
tu posicionamiento web ...


costa rica properties

QUE SON LOS ARCHIVOS ROBOTS.TXT

Compartí este
artículo por Whatsapp

costa rica properties

seo costo

Bueno, te preguntarás ¿Quién es la persona que te brinda estos consejos técnicos?, pues es quien te ha estado enviando contenidos de SEO, SEM, SMO, Web and Graphic Design. Sí, esta es mi foto y mi nombre es Gustavo Guardado Roa y soy tu anfitrión en el recorrido de este sitio en la web, mi idea es asistirte en el proceso de hacer tu página web y del como tener un ingreso con el buen uso del marketing en la internet y las mejores aplicaciones de la SEO y SEM.

gustavo guardado roa
Gustavo Guardado Roa
Consultor Marketing Digital y SEO
Leer mas

 

costa rica properties

SEO Costa Rica MAPA


costa rica properties

metricas fundamentales de seo que necesitas utilizar
Metricas fundamentales
de SEO que necesitas utilizar

costa rica properties

seo costa rica gustavo guardado roa
Posicionamiento Web
- VIDEO 1 -


costa rica properties

Puede un emoji en la descripcion danar tus clasificaciones
¿Puede un emoji en la
descripción dañar
tus clasificaciones?

costa rica properties

seo costa rica 2017
Hoy en día se dice que
la SEO está muerta y
que el nuevo rey es la CRO.
En nuestra Agencia SEO
creemos que la SEO Costa Rica ...


costa rica properties

clases seo costa rica
Clases SEO Costa Rica

 

 

Información

Contáctenos

Sitios en la Web es una Agencia de Marketing Digital que brinda Soluciones de SEO Costa Rica, Posicionamiento Web, Paginas Web Costa Rica, Redes Sociales Costa Rica. Tels. (506) 8322-2771

newsletter

Recibe consejos gratis sobre las últimas noticias del Marketing en Internet .

admin @ sitios-enlaweb.com
seoanddesign @ gmail.com
sitemap