Archivos

Visualización de todo el contenido en los resultados de búsqueda

Gracias a las pruebas que hacemos con los usuarios, hemos detectado que los usuarios que realizan búsquedas prefieren ver todo el contenido en una sola página en lugar de que se muestren páginas de componentes que incluyen únicamente una parte de la información con saltos de página arbitrarios (y que les obligan a hacer clic en "Siguiente" y a cargar otra URL).

Con frecuencia, los usuarios que realizan búsquedas prefieren ver todo el contenido en lugar de que este aparezca paginado con saltos arbitrarios y un mayor tiempo de espera.

Por tanto, para mejorar la experiencia de usuario, nos estamos esforzando por mostrar versiones de una sola página en los resultados de búsqueda cuando detectamos que una serie de contenido (por ejemplo, página-1.html, página-2.html, etc.) también incluye una versión de una sola página (por ejemplo, página-todas.html). Si tu sitio ofrece la posibilidad de ver todo el contenido, no es necesario que hagas nada; nosotros haremos el trabajo por ti. Además, consolidaremos las propiedades de indexación de las páginas de componentes de la serie como, por ejemplo, los enlaces, en la página de visualización de todo el contenido.

No obstante, la visualización de todo el contenido puede ser poco recomendable si el tiempo de espera es elevado

No deja de ser interesante que los usuarios no mostraran preferencia por la página de visualización de todo el contenido si esta conllevaba un mayor tiempo de espera (por ejemplo, páginas de visualización de todo el contenido que tardaran más en cargarse por contener muchas imágenes). Esta situación tiene una razón de ser, ya que los usuarios suelen sentirse menos satisfechos cuando los resultados son lentos [inglés]. Así pues, a pesar de que normalmente se prefieren las páginas de visualización de todo el contenido, es importante que los webmasters hallen el equilibrio entre esta preferencia y el tiempo de carga de la página y la experiencia de usuario en general.

Prácticas recomendadas relacionadas con las series de contenido
1. Si tu sitio incluye páginas de visualización de todo el contenido:
Intentaremos detectar la versión de visualización de todo tu contenido y las páginas de componentes asociadas, si hay alguna disponible. No es necesario que hagas nada más. Sin embargo, puedes incluir etiquetas rel="canonical" que dirijan a la página de visualización de todo el contenido en las páginas de componentes para que resulte más explícito y para que haya más probabilidades de que detectemos la serie de páginas correctamente.


La etiqueta rel="canonical" permite especificar el superconjunto de contenido (es decir, la página de visualización de todo el contenido, en este caso página-todas.html) de la misma información en una serie de URL.

¿En qué se basa su funcionamiento?
Como se ve en el diagrama, se puede especificar que la URL canónica de la page-2.html es page-all.html, ya que esta URL es un superconjunto del contenido de page-2.html. Si un usuario busca un término de consulta y selecciona page-all.html en los resultados de búsqueda, aunque su consulta esté principalmente relacionada con la información de page-2.html, sabemos que el usuario podrá consultar la información relevante de page-2.html en page-all.html.
No obstante, page-1.html no debería ser la URL canónica designada de page-2.html, ya que el contenido de la segunda no está incluido en la primera. La consulta de búsqueda de un usuario puede hacer referencia al contenido incluido en page-2.html, por lo que al seleccionar page-1.html en los resultados de búsqueda, si esta se ha configurado como página canónica de page-2.html, el usuario puede verse obligado a continuar navegando para acceder a la página en la que se encuentra la información deseada. Esta experiencia será negativa para el usuario, ya que el resultado de Google distará de ser óptimo, y es posible que el tráfico de orientación de tu sitio sea mediocre.
Sin embargo, si estás seguro de que no quieres que la página de visualización de todo tu contenido aparezca en los resultados de búsqueda, debes realizar lo siguiente: 1) asegurarte de que las páginas de componentes de la serie no incluyan una etiqueta rel="canonical" que dirija a la página de visualización de todo el contenido y 2) utilizar uno de los métodos habituales para marcar la página de visualización de todo el contenido como "noindex".
2. Si quieres que se muestren páginas de componentes individuales (o si no hay ninguna versión que muestre todo el contenido disponible):
Puede darse el caso de que tu sitio se encuentre en una de las situaciones que se indican a continuación, si no en ambas.
  • No es recomendable que la página de visualización de todo el contenido aparezca en los resultados de búsqueda, debido a que el tiempo de carga es demasiado elevado o a que dificulta la navegación para los usuarios. 
  • Los usuarios de tu sitio prefieren navegar por varias páginas y acceder a una página de componentes a través de los resultados de búsqueda en lugar de ver una página de visualización de todo el contenido.
En tales situaciones, puedes utilizar los elementos HTML rel="next" y rel="prev" estándares para especificar la relación entre las páginas de componentes de la serie de contenido. Si se utilizan correctamente, Google tratará de realizar lo siguiente en la mayoría de los casos:
  • Consolidar las propiedades de indexación (por ejemplo, los enlaces) de las URL o de las páginas de componentes.
  • Dirigir a los usuarios a la página o a la URL de las páginas de componentes que sea más relevante. Por lo general, la primera página del contenido suele ser la más relevante, pero nuestros algoritmos pueden dirigir a los usuarios a una de las páginas de componentes de la serie.
Con frecuencia, los webmasters utilizan la etiqueta rel="canonical" incorrectamente para dirigir a los usuarios que accedan a las páginas de componentes a la primera página de su serie (por ejemplo, incluyen una etiqueta rel="canonical" que dirige a página-1.html en página-2.html). Esta implementación no es recomendable, ya que las páginas de componentes no incluyen contenido duplicado. Lo más adecuado es utilizar las etiquetas rel="next" y rel="prev".

Resumen

Debido a que los usuarios suelen preferir que la opción disponible en los resultados de búsqueda sea la visualización de todo el contenido, nos estamos esforzando por detectar esta versión correctamente para mostrársela a los usuarios que realicen búsquedas. Si tienes una serie de contenido, no es necesario que hagas nada más. Sin embargo, puedes ayudar a que Google muestre mejor tu información a los usuarios realizando lo siguiente:

  1. Para optimizar la página de visualización de todo el contenido, puedes incluir etiquetas rel="canonical" que dirijan a la versión de una sola página en las páginas de componentes.
  2. Si la página de visualización de todo el contenido de tu sitio empeora la experiencia de usuario, puedes utilizar los atributos rel="next" y rel="prev" para ayudar a que Google identifique la serie de páginas y muestre una página de componentes en los resultados.
¿Alguna pregunta?

Como siempre, puedes publicar tu pregunta en el Foro de ayuda para webmasters.

Vídeos de Matt Cutts: ¿Cómo asegurarte de que Google encuentra tu contenido original?

Aunque este vídeo lleva ya un tiempo en nuestro canal para webmasters de Youtube, siempre es interesante conocer qué podemos hacer para que Google sepa de nuestro contenido original (y además con subtítulos en español).

Kunal Pradhan, el usuario que pregunta a Matt Cutts en este vídeo, plantea la situación de una página que no solo roba contenido, sino que además cambia la marca de tiempo. Sobre esto y algunos detalles más sobre el contenido nos habla Matt en este vídeo.



Transcripción de: "¿Cómo asegurarnos de que Google encuentra mi contenido original?"

La pregunta de hoy es de Kunal Pradhan. Por cierto que soy del oeste de Kentucky, así que disculpadme porque a veces soy terrible para los nombres. La pregunta es: "Google rastrea el sitio A cada hora y el sitio B una vez al día. El sitio B escribe un artículo y el sitio A lo copia, y cambia la marca de tiempo. Googlebot rastrea primero el sitio A. A los ojos de Google, ¿cuál es el contenido original y por tanto merecerá la mejor clasificación? Y si es A, entonces, ¿es eso justo para el sitio B?"


Podría hablarte de un montón de detalles interesantes sobre cómo se rastrea la Web. Si realmente quieres ver cómo es una señal, la frecuencia de Nyquist te indica que debes muestrearla por lo menos al doble de esa frecuencia. Pero la realidad es que siempre puedes cambiar una página web. Así que la idea completa, el concepto de poder rastrear toda la Web y disponer de una copia perfecta en cada instante, tiene sus inconvenientes, porque en un momento dado solo podemos ir y recoger un número finito y determinado de páginas. Si intentásemos recuperarlas todas, y nuestra arquitectura casi sería capaz de ello, entonces acabaríamos por bloquearlo todo debido a todas esas peticiones. Así que intentamos rastrear de una forma bastante respetuosa.


También intentamos priorizar, basándonos en cosas como la clasificación de una página en particular, o si un sitio tiene un PageRank muy alto. Así que la pregunta es, esencialmente, si A se rastrea a menudo pero el artículo original viene de B, ¿qué pasa si A está robando el contenido de B?


Bien: siempre hay formas de ayudarte a protegerte contra esto. Por ejemplo, si envías un Tweet, la gente puede verlo, enlazar a él, y nosotros podemos seguir esos enlaces más de prisa, antes de descubrir el contenido en el otro sitio. Otra cosa que puedes hacer es usar cosas como Pub SubHubbub, que a su vez hace ping en distintos lugares.


En muy pocos casos usamos Pub SubHubbub para ayudarnos a mejorar el rastreo, y esto puede cambiar con el tiempo. Es una forma excelente de, en algún modo, decir, de forma asíncrona: hola, aquí hay un nuevo artículo, o una nueva entrada en un post. Pero sigamos y veamos qué pasaría en este escenario hipotético. Si A ha copiado tu artículo y ha cambiado la marca de tiempo, esto es un poco fraudulento, como si dijesen que lo han escrito ellos.


En este caso, puedes hacer un par de cosas. En primer lugar, si eres el autor del artículo, siempre puedes hacer lo que se conoce como aviso de Digital Millennium Copyright Act, en que envías esta solicitud de DMCA, y puedes encontrar la información correspondiente en http://www.google.es/dmca.html. Con esto, básicamente dices que este sitio ha copiado tu contenido, pero tú eres el autor original. Este sitio puede enviar una contranotificación, lo cual significa que rechazan tal afirmación. Dicen que ellos escribieron esa página, lo cual acarrearía penalizaciones en caso de que mintiesen. O bien, pueden no discutir esa afirmación y quitar ese contenido de su sitio. Así que, si alguien te está robando el contenido, siempre puedes realizar un aviso DMCA.


También puedes, si se trata de un sitio generado automáticamente, y están robando el contenido de varias personas, hacer un informe de spam, puesto que eso no sería un sitio de alta calidad. No es el tipo de cosas que queremos en nuestro índice. Pero aclaremos el caso que nos ocupa. En teoría, es posible que encontremos un artículo en un sitio antes de encontrarlo en el otro. Así que realmente se da el caso de tener problemas para determinar quién es el creador original de una parte de contenido en particular, pero no podemos decir que somos perfectos. Hacemos todo lo que se nos ocurre para tratar de averiguar de qué modo puede indicarnos la gente que es autora de cierto contenido. De hecho, en Google News hemos introducido un par de etiquetas nuevas, casi como un experimento para ver qué tal funcionan, para indicarnos: aquí está el autor original de este contenido.


Éstas son las aproximaciones que exploramos intentando encontrar otras fórmulas para conseguirlo. Por lo menos hasta el momento, en teoría, es posible tener un artículo. En la práctica, no pasa a menudo, y existen formas de soslayarlo o de realizar alguna acción, desde una petición DMCA hasta un informe de spam. Esperamos que esto te sirva de ayuda.