Reflexiona sobre ello. ¿Por qué creas un sitio web? Para que tus potenciales clientes o audiencia te encuentren fácilmente y para destacarte entre la competencia, ¿verdad? ¿Cómo consigue tu contenido ser visto realmente? ¿Todo el contenido de tu sitio se ve siempre?
Por qué necesitas encontrar todas las páginas en tu sitio web
Es posible que páginas que contienen información valiosa que realmente necesita ser vista, no lleguen a ser vistas en absoluto. Si este es el caso de tu sitio web, entonces probablemente estás perdiendo una cantidad significativa de tráfico, o incluso clientes potenciales.
También podría haber páginas que rara vez se ven, y cuando lo hacen, los usuarios/visitantes/potenciales clientes llegan a un callejón sin salida, ya que no pueden acceder a otras páginas. Solo pueden irse. Esto es tan malo como aquellas páginas que nunca se ven. Google comenzará a notar las altas tasas de rebote y cuestionará la credibilidad de tu sitio. Esto hará que tus páginas web se clasifiquen cada vez más bajo.
Cómo tu contenido realmente llega a ser visto
Para que los usuarios, visitantes o posibles clientes vean tu contenido, es necesario realizar el rastreo y la indexación de manera frecuente. ¿Qué es el rastreo y la indexación?
¿Qué es el rastreo y la indexación?
Para que Google muestre tu contenido a usuarios/visitantes/potenciales clientes, primero necesita saber que el contenido existe. Esto ocurre a través del rastreo. Esto es cuando los motores de búsqueda buscan contenido nuevo y lo añaden a su base de datos de contenido ya existente.
¿Qué hace posible el rastreo?
- Enlaces
- Mapas del sitio
- Sistemas de Gestión de Contenidos (CMS - Wix, Blogger)
Enlaces:
Cuando añades un enlace de una página existente a otra página nueva, por ejemplo a través de texto ancla, los bots de motores de búsqueda o arañas pueden seguir la nueva página y añadirla a la 'base de datos' de Google para futuras referencias.
Mapas del sitio:
Estos también son conocidos como Mapas de Sitio XML. Aquí, el propietario del sitio envía una lista de todas sus páginas al motor de búsqueda. El webmaster también puede incluir detalles como la última fecha de modificación. Las páginas son entonces rastreadas y añadidas a la ‘base de datos’. Sin embargo, esto no es en tiempo real. Tus nuevas páginas o contenidos no serán rastreados tan pronto como envíes tu mapa de sitio. El rastreo puede ocurrir después de días o semanas.
La mayoría de los sitios que utilizan un Sistema de Gestión de Contenidos (CMS) generan estos automáticamente, por lo que es un poco de un atajo. La única vez que un sitio podría no tener el mapa del sitio generado es si creaste un sitio web desde cero.
CMS:
Si tu sitio web está impulsado por un CMS como Blogger o Wix, el proveedor de alojamiento (en este caso el CMS) puede "decirle a los motores de búsqueda que rastreen cualquier página nueva o contenido en tu sitio web".
Aquí tienes información para ayudarte con el proceso:
Añadir un mapa del sitio a WordPress
¿Dónde está el sitemap para Wix?
¿Qué es la indexación?
La indexación, en términos simples, es la adición de las páginas rastreadas y el contenido en la 'base de datos' de Google, a la que en realidad se hace referencia como el índice de Google.
Antes de que el contenido y las páginas se añadan al índice, los bots de los motores de búsqueda se esfuerzan por entender la página y el contenido que contiene. Incluso avanzan hasta catalogar archivos como imágenes y vídeos.
Esta es la razón por la que, como webmaster, el SEO en la página resulta útil (títulos de página, encabezados y uso de texto alternativo, entre otros). Cuando tu página o páginas tienen estos aspectos, se hace más fácil para Google 'entender' tu contenido, catalogarlo apropiadamente e indexarlo correctamente.
Uso de robots.txt
A veces, es posible que no quieras que se indexen algunas páginas, o partes de un sitio web. Necesitas dar directivas a los bots de los motores de búsqueda. Usar dichas directivas también facilita el rastreo y la indexación, ya que hay menos páginas siendo rastreadas. Aprende más sobre robots.txt aquí.
Uso de ‘noindex’
También puedes utilizar esta otra directiva si hay páginas que no quieres que aparezcan en los resultados de búsqueda. Aprende más sobre el noindex.
Antes de comenzar a añadir noindex, querrás identificar todas tus páginas para que puedas limpiar tu sitio y facilitar a los rastreadores el rastreo e indexación de tu sitio correctamente.
¿Cuáles son algunas razones por las que necesitas encontrar todas tus páginas?
¿Qué son las páginas huérfanas?
Una página huérfana se puede definir como una que no tiene enlaces desde otras páginas de tu sitio. Esto hace que sea casi imposible que estas páginas sean encontradas por los bots de motores de búsqueda, y además por los usuarios. Si los bots no pueden encontrar la página, entonces no la mostrarán en los resultados de búsqueda, lo que reduce aún más las posibilidades de que los usuarios la encuentren.
¿Cómo surgen las páginas huérfanas?
Las páginas huérfanas pueden resultar de un intento de mantener el contenido privado, errores de sintaxis, errores tipográficos, contenido duplicado o contenido caducado que no fue enlazado. Aquí hay más formas:
- Páginas de prueba que se utilizaron para pruebas A/B y que nunca se desactivaron
- Páginas de aterrizaje que se basaron en una temporada, por ejemplo, Navidad, Acción de Gracias o Pascua
- Páginas 'olvidadas' como resultado de la migración del sitio
¿Qué pasa con las páginas sin salida?
A diferencia de las páginas huérfanas, las páginas sin salida tienen enlaces de otras páginas en el sitio web pero no enlazan a otros sitios externos. Ejemplos de páginas sin salida incluyen páginas de agradecimiento, páginas de servicios sin llamadas a la acción y páginas de "nada encontrado" cuando los usuarios buscan algo a través de la opción de búsqueda.
Cuando tienes páginas sin salida, las personas que las visitan solo tienen dos opciones: abandonar el sitio o volver a la página anterior. Eso significa que estás perdiendo tráfico significativo, especialmente si estas páginas resultan ser 'páginas principales' en tu sitio web. Peor aún, los usuarios se quedan frustrados, confundidos o preguntándose, '¿qué sigue'?
Si los usuarios abandonan tu sitio sintiéndose frustrados, confundidos o con cualquier emoción negativa, es poco probable que vuelvan, al igual que los clientes insatisfechos no suelen volver a comprar de una marca.
¿De dónde provienen las páginas sin salida?
Las páginas sin salida son el resultado de páginas sin llamadas a la acción. Un ejemplo aquí sería una página sobre nosotros que alude a los servicios que ofrece tu empresa pero no tiene ningún enlace a esos servicios. Una vez que el lector comprende qué impulsa a tu empresa, los valores que sostienes, cómo fue fundada la empresa y los servicios que ofreces y ya está emocionado, necesitas decirles qué hacer a continuación.
Un simple botón de llamada a la acción "ver nuestros servicios" hará el trabajo. Asegúrate de que el botón, al hacer clic, realmente abra la página de servicios. No querrás que el usuario se encuentre con un 404, lo que también le dejará frustrado.
¿Qué son las páginas ocultas?
Las páginas ocultas son aquellas a las que no se puede acceder a través de un menú o navegación. Aunque un visitante pueda verlas, especialmente a través de texto ancla o enlaces entrantes, pueden ser difíciles de encontrar.
Las páginas que caen en la sección de categoría probablemente también sean páginas ocultas, ya que se encuentran en el panel de administración. Es posible que el motor de búsqueda nunca pueda acceder a ellas, ya que no accede a la información almacenada en bases de datos.
Las páginas ocultas también pueden resultar de páginas que nunca se añadieron al mapa del sitio pero existen en el servidor.
¿Deberían eliminarse todas las páginas ocultas?
No realmente. Hay páginas ocultas que son absolutamente necesarias y nunca deberían ser accesibles desde tus navegaciones. Veamos ejemplos:
Suscripciones al boletín
Puedes tener una página que desglose los beneficios de suscribirse al boletín informativo, con qué frecuencia los usuarios deben esperar recibirlo, o un gráfico que muestre el boletín (o el boletín anterior). Recuerda incluir también el enlace de suscripción.
Páginas que contienen información de usuario
Las páginas que requieren que los usuarios compartan su información definitivamente deben estar ocultas. Los usuarios necesitan crear cuentas antes de poder acceder a ellas. Las inscripciones a boletines informativos también pueden categorizarse aquí.
Cómo encontrar páginas ocultas
Como mencionamos, puedes encontrar páginas ocultas utilizando todos los métodos que se usan para encontrar páginas huérfanas o sin salida. Vamos a explorar algunas más.
Uso de robots.txt
Es muy probable que las páginas ocultas estén ocultas a los motores de búsqueda a través de robots.txt. Para acceder al robots.txt de un sitio, escribe [nombre del dominio]/robots.txt en un navegador y presiona enter. Reemplaza 'nombre del dominio' con el nombre de dominio de tu sitio. Busca entradas que comiencen con 'disallow' o 'nofollow'.
Encontrarlos manualmente
Si vendes productos a través de tu sitio web, por ejemplo, y sospechas que una de tus categorías de productos puede estar oculta, puedes buscarla manualmente. Para hacer esto, copia y pega la URL de otro producto y edítala en consecuencia. Si no la encuentras, ¡entonces tenías razón!.
¿Y si no tienes idea de cuáles podrían ser las páginas ocultas? Si organizas tu sitio web en directorios, puedes añadir tu nombre de dominio/nombre de carpeta al navegador de un sitio y navegar a través de las páginas y subdirectorios.
Una vez que hayas encontrado tus páginas ocultas (y no necesitan permanecer ocultas como se ha discutido anteriormente), necesitas agregarlas a tu mapa del sitio y enviar una solicitud de rastreo.
Cómo encontrar todas las páginas en tu sitio
Necesitas encontrar todas tus páginas web para saber cuáles son callejones sin salida o huérfanas. Vamos a explorar las diferentes maneras de lograr esto:
Usando tu archivo de sitemap
Ya hemos echado un vistazo a los mapas del sitio. Tu mapa del sitio sería útil al analizar todas tus páginas web. Si no tienes un mapa del sitio, puedes usar un generador de mapas del sitio para generar uno para ti. Todo lo que necesitas hacer es introducir tu nombre de dominio y el mapa del sitio se generará para ti.
Uso de tu CMS
Si tu sitio está impulsado por un sistema de gestión de contenido (CMS) como WordPress, y tu mapa del sitio no contiene todos los enlaces, es posible generar la lista de todas tus páginas web desde el CMS. Para hacer esto, utiliza un complemento como Export All URLs.
Uso de un registro
Un registro de todas las páginas servidas a los visitantes también resulta útil. Para acceder al registro, inicia sesión en tu cPanel, luego busca 'archivos de registro sin procesar'. Alternativamente, solicita a tu proveedor de hosting que lo comparta. De esta manera, puedes ver las páginas más visitadas frecuentemente, las páginas nunca visitadas y aquellas con las tasas de abandono más altas. Las páginas con tasas de rebote altas o sin visitantes podrían ser páginas sin salida o páginas huérfanas.
Uso de Google Analytics
Aquí están los pasos a seguir:
Paso 1: Inicia sesión en tu página de Analytics.
Paso 2: Ve a ‘comportamiento’ luego a ‘contenido del sitio’
Paso 3: Ve a 'todas las páginas'
Paso 4: Desplázate hasta el final y en la derecha elige ‘mostrar filas’
Paso 5: Selecciona 500 o 1000 dependiendo de cuántas páginas estimes que tiene tu sitio
Paso 6: Desplázate hacia arriba y en la parte superior derecha elige 'exportar'
Paso 7: Elige ‘exportar como .xlsx’ (excel)
Paso 8: Una vez exportado el excel, elige 'conjunto de datos 1'
Paso 9: Ordenar por ‘vistas únicas de página’.
Paso 10: Elimina todas las demás filas y columnas excepto la que contiene tus URLs
Paso 11: Utiliza esta fórmula en la segunda columna:
=CONCATENATE("http://domain.com",A1)
Paso 12: Reemplaza el dominio con el dominio de tu sitio. Arrastra la fórmula para que se aplique a las demás celdas también.
Ahora tienes todas tus URLs.
Si quieres convertirlos en hipervínculos para poder hacer clic en ellos fácilmente y acceder cuando busques algo, continúa con el paso 13.
Paso 13: Utiliza esta fórmula en la tercera fila:
=HYPERLINK(B1)
Arrastra la fórmula para que también se aplique a las demás celdas.
Escribir manualmente en la consulta de búsqueda de Google
También puedes escribir este sitio: www.abc.com en la consulta de búsqueda de Google. Reemplaza 'abc' con el nombre de tu dominio. Obtendrás resultados de búsqueda con todas las URLs que Google ha rastreado e indexado, incluyendo imágenes, enlaces a menciones en otros sitios e incluso hashtags con los que se puede vincular tu marca.
Luego puedes copiar manualmente cada uno y pegarlos en una hoja de cálculo de Excel.
¿Qué haces entonces con tu lista de URL?
En este punto, puede que te estés preguntando qué necesitas hacer con tu lista de URL. Veamos las opciones disponibles:
Comparación manual con datos de registro
Una de las opciones sería comparar manualmente tu lista de URL con el registro del CMS e identificar las páginas que parecen no tener tráfico en absoluto, o que parecen tener las tasas de rebote más altas. Luego puedes usar una herramienta como la nuestra para verificar los enlaces entrantes y salientes de cada una de las páginas que sospechas que son huérfanas o sin salida.
Otro enfoque es descargar todas tus URLs como un archivo .xlsx (excel) y también tu registro. Compáralos lado a lado (en dos columnas, por ejemplo) y luego utiliza la opción "eliminar duplicados" en excel. Sigue las instrucciones paso a paso. Al final del proceso, solo te quedarán las páginas huérfanas y sin salida.
El tercer enfoque de comparación consiste en copiar dos conjuntos de datos - tu registro y la lista de URL en Google Sheets. Esto te permite usar esta fórmula: =VLOOKUP(A1, A:B,2,) para buscar URLs que están presentes en tu lista de URL, pero no en tu registro. Las páginas faltantes (representadas como N/A) deben interpretarse como páginas huérfanas. Asegúrate de que los datos del registro estén en la primera o columna izquierda.
Uso de herramientas de rastreo de sitios
La otra opción sería cargar tu lista de URL en herramientas que puedan realizar rastreos de sitios, esperar a que rastreen el sitio y luego copiar y pegar tus URL en una hoja de cálculo antes de analizarlas una por una, e intentar averiguar cuáles son huérfanas o callejones sin salida.
Estas dos opciones pueden consumir mucho tiempo, especialmente si tienes muchas páginas en tu sitio, ¿verdad?
Bueno, ¿qué te parece una herramienta que no solo encuentra todas tus URLs sino que también te permite filtrarlas y muestra su estado (para que sepas cuáles son callejones sin salida o huérfanas?). En otras palabras, si quieres un atajo para encontrar todas las páginas de tu sitio, la Herramienta de Rastreo SEO de SEOptimer.
Herramienta de rastreo SEO de SEOptimer
Esta herramienta te permite acceder a todas las páginas de tu sitio. Puedes comenzar yendo a “Rastreos de Sitio” e ingresar la url de tu sitio web. Haz clic en “Rastrear”
Una vez que la búsqueda haya terminado, puedes hacer clic en “Ver Informe”:
Nuestra herramienta de rastreo detectará todas las páginas de su sitio web y las enumerará en la sección “Página Encontrada” del rastreo.
Puedes identificar problemas de “Error 404” en nuestro apartado “Problemas Encontrados” justo debajo de la sección “Páginas Encontradas”:
Nuestros rastreadores pueden identificar otros problemas como encontrar páginas con Título faltante, Meta Descripciones, etc. Una vez que encuentres todas tus páginas, puedes comenzar a filtrar y trabajar en los problemas actuales.
En conclusión
En este artículo hemos visto cómo encontrar todas las páginas de tu sitio y por qué es importante. También hemos explorado conceptos como páginas huérfanas y páginas sin salida, así como páginas ocultas. Hemos diferenciado cada una, cómo identificar cada una entre tus URLs. No hay mejor momento para descubrir si estás perdiendo debido a páginas ocultas, huérfanas o sin salida.