Breaking

Post Top Ad

Your Ad Spot

miércoles, 14 de agosto de 2019

Espiar a Google: 5 formas de usar el análisis de archivos de registro para revelar información valiosa sobre SEO



El análisis del archivo de registro debe ser parte del cinturón de herramientas de cada profesional de SEO, pero la mayoría de los SEO nunca han realizado uno. Lo que significa que la mayoría de los SEO se están perdiendo conocimientos únicos e invaluables que las herramientas de rastreo normales simplemente no pueden producir. 
Desmitifiquemos el análisis de archivos de registro para que no sea tan intimidante. Si está interesado en el maravilloso mundo de los archivos de registro y lo que pueden aportar a las auditorías de su sitio, esta guía es definitivamente para usted. 

¿Qué son los archivos de registro?

Los archivos de registro son archivos que contienen registros detallados sobre quién y qué está haciendo solicitudes al servidor de su sitio web. Cada vez que un bot realiza una solicitud a su sitio, los datos (como la hora, la fecha, la dirección IP, el agente de usuario, etc.) se almacenan en este registro. Estos datos valiosos permiten que cualquier SEO descubra qué están haciendo Googlebot y otros rastreadores en su sitio. A diferencia de los rastreos regulares, como con el Spider Spider de Screaming Frog, estos son datos del mundo real, no una estimación de cómo se rastrea su sitio. Es una descripción exacta de cómo se rastrea su sitio .
Tener estos datos precisos puede ayudarlo a identificar áreas de desperdicio de presupuesto de rastreo, encontrar fácilmente errores de acceso, comprender cómo sus esfuerzos de SEO están afectando el rastreo y mucho, mucho más. La mejor parte es que, en la mayoría de los casos, puede hacerlo con un simple software de hoja de cálculo. 
En esta guía, nos centraremos en Excel para realizar el Análisis del archivo de registro, pero también analizaré otras herramientas como el Analizador de archivos de registro menos conocido de Screaming Frog, que puede hacer el trabajo un poco más fácil y rápido al ayudarlo a administrar conjuntos de datos más grandes. 
Nota: poseer un software que no sea Excel no es un requisito para seguir esta guía o ensuciarse las manos con los archivos de registro.

Cómo abrir archivos de registro

Cambie el nombre de .log a .csv

Cuando obtiene un archivo de registro con una extensión .log, es realmente tan fácil como renombrar la extensión de archivo .csv y abrir el archivo en un software de hoja de cálculo. Recuerde configurar su sistema operativo para mostrar extensiones de archivo si desea editarlas.

Cómo abrir archivos de registro divididos

Los archivos de registro pueden venir en un registro grande o en varios archivos, dependiendo de la configuración del servidor de su sitio. Algunos servidores utilizarán el equilibrio de carga del servidor para distribuir el tráfico a través de un grupo o granja de servidores, lo que provocará la división de los archivos de registro. La buena noticia es que es realmente fácil de combinar, y puede usar uno de estos tres métodos para combinarlos y luego abrirlos normalmente:
  1. Use la línea de comando en Windows presionando Shift + clic derecho en la carpeta que contiene sus archivos de registro y seleccionando "Ejecutar Powershell desde aquí"

Luego ejecute el siguiente comando:
copia * .log mylogfiles.csv
Ahora puede abrir mylogfile.csv y contendrá todos sus datos de registro. 

O si es un usuario de Mac, primero use el comando cd para ir al directorio de sus archivos de registro:
Documentos de CD / MyLogFiles /
Luego, use el comando cat o concatenate para unir sus archivos:
cat * .log> mylogfiles.csv
2) Utilizando la herramienta gratuita,  Log File Merge , combine todos los archivos de registro y luego edite la extensión del archivo a .csv y ábralo como de costumbre.
3) Abra los archivos de registro con el Analizador de archivos de registro de Screaming Frog, que es tan simple como arrastrar y soltar los archivos de registro:

División de cuerdas

(Tenga en cuenta: este paso no es necesario si está utilizando el Analizador de archivos de registro de Screaming Frog)
Una vez que tenga abierto el archivo de registro, deberá dividir el texto engorroso de cada celda en columnas para facilitar su clasificación más adelante.
La función Texto a columna de Excel es útil aquí, y es tan fácil como seleccionar todas las celdas rellenas (Ctrl / Cmd + A) e ir a Excel> Datos> Texto a columnas y seleccionar la opción "Delimitado", y el delimitador es un Carácter espacial.
Una vez que haya separado esto, es posible que también desee ordenar por hora y fecha; puede hacerlo en la columna de sello de hora y fecha, separando comúnmente los datos con el delimitador de dos puntos ":".
Su archivo debe ser similar al siguiente:
Como se mencionó anteriormente, no se preocupe si su archivo de registro no se ve exactamente igual: los diferentes archivos de registro tienen diferentes formatos. ¡Mientras tenga los datos básicos allí (hora y fecha, URL, agente de usuario, etc.), estará listo!

Comprender los archivos de registro

Ahora que sus archivos de registro están listos para el análisis, podemos sumergirnos y comenzar a comprender nuestros datos. Hay muchos formatos que los archivos de registro pueden tomar con múltiples puntos de datos diferentes, pero generalmente incluyen lo siguiente:
  1. Servidor IP
  2. Fecha y hora
  3. Método de solicitud del servidor (por ejemplo, GET / POST)
  4. URL solicitada
  5. Código de estado HTTP
  6. Agente de usuario
Puede encontrar más detalles sobre los formatos comunes a continuación si está interesado en los detalles esenciales:
  • WC3
  • Apache y NGINX
  • Equilibrio de carga elástica de Amazon
  • Proxy HA
  • JSON

Cómo revelar rápidamente el desperdicio de presupuesto de rastreo

Como resumen rápido, el presupuesto de rastreo es el número de páginas que un motor de búsqueda rastrea en cada visita a su sitio. Numerosos factores afectan el presupuesto de rastreo, incluida la equidad de enlaces o la autoridad de dominio, la velocidad del sitio y más. Con el Análisis del archivo de registro, podremos ver qué tipo de presupuesto de rastreo tiene su sitio web y dónde hay problemas que causan el desperdicio del presupuesto de rastreo. 
Idealmente, queremos ofrecer a los rastreadores la experiencia de rastreo más eficiente posible. El rastreo no debe desperdiciarse en páginas y URL de bajo valor, y las páginas prioritarias (páginas de productos, por ejemplo) no deberían tener tasas de indexación y rastreo más lentas porque un sitio web tiene muchas páginas de peso muerto. El nombre del juego es la conservación del presupuesto de rastreo, y con una buena conversión del presupuesto de rastreo viene un mejor rendimiento de búsqueda orgánica.

Ver URL rastreadas por agente de usuario

Ver con qué frecuencia se rastrean las URL del sitio puede revelar rápidamente dónde los motores de búsqueda dedican su tiempo al rastreo.
Si está interesado en ver el comportamiento de un agente de usuario único, esto es fácil como filtrar la columna relevante en Excel. En este caso, con un archivo de registro en formato WC3, estoy filtrando la columna cs (User-Agent) de Googlebot:
Y luego filtrando la columna URI para mostrar la cantidad de veces que Googlebot rastreó la página de inicio de este sitio de ejemplo:
Esta es una forma rápida de ver si hay áreas problemáticas por raíz de URI para un agente de usuario singular. Puede llevar esto un paso más allá mirando las opciones de filtrado para la columna madre de URI, que en este caso es cs-uri-stem:
Desde este menú básico, podemos ver qué URL, incluidos los archivos de recursos, se están rastreando para identificar rápidamente cualquier URL problemática (por ejemplo, URL parametrizadas que no deberían rastrearse).
También puede hacer análisis más amplios con tablas dinámicas. Para obtener la cantidad de veces que un agente de usuario en particular ha rastreado una URL específica, seleccione la tabla completa (Ctrl / cmd + A), vaya a Insertar> Tabla dinámica y luego use las siguientes opciones:
Todo lo que estamos haciendo es filtrar por Agente de usuario, con la URL derivada como filas, y luego contar la cantidad de veces que ocurre cada Agente de usuario.
Con mi archivo de registro de ejemplo, obtuve lo siguiente:
Luego, para filtrar por Usuario-Agente específico, hice clic en el icono desplegable en la celda que contiene "(Todos)" y seleccioné Googlebot:
Comprender qué diferentes robots están rastreando, cómo los robots móviles se están rastreando de manera diferente al escritorio y dónde está ocurriendo el mayor rastreo puede ayudarlo a ver de inmediato dónde hay desperdicio de presupuesto de rastreo y qué áreas del sitio necesitan mejoras.

Encuentra URL de bajo valor agregado

El presupuesto de rastreo no debe desperdiciarse en URL de bajo valor agregado, que normalmente son causadas por ID de sesión, espacios de rastreo infinitos y navegación facetada.
Para hacer esto, regrese a su archivo de registro y filtre por URL que contengan un "?" O símbolos de signo de interrogación de la columna URL (que contiene el tronco de la URL). Para hacer esto en Excel, recuerde usar "~?" O tilde signo de interrogación, como se muestra a continuación:
Un solo "?" O signo de interrogación, como se indica en la ventana de filtro automático, representa cualquier carácter individual, por lo que agregar la tilde es como un carácter de escape y se asegura de filtrar el símbolo del signo de interrogación.
¿No es eso fácil?

Encuentra URL duplicadas

Las URL duplicadas pueden ser un desperdicio de presupuesto de rastreo y un gran problema de SEO, pero encontrarlas puede ser una molestia. Las URL a veces pueden tener ligeras variantes (como una barra diagonal versus una versión de barra no final de una URL).
En última instancia, la mejor manera de encontrar URL duplicadas es también la forma menos divertida de hacerlo: debe ordenar por fuente de URL del sitio alfabéticamente y manualmente.
Una forma de encontrar versiones de barra diagonal final y no final de la misma URL es utilizar la función SUSTITUIR en otra columna y utilizarla para eliminar todas las barras diagonales:
= SUSTITUTO (C2, “/”, “”)
En mi caso, la celda objetivo es C2 ya que los datos madre están en la tercera columna.
Luego, use el formato condicional para identificar valores duplicados y resaltarlos.
Sin embargo, el globo ocular es, desafortunadamente, el mejor método por ahora. 

Ver la frecuencia de rastreo de subdirectorios

Descubrir qué subdirectorios se rastrean más es otra forma rápida de revelar el desperdicio de presupuesto de rastreo. Aunque tenga en cuenta que el hecho de que el blog de un cliente nunca haya obtenido un solo vínculo de retroceso y solo obtenga tres visitas al año de la abuela del propietario del negocio no significa que deba considerarlo arrastrar el desperdicio de presupuesto: la estructura de enlaces internos debe ser consistentemente buena en todo el sitio y puede haber una razón importante para ese contenido desde la perspectiva del cliente.
Para descubrir la frecuencia de rastreo por nivel de subdirectorio, necesitará observarlo principalmente, pero la siguiente fórmula puede ayudar:
= SI (DERECHA (C2,1) = "/", SUMA (LEN (C2) -LEN (SUSTITUTO (C2, "/", ""))) / LEN ("/") + SUMA (LEN (C2) -LEN (SUSTITUTO (C2, "=", ""))) / LEN ("=") - 2, SUM (LEN (C2) -LEN (SUSTITUTO (C2, "/", ""))) / LEN ("/") + SUMA (LEN (C2) -LEN (SUSTITUTO (C2, "=", ""))) / LEN ("=") - 1) 
La fórmula anterior parece un poco aturdida, pero todo lo que hace es verificar si hay una barra inclinada final y, según la respuesta, contar el número de barras diagonales finales y restar 2 o 1 del número. Esta fórmula podría acortarse si elimina todas las barras diagonales finales de su lista de URL utilizando la fórmula CORRECTA, pero quién tiene el tiempo. Lo que queda es el recuento de subdirectorios (comenzando desde 0 como primer subdirectorio).
Reemplace C2 con la primera celda de URL / raíz de URL y luego copie la fórmula en toda su lista para que funcione.
Asegúrese de reemplazar todos los C2 con la celda inicial apropiada y luego ordene la nueva columna de conteo del subdirectorio de menor a mayor para obtener una buena lista de carpetas en un orden lógico, o filtre fácilmente por nivel de subdirectorio. Por ejemplo, como se muestra en las siguientes capturas de pantalla:
La imagen de arriba es subdirectorios ordenados por nivel.
La imagen de arriba es subdirectorios ordenados por profundidad.
Si no está lidiando con muchas URL, simplemente puede ordenar las URL por orden alfabético, pero no obtendrá el filtrado de recuento de subdirectorios, que puede ser mucho más rápido para sitios más grandes.

Ver frecuencia de rastreo por tipo de contenido

Averiguar qué contenido se está rastreando, o si hay algún tipo de contenido que está acaparando el presupuesto de rastreo, es un buen control para detectar el desperdicio del presupuesto de rastreo. El rastreo frecuente en archivos CSS y JS innecesarios o de baja prioridad, o cómo se produce el rastreo en las imágenes si está tratando de optimizar la búsqueda de imágenes, se puede detectar fácilmente con esta táctica.
En Excel, ver la frecuencia de rastreo por tipo de contenido es tan fácil como filtrar por URL o raíz de URI utilizando la opción Finalizar con filtrado.

Consejo rápido: También puede usar el filtro "No termina con" y usar una extensión .html para ver cómo se rastrean los archivos de página que no son HTML, siempre vale la pena verificarlo en caso de que se rastreen los presupuestos innecesarios en archivos js o css innecesarios, o incluso imágenes y variaciones de imágenes (mirándote Wordpress). Además, recuerde si tiene un sitio con URL de barra inclinada final y no final para tener eso en cuenta con el operador "o" con filtrado.

Espiar a los bots: comprender el comportamiento del rastreo del sitio

Log File Analysis nos permite comprender cómo se comportan los bots al darnos una idea de cómo priorizan. ¿Cómo se comportan los diferentes bots en diferentes situaciones? Con este conocimiento, no solo puede profundizar su comprensión del SEO y el rastreo, sino que también puede darle un gran salto en la comprensión de la efectividad de la arquitectura de su sitio.

Ver las URL más y menos rastreadas

Esta estrategia se ha retocado anteriormente al ver las URL rastreadas por el agente de usuario, pero es aún más rápido.
En Excel, seleccione una celda en su tabla y luego haga clic en Insertar> Tabla dinámica, asegúrese de que la selección contenga las columnas necesarias (en este caso, la raíz de URL o URI y el agente de usuario) y haga clic en Aceptar.
Una vez que haya creado su tabla dinámica, establezca las filas en la raíz URL o URI y el valor sumado como el agente de usuario.
Desde allí, puede hacer clic con el botón derecho en la columna de agente de usuario y ordenar las URL de mayor a menor según el recuento de rastreo:
Ahora tendrá una excelente tabla para hacer gráficos o revisarlos rápidamente y buscar áreas problemáticas:
Una pregunta que debe hacerse al revisar estos datos es: ¿Las páginas que usted o el cliente desean rastrear? ¿Con qué frecuencia? El rastreo frecuente no necesariamente significa mejores resultados, pero puede ser una indicación de lo que Google y otros agentes de usuario de contenido priorizan más.

Frecuencia de rastreo por día, semana o mes

Verificar la actividad de rastreo para identificar problemas en los que ha habido pérdida de visibilidad durante un período de tiempo, después de una actualización de Google o en una emergencia puede informarle dónde podría estar el problema. Esto es tan simple como seleccionar la columna "fecha", asegurarse de que la columna esté en el tipo de formato "fecha" y luego usar las opciones de filtrado de fecha en la columna de fecha. Si está buscando analizar una semana completa, simplemente seleccione los días correspondientes con las opciones de filtrado disponibles.

Frecuencia de rastreo por directiva

Comprender qué directivas se están siguiendo (por ejemplo, si está utilizando una directiva de no autorización o incluso una directiva sin índice en robots.txt) es esencial para cualquier auditoría o campaña de SEO. Si un sitio está utilizando no permitido con URLs de navegación facetadas, por ejemplo, querrá asegurarse de que se cumplan. Si no lo son, recomiende una solución mejor, como las directivas en la página, como las etiquetas de meta robots.
Para ver la frecuencia de rastreo por directiva, deberá combinar un informe de rastreo con el análisis de su archivo de registro.
(Advertencia: vamos a utilizar VLOOKUP, pero en realidad no es tan complicado como la gente cree)
Para obtener los datos combinados, haga lo siguiente:
  1. Obtenga el rastreo de su sitio utilizando su software de rastreo favorito. Puede que sea parcial, pero soy un gran admirador de Screaming Frog SEO Spider, así que voy a usar eso. 

    Si también está usando la araña, siga los pasos al pie de la letra, pero de lo contrario, haga su propia llamada para obtener los mismos resultados.
  2. Exporte el informe HTML interno de SEO Spider (pestaña interna> "Filtro: HTML") y abra el archivo "internal_all.xlsx". 



    Desde allí, puede filtrar la columna "Estado de indexabilidad" y eliminar todas las celdas en blanco. Para hacer esto, use el filtro "no contiene" y simplemente déjelo en blanco. También puede agregar el operador “y” y filtrar las URL redirigidas haciendo que el valor del filtro sea igual “no contiene →“ Redirigido ”como se muestra a continuación: 



    Esto mostrará canonicalizado, sin índice por meta robots y URL canonicalizadas.
  3. Copie esta nueva tabla (con solo las columnas Dirección y Estado de indexabilidad) y péguela en otra hoja de su exportación de análisis de archivo de registro.
  4. Ahora para un poco de magia BUSCARV. Primero, debemos asegurarnos de que los datos de la columna URI o URL estén en el mismo formato que los datos de rastreo. 

    Los archivos de registro generalmente no tienen el dominio raíz o el protocolo en la URL, por lo que debemos eliminar el encabezado de la URL usando "Buscar y reemplazar" en nuestra hoja recién creada, o hacer una nueva columna en la hoja de análisis de su archivo de registro agregue el protocolo y el dominio raíz al tronco URI. Prefiero este método porque luego puede copiar y pegar rápidamente una URL con la que tiene problemas y echar un vistazo. Sin embargo, si tiene un archivo de registro masivo, probablemente sea mucho menos intensivo de CPU con el método "Buscar y reemplazar".

    Para obtener sus URL completas, use la siguiente fórmula pero con el campo URL cambiado a cualquier sitio que esté analizando (y asegúrese de que el protocolo también sea correcto). También querrá cambiar D2 a la primera celda de su columna URL 

    = " 
    https://www.example.com" & D2  Arrastre la fórmula hacia el final de la tabla del archivo de registro y obtenga una buena lista de URL completas:

  5. Ahora, cree otra columna y llámela "Estado de Indexabilidad". En la primera celda, use una BUSQUEDA similar a la siguiente: = BUSCARV (E2, CrawlSheet! A $ 1: B $ 1128,2, FALSE). Reemplace E2 con la primera celda de su columna "URL completa", luego haga la tabla de búsqueda en su nueva. hoja de rastreo. Recuerde demandar los signos de dólar para que la tabla de búsqueda no cambie como usted. aplicar la fórmula a otros roles. Luego, seleccione la columna correcta (1 sería la primera columna de la tabla de índice, por lo que el número 2 es el que buscamos). Use el modo de búsqueda de rango FALSO para una coincidencia exacta. Ahora tiene una buena lista ordenada de URL y su estado de indexación combinado con datos de rastreo:

    Frecuencia de rastreo por profundidad y enlaces internos

    Este análisis nos permite ver cómo está funcionando la arquitectura de un sitio en términos de presupuesto de rastreo y rastreabilidad. El objetivo principal es ver si tiene muchas más URL que solicitudes, y si las tiene, entonces tiene un problema. Los bots no deberían "darse por vencidos" en rastrear todo su sitio y no descubrir contenido importante o malgastar el presupuesto de rastreo en contenido que no es importante.
    Consejo: También vale la pena usar una herramienta de visualización de rastreo junto con este análisis para ver la arquitectura general del sitio y ver dónde hay "brotes" o páginas con enlaces internos deficientes.
    Para obtener estos datos tan importantes, haga lo siguiente:
    1. Rastree su sitio con su herramienta de rastreo preferida y exporte cualquier informe que tenga tanto la profundidad de clic como la cantidad de enlaces internos con cada URL. 

      En mi caso, estoy usando Screaming Frog SEO Spider, exportando el informe interno:


    2. Use una BUSCARV para hacer coincidir su URL con la columna de profundidad de rastreo y el número de enlaces entrantes, lo que le dará algo como esto:
    3. Dependiendo del tipo de datos que desee ver, es posible que desee filtrar solo las URL que devuelven un código de respuesta 200 en este punto o hacer que sean opciones filtrables en la tabla dinámica que creamos más adelante. Si está revisando un sitio de comercio electrónico, es posible que desee centrarse únicamente en las URL del producto, o si está optimizando el rastreo de imágenes, puede filtrar por tipo de archivo filtrando la columna URI de su archivo de registro utilizando el "Contenido -Tipo "de su exportación de rastreo y haciendo una opción para filtrar con una tabla dinámica. ¡Al igual que con todos estos controles, tiene muchas opciones!
    4. Con una tabla dinámica, ahora puede analizar la frecuencia de rastreo por profundidad de rastreo (filtrado por el bot particular en este caso) con las siguientes opciones:
    Para obtener algo como lo siguiente:

    ¿Mejores datos que Search Console? Identificación de problemas de rastreo

    Search Console puede ser una opción para cada SEO, pero ciertamente tiene fallas. Los datos históricos son más difíciles de obtener, y hay límites en el número de filas que puede ver (en este momento de la escritura es 1000). Pero, con Log File Analysis, el cielo es el límite. Con las siguientes comprobaciones, vamos a descubrir errores de rastreo y respuesta para darle a su sitio una comprobación completa del estado.

    Descubrir errores de rastreo

    Una comprobación obvia y rápida para agregar a su arsenal, todo lo que tiene que hacer es filtrar la columna de estado de su archivo de registro (en mi caso, "sc-status" con un tipo de archivo de registro W3C) para errores 4xx y 5xx:

    Encuentra respuestas inconsistentes del servidor

    Una URL particular puede tener diferentes respuestas del servidor a lo largo del tiempo, lo que puede ser un comportamiento normal, como cuando se corrigió un enlace roto o una señal de que se está produciendo un problema grave del servidor, como cuando el tráfico pesado a su sitio causa mucho más interna errores del servidor y está afectando la capacidad de rastreo de su sitio.
    Analizar las respuestas del servidor es tan fácil como filtrar por URL y por Fecha:
    Alternativamente, si desea ver rápidamente cómo una URL varía en el código de respuesta, puede usar una tabla dinámica con las filas establecidas en la URL, las columnas establecidas en los códigos de respuesta y contar el número de veces que una URL ha producido esa respuesta código. Para lograr esta configuración, cree una tabla dinámica con la siguiente configuración:
    Esto producirá lo siguiente:
    Como puede ver en la tabla anterior, puede ver claramente que "/inconcistent.html" (resaltado en el cuadro rojo) tiene diferentes códigos de respuesta.

    Ver errores por subdirectorio

    Para encontrar qué subdirectorios están produciendo la mayoría de los problemas, solo necesitamos hacer un simple filtrado de URL. Filtre la columna URI (en mi caso "cs-uri-stem") y use la opción de filtro "contiene" para seleccionar un subdirectorio particular y cualquier página dentro de ese subdirectorio (con el comodín *):
    Para mí, revisé el subdirectorio del blog, y esto produjo lo siguiente:

    Ver errores por agente de usuario

    Encontrar qué bots tienen dificultades puede ser útil por numerosas razones, como ver las diferencias en el rendimiento del sitio web para bots móviles y de escritorio, o qué motores de búsqueda pueden rastrear más de su sitio.
    Es posible que desee ver qué URL en particular están causando problemas con un bot en particular. La forma más fácil de hacer esto es con una tabla dinámica que permite filtrar la cantidad de veces que ocurre un código de respuesta particular por URI. Para lograr esto, haga una tabla dinámica con la siguiente configuración:
    Desde allí, puede filtrar por su bot elegido y el tipo de código de respuesta, como la imagen a continuación, donde estoy filtrando para el escritorio de Googlebot para buscar errores 404:
    Alternativamente, también puede usar una tabla dinámica para ver cuántas veces un bot específico produce diferentes códigos de respuesta en su conjunto creando una tabla dinámica que filtra por bot, cuenta por ocurrencia de URI y usa códigos de respuesta como filas. Para lograr esto, use la siguiente configuración:
    Por ejemplo, en la tabla dinámica (a continuación), miro cuántos de cada código de respuesta está recibiendo Googlebot:

    Diagnosticar problemas en la página 

    Los sitios web deben estar diseñados no solo para humanos, sino también para bots. Las páginas no deben cargarse lentamente o ser una descarga enorme, y con el análisis del archivo de registro, puede ver ambas métricas por URL desde la perspectiva de un bot.

    Encuentra páginas lentas y grandes

    Si bien puede ordenar su archivo de registro por la columna "tiempo necesario" o "tiempo de carga" de mayor a menor para encontrar las páginas de carga más lenta, es mejor observar el tiempo de carga promedio por URL, ya que podría haber otros factores que podrían tener contribuyó a una solicitud lenta que no sea la velocidad real de la página web.
    Para hacer esto, cree una tabla dinámica con las filas establecidas en la raíz URI o URL y el valor sumado establecido en el tiempo necesario para cargar o cargar el tiempo:
    Luego, usando la flecha desplegable, en este caso, donde dice "Suma de tiempo" y vaya a "Configuración del campo de valor":
    En la nueva ventana, seleccione "Promedio" y ya está todo listo:
    Ahora debe tener algo similar a lo siguiente cuando clasifica los tallos de URI por mayor a menor y el tiempo promedio que toma:

    Encuentra páginas grandes

    Ahora puede agregar la columna de tamaño de descarga (en mi caso, "sc-bytes") utilizando la configuración que se muestra a continuación. Recuerde que establece el tamaño en el promedio o la suma dependiendo de lo que le gustaría ver. Para mí, he hecho el promedio:
    Y debería obtener algo similar a lo siguiente:

    Comportamiento del bot: verificación y análisis de bots

    La mejor y más fácil manera de comprender el comportamiento de los robots y los rastreos es con el análisis de archivos de registro, ya que nuevamente está obteniendo datos del mundo real, y es mucho menos complicado que otros métodos.

    Encuentra URL no rastreadas

    Simplemente tome el rastreo de su sitio web con su herramienta de elección, y luego tome su archivo de registro y compare las URL para encontrar rutas únicas. Puede hacer esto con la función "Eliminar duplicados" de Excel o el formato condicional, aunque el primero requiere mucho menos CPU, especialmente para archivos de registro más grandes. ¡Fácil!

    Identificar bots de spam

    La tensión innecesaria del servidor por spam y falsificación de bots se identifica fácilmente con archivos de registro y algunos operadores básicos de línea de comandos. La mayoría de las solicitudes también tendrán una IP asociada, por lo que, utilizando su columna de IP (en mi caso, se titula "c-ip" en un registro de formato W3C), elimine todos los duplicados para encontrar cada IP que solicite.
    A partir de ahí, debe seguir el proceso descrito en el documento de Google para verificar las IP (nota: para usuarios de Windows, use el comando nslookup):
    O, si está verificando un robot Bing, use su práctica herramienta:

    Conclusión: Análisis de archivos de registro: no es tan aterrador como parece

    Con algunas herramientas simples a su disposición, puede profundizar en cómo se comporta Googlebot. Cuando comprenda cómo un sitio web maneja el rastreo, puede diagnosticar más problemas de los que puede masticar, pero el verdadero poder del Análisis de archivos de registro radica en poder probar sus teorías sobre Googlebot y extender las técnicas anteriores para recopilar sus propias ideas y revelaciones.

    No hay comentarios.:

    Publicar un comentario

    Dejanos tu comentario para seguir mejorando!

    Post Top Ad

    Your Ad Spot

    Páginas