Guía Screaming Frog
8 de agosto de 2023
30/08/202312:19

En esta guía de Screaming Frog se explican todas las opciones y casos de uso que pueen llevarse a cabo con la herramienta como auditorías seo, análisis de seo internacional, seguimiento de migraciones, auditoría de contenidos y otras funcionalidades interesantes que te permitirán buscar o extraer elementos del html. Toma asiento y ¡a por ello!

INTRODUCCIÓN

Screaming Frog SEO Spider es un software creado y desarrollado por Screaming Frog, agencia de Search Marketing ubicada en Oxforshire (UK).

Este software es un crawler cuyo principal objetivo es ofrecer análisis de páginas web, desde un punto de vista eminentemente SEO.

Más información en https://www.screamingfrog.co.uk/our-story/

Esta guía hace referencia a la última versión disponible de Screaming Frog, la versión 19, lanzada en 2023 y la estoy creando después de llevar usando la herramienta desde su lanzamiento en 2010, una larga travesía que me ha llevado a dedicar miles de horas a usarla y también a formar gente para optimizar su uso.

Espero que esta guía te pueda ayudar, a ti lector o lectora, a lograr nuevos enfoques, nuevas vías de análisis o simplemente a refrescar conocimientos que quizás no sabías que tenías :)

QUÉ ES SCREAMING FROG

Screaming Frog es un programa que simula el comportamiento de un crawler, es decir, inspecciona páginas web de manera sistemática y recoge información relevante en cada rastreo, útil para su posterior análisis.
El crawler funciona como cualquier otro bot o araña, rastreando los contenidos saltando de enlace en enlace y recabando los distintos tipologías de contenidos, su extensión, su formato, su status actual y una interminable lista de ítems de gran utilidad para el diagnóstico SEO.

De este modo, la herramienta pone a nuestra disposición una serie de configuraciones con las que personalizar cada rastreo, y una vez finaliza de rastrear, ofrece distintas opciones de extracción de datos y la descarga de reports.

Este programa se descarga en entorno local (PC, Mac o Linux) y al ejecutarlo recorre el sitio web seleccionado insitu, a demanda, previa configuración de los criterios clave que se quieren comprobar, sin embargo, los resultados se pueden ir obteniendo en real time, a medida que va recorriendo la web elegida.

Este crawler SEO se convierte en una herramienta fundamental e indispensable en el día a día de un proyecto SEO, ya que permite hacer análisis profundos y concisos de la mayor parte de aspectos que intervienen en este tipo de optimizaciones:

  1. SEO on page: etiquetas como titles, descriptions, h1 y estructura de urls, son algunos de los elementos que permite analizar Screaming Frog
  2. Rastreo e indexación: etiquetas como meta canonical, meta robots, revisión de fichero robots.txt, análisis y creación de sitemaps, detección del enlazado interno, son algunos de los elementos clave en áreas de rastreo de indexación, que Screaming Frog nos permitirá estudiar.

Por otro lado, no solo podremos estudiar y analizar sitios propios, de cara a detectar anomalías o carencias para su posterior optimización, también nos posibilita hacer estudios de competencia personalizados y, en función de la licencia, sin límites.

Por último, las integraciones con Google Analytics, Google Search Console, Majestic, Ahrefs y Moz que ha logrado en sus últimas versiones, la elevan como una herramienta “must” en el arsenal de herramientas SEO, ya que vincula la parte más técnica con la vertiente de negocio, a través de datos de visitas, popularidad, autoridad y conversión.

PARA QUÉ SIRVE SCREAMING FROG

Esta herramienta SEO tiene múltiples usos, pero los más conocidos y extendidos, en el análisis o crawleo de un sitio web son:

  1. Encontrar urls rotas
  2. Analizar títulos y descripciones
  3. Auditar redirecciones
  4. Descubrir contenido duplicado
  5. Analizar o generar Sitemaps
  6. Revisar instrucciones y directivas robots
  7. Web Scraping o extracción de elementos de una web (con xpath, regex o css path)
  8. Analizar enlazados internos y externos
  9. Hacer inventario de contenidos
  10. Hacer o revisar el etiquetado internacional

Así, podríamos realizar análisis de impacto directo en un proyecto SEO, a nivel táctico y estratégico:

  1. Redirecciones en migraciones
  2. Etiquetado SEO internacional
  3. Etiquetado SEO mobile
  4. Elementos de SEO On Page
  5. Estructura y Arquitectura Web
  6. Estructura de Enlazado Interno
  7. Elementos de rastreabilidad e indexabilidad
  8. Elementos de Rendimiento
  9. Elementos de estrategia de contenidos
  10. Elementos y marcados semánticos

A QUIÉN VA DIRIGIDO

“La rana”, como familiarmente la llaman algunos, es una herramienta que ha conseguido democratizar el acceso a herramientas SEO a muchos profesionales, consultores autónomos, agencias, pymes…

Sin duda, va dirigido a perfiles muy diversos:

  • Profesionales SEO de distintos nivel, que podrán usar la herramienta para optimziar sus sitios, analizar carencias y detectar oportunidades también analizando competidores.
  • Desarrolladores web que podrán revisar y comprobar sus modiicaciones en entornos locales o privados, antes de aplicar los cambios en las webs en vivo.
  • Propietarios de páginas webs que podrán identificar y diagnosticar las problemáticas técnicas y de contenido de su sitio.
  • Departamentos de contenidos que podrán trabajar en optimizar sus contenidos, analizando el estado de las principales métricas.
  • Equipos de diseño y UX que participen en lanzamientos, podrán chequear el estado del sitio a nivel de diseño en distintas resolucione, así como revisar copies y contenidos de cada página.

LICENCIAS Y PRECIOS

La herramienta la podemos comenzar a utilizar sin  necesidad de tener una licencia de pago, desde aplicaciones ya podemos abrir Screaming Frog y realizar algún rastreo.

No obstante, es necesario conocer los límites de no contar con una licencia, para no llevarnos sorpresas, con la versión Free, solo podrás:

  1. Crawlear como máximo 500 urls
  2. Acceso restringido a las opciones de configuración
  3. No podrás guardar los crawleos que hagas
  4. No podrás usar la funcionalidad de conectar Google Analytics
  5. No podrás usar las funcionalidades de extracción para scrapear, o la de buscar código en el crawleo

La licencia de pago tiene un coste de 149 libras al año y se puede contratar en https://www.screamingfrog.co.uk/seo-spider/licence/

INSTALACIÓN

Para instalar el software de Screaming Frog en entornos Apple, se requiere disponer de Java 7 y al menos 512Mb de RAM y lo primero que tendremos que hacer es descargar el archivo ejecutable, disponible en la web de Screaming Frog, en la sección Downloads o Descargas.

Puedes descargar la herramienta en los siguientes sistemas operativos:

  • Windows
  • Mac (Intel o Apple Silicon)
  • Linux (Ubuntu o Fedora)

Consigue la que más se adecúe a tus intereses en este link: http://www.screamingfrog.co.uk/seo-spider/#download

INTRODUCCIÓN VISUAL A LA INTERFAZ

Visualmente, Screaming Frog es sencillo de usar, después de una primera comprensión de las distintas zonas que existen en el software, que son 4:

  1. Menú horizontal o cinta de opciones: abrir y guardar archivos, cambiar el modo de crawleo,  varias opciones de exportar reports, generar sitemaps, etc.
  2. Zona o panel central: donde tendremos todas las métricas de análisis y los datos del proyecto que crawleemos.
  3. Zona o panel inferior: aquí se mostrará información específica de los datos que seleccionemos en el panel central, de forma individual
  4. Zona o panel lateral: en esta zona se encuentra información agrupada a modo de resumen y opciones de arquitectura, tiempos de respuesta y gráficos en la zona inferior.

SECCIÓN SCREAMING FROG

Empezando por la cinta de opciones, vamos a profundizar en qué posibilidad ofrece Screaming Frog en cada una de ellas, concretamente en la primera “Screaming Frog”.

Por mantener la cohesión durante la guía, las opciones se explican en el idioma por defecto de la herramienta (el inglés), si usas Screaming Frog en otro idioma la ubicación de los elementos es la misma y no debería generarte demasiada problemática (además que la heramienta ha estado 100% en inglés más de 10 años)

Vamos a por las opciones :)

ABOUT

Screaming Frog, em un ejercicio de transparencia, explica y detalla todos los proyectos de código abierto que utiliza para desarrollar el software:

  • jsoup
  • MinHash Library
  • ANTLR v4
  • Gson
  • Roboto
  • JSONLD-Java
  • dat.gui
  • google/robotstxt
  • The Guava project
  • TopBraid SHACL API
  • 3d-force-graph
  • TwelveMonkeys ImageIO
  • LanguageTool
  • Java Diff Utils
  • opencsv
  • Apache Software Foundation
  • HtmlCleane
  • Chrome DevTools Java Client
  • JavaFX

SETTINGS

LICENSE

Este es el lugar donde se añaden los datos de la licencia una vez la has adquirido que constan de username y de license key.La licencia es anual por lo que aquí también se podrá ver desde esta sección la fecha en la que caduca. Usualmente una vez se renueva, se añaden los nuevos datos aquí y se reinicia para que tengan efecto.

USER INTERFACE

LANGUAGE

STORAGE MODE

MEMORY ALLOCATION

EMBEDDED BROWSER

HIDE OR QUIT

SECCIÓN FILE

En esta sección se pueden encontrar opciones relativas a abrir ficheros, guardar ficheros y jugar con las opciones por defecto, o la de guardado de configuraciones, algo tremendamente útil si tenemos casuísticas que se repiten con frecuencia. Por ejemplo, si solemos rastrear un sitio periódicamente es probable que necesitemos guardar las opciones de configuración para agilizar la tarea y cada vez que tengamos que rastrear el sitio, no perder tiempo en configurarlo a mano, cuando siempre o casi siempre, la configuración será la misma.

OPCIONES PARA ABRIR FICHEROS

OPEN

Con la opción Open, tal y como su nombre indica, vamos a poder abrir archivos de Screaming Frog que tuviéramos guardados previamente en nuestro equipo.

Su funcionamiento es simple, clicamos y elegimos qué archivo queremos abrir.

El formato del archivo que genera Screaming Frog tiene la siguiente sintaxis y extensión:

Nombre_Fichero.seospider

Por tanto, cuando el diálogo se nos abra para elegir archivo, solo podremos elegir este formato.

OPEN RECENT

Cuando ya hemos utilizado el crawler, esta opción nos permitirá abrir archivos recientes, sin duda una forma rápida y ágil para recuperar los datos de los proyectos recientes. Tan solo tendremos que elegir de la lista de proyectos que aparezcan en el desplegable y seleccionar el que queremos abrir:

OPCIONES DE GUARDADO

SAVE

La opción Save, nos permite guardar el proyecto que hayamos terminado de crawlear, para guardar esa información. Esto es especialmente útil si hacemos crawleos periódicos a un proyecto, de cara a ir comparando versiones y viendo mejoras en elementos clave.
También es útil guardar un crawleo antes y después de una migración, para tener el status previo y poder detectar errores o anomalías.
Para guardar un crawleo, una vez este haya finalizado, elegimos donde guardamos el proyecto y le ponemos un nombre, siempre recomendable que sea lo más descriptivo posible.

OPCIONES DE CONFIGURACIÓN (GUARDAR Y ABRIR)

CONFIGURATION > LOAD

CONFIGURATION > LOAD RECENT

CONFIGURATION > SAVE AS

Dado que podemos hacer múltiples configuraciones, podemos guardarlas con un nombre fácil de identificar e ir cargándolas en función del objetivo de rastreo que tengamos.

Dos ejemplos claros:


– Análisis en bruto: para identificar el contenido de las etiquetas del sitio y ver si es correcto o incorrecto. Ejemplo de configuración:

– Análisis emulando el comportamiento de googlebot. Podemos tratar de imitar el rastreo que haría el bot de Google y chequear cómo pasa por el sitio web de análisis. Ejemplo de configuración:


Con esto claro, ya podemos aprovechar esta funcionalidad para guardar los ajustes de configuración y cargarlos cuando corresponda, para no tener que configurar cada rastreo cada vez.

Lo hacemos pulsando en File > Configuration > Save As

CONFIGURATION > SAVE CURRENT CONFIG AS DEFAULT

Con esta opción podemos hacer dos cosas:

– Establecer la configuración que estemos usando, como la predeterminada

– Resetear la configuración que estemos usando

En los siguientes epígrafes del manual, entenderemos mejor los efectos de estas opciones, pero podemos decir que no es lo mismo configurar Screaming Frog para que siga las redirecciones que no las siga, o para que respete las etiquetas canonical, por ejemplo.

Así, en función del objetivo que tengamos con el crawleo, tendremos que configurar específicamente la herramienta, antes de empezar a crawlear el sitio en cuestión.
Para las 2 opciones que comentábamos, tan solo hay que seleccionar la que queramos tal y como se muestra en la imagen:

CONFIGURATION > CLEAR DEFAULT CONFIG

CRAWL RECENT

Esta opción es similar a Open Recent, pero en este caso, no hace falta haber guardado un proyecto para volver a crawlear uno de los últimos sitios que hayamos analizado.

De este modo, podríamos usarlo como un acceso rápido a la lista de últimos sitios que hemos analizado, tal y como muestra el ejemplo:

Una vez pulsemos en uno de esos sitios, Screaming Frog comenzará a crawlear el sitio con la configuración que tuviéramos predeterminada.

SECCIÓN VIEW

RESET COLUMNS

RESET TABS

FOCUS MODE

SECCIÓN MODE

SPIDER

LIST

SERP

COMPARE

SECCIÓN CONFIGURACIÓN

Sin duda esta sección de la herramienta es la más importante antes de empezar a analizar y a extraer datos de un proyecto web.

Ahora profundizaremos en el por qué y en el cómo, pero debemos tener en cuenta cuál es el objetivo que perseguimos con un crawleo o análisis, antes de pulsar en el botón “start”.

A priori, sin entrar a otras funcionalidades más concretas, vamos a poder hacer dos análisis principales:

– Análisis en bruto de un proyecto: para detectar el status actual de una web, en términos de SEO On Page, etiquetas e instrucciones para robots, extensión de los contenidos, tiempo de carga, situación del enlazado, etc
– Emular comportamiento de un rastreador bot como puede ser Googlebot: para comprobar y comprender cómo se rastrean e indexan los contenidos del sitio web analizado.


Obviamente cada una de estas opciones, utilizará unos criterios a nivel de configuración muy distintos, para poder acotar la información resultante que obtendremos en cada caso.

SPIDER CRAWL

El rastreador, crawler o araña, nos permite configurar los parámetros que utilizará para recorrer la url o urls que le indiquemos, en base al objetivo que persigamos.

Cabe recordar que deben configurarse estas opciones antes de empezar, de cara a obtener la información esperada. Por defecto, la herramienta vendrá con la siguiente configuración ya cargada:

Pero como se puede ver, simplemente marcando o desmarcando cada check, estaremos personalizando la configuración para cada caso.

Disponemos de 4 pestañas de opciones. La primera de las 5 pestañas de las que consta la configuración del crawler, contiene 14 opciones que pueden configurarse de distintos modos y para fines diferentes.

Esta es una de las pestañas más importantes de la configuración, por lo que repasamos una a una todas las opciones

RESOURCE LINKS: IMAGES

Marcando esta opción, Screaming Frog crawleará links de imágenes de la etiqueta SRC o bien enlazadas como anchor de un href.

Hay una opción relacionada en la pestaña “advanced” que puede ayudar a ampliar el crawleo de imágenes y que explicaremos más adelante.

¿En qué situaciones puede ser útil usar esta opción?


La optimización de imágenes en proyectos de marketing online y SEO, pasa por varios aspectos fundamentales:


– El nombre de la imágen
– El peso de la imágen
– La etiqueta ALT de la imágen
– El texto que rodea a la imágen

Con esta opción permitiremos a Screaming Frog crawlear las imágenes y obtener los tres primeros elementos comentados, para que sirvan como punto de partida a detectar posibles mejoras y optimizaciones:

– Detectar nombres de ficheros no optimizados
– Detectar imágenes que pueden pesar menos o ser comprimidas
– Detectar imágenes sin ALT o con un ALT optimizable
– Detectar imágenes rotas (que responden 404)

¿Qué es la etiqueta ALT?

El atributo o etiqueta ALT es un texto que describe el contenido de una imagen, es el Alternate Text o Texto Alternativo y definirlo correctamente es importante porque:

– Ofrecerá un contexto semántico a la imagen, explicando el contenido con palabras o frases descriptivas. Google utiliza esta información para mostrar las imágenes más relevantes el las búsquedas
– Por cuestiones de accesibilidad web, existirán usuarios que utilicen navegadores sonoros o lectores de pantalla para visitar webs y consumir los contenidos. Esta etiqueta ALT será de vital importancia de cara a la experiencia de navegación de personas que usen estos navegadores.

Por otra parte el uso excesivo de keywords en esta etiqueta puede generar experiencias negativas para los usuarios, y por parte de Google, puede llegar a considerar el sitio como spam. De manera adicional, se pueden probar los contenidos y las descripciones añadidas en la etiqueta ALT con un navegador de sólo texto como puede ser Lynx.

RESOURCE LINKS: CSS

Marcando esta opción, Screaming Frog crawleará links de ficheros CSS, que estén vinculados en el HTML de la web.

¿Qué es un fichero CSS?

CSS u hojas de estilo en cascada, es un lenguaje de hojas de estilo usado para definir y describir un documento HTML.

Así los archivos CSS son los responsables de pintar la capa visual de todas las webs que conocemos hoy en día, marcando la separación entre el contenido de un documento y la presentación, para que sea lo más accesible posible.

De esta forma, es posible presentar el mismo documento con distintos estilos, enfocados a distintos objetivos:

– Distintos renderizados
– Distintas pantallas
– Distintos navegadores (voz, pantalla, táctiles…)
– Distintos dispositivos

Las instrucciones incluidas en un fichero CSS marcan las pautas o reglas de estilo que deben aplicarse a los distintos elementos del documento, para conseguir los efectos deseados: tamaño de fuente, colores, disposición de menús, etc.

RESOURCE LINKS: JAVASCRIPT

Marcando esta opción, Screaming Frog crawleará links de ficheros JS, que estén vinculados en el HTML de la web. Dado que la herramienta usa los links HTML para realizar el rastreo, aquellos casos en los que existan links dentro de Javascript o la web esté construida en Javascript, será necesario usar una opción especial de renderizado (5.2.1.3.3 Javascript).

¿Qué es Javascript?

JavaScript es un lenguaje de programación del lado del cliente, es decir, se ejecuta en el cliente (por ejemplo, el navegador), en vez de en el servidor. 
El código JavaScript puede crear efectos dinámicos en la web, como por ejemplo, que se despliegue un menú acordeón al pasar el ratón por encima.

Algún inconveniente es que si un usuario tiene desactivado JavaScript en su navegador, no podrá ver todos los efectos o contenidos dinámicos que aporta Javascript, a pesar de que la mayoría de navegadores interpretan bien el código JavaScript.

RESOURCE LINKS: SWF
Marcando esta opción, Screaming Frog crawleará links de archivos flash, que estén vinculados en el HTML de la web.

PAGE LINKS: INTERNAL LINKS

PAGE LINKS: EXTERNAL LINKS

Marcando esta opción, Screaming Frog crawleará links externos, es decir, de dominios diferentes al que hayamos introducido. El rastreador, por defecto omite las directivas “nofollow” de los enlaces (tanto internos como externos), por lo que en caso de querer que sean seguidos, se deberá indicar expresamente

A priori, es interesante usar esta opción para conocer el status de los enlaces que contiene la web, aunque sean externos, siempre será positivo asegurarse de que no dan error ni redirigen innecesariamente.

Cabe señalar que marcar esta opción nos va a condicionar dos elementos del panel derecho, por lo que esta información agrupará datos tantos de recursos internos como externos:


– Protocol
– Response codes

Ejemplo de enlaces externos que podemos encontrar en una web:


– Links a otras webs de grupos (en otros dominios)
– Links a los perfiles sociales
– Links de botones de compartir
– Links editoriales a recursos de interés
– Links a menciones o apariciones en prensa de la web
– Etc.

PAGE LINKS: CANONICALS

PAGE LINKS: PAGINATION (REL NEXT / REL PREV)

PAGE LINKS: HREFLANG

PAGE LINKS: AMP

PAGE LINKS: META REFRESH

PAGE LINKS: IFRAMES

CRAWL BEHAVIOUR: CHECK LINKS OUTSIDE OF START FOLDER

CRAWL BEHAVIOUR: CRAWL OUTSIDE OF START FOLDER

Marcando esta opción, le damos la instrucción a Screaming Frog de rastrear enlaces más allá de la url o directorio de partida. Por tanto, si queremos rastrear solo las urls y contenidos de un directorio específico, deberemos desmarcar esta opción, para que no rastree otros directorios fuera del elegido.

Hay que tener en cuenta que esta opción puede colisionar con otras opciones del comportamiento del rastreo.

SPIDER EXTRACTION

SPIDER LIMITS

SPIDER RENDERING

SPIDER ADVANCED

SPIDER PREFERENCES

CONTENT

ROBOTS.TXT

URL REWRITING

CDN

INCLUDE / EXCLUDE

SPEED

USER-AGENT

HTTP HEADER

CUSTOM

API ACCESS

AUTHENTICATION

SEGMENTS

CRAWL ANALYSIS