Análisis de competencia SEO usando estadística: mi TFM de Estadística Aplicada con R

15 de noviembre de 2025
15/11/202512:14

Acabo de terminar mi Trabajo de Fin de Máster del Máster de Estadística con R de Máxima Formación junto a la Universidad Nebrija (gracias Rosana Ferrero por el apoyo y seguimiento durante el máster) y quería compartir un resumen de lo que he hecho, porque creo que puede ser útil para quienes trabajan en SEO y quieren ir un paso más allá con el análisis de datos.

Me he propuesto intentar responder a una pregunta que me rondaba la cabeza: ¿podemos usar técnicas estadísticas avanzadas para entender la la distribución de la competencia en un sector SEO de verdad? Me refiero no solo mirar métricas individuales (posición media, clics, CPC…) sino encontrar patrones ocultos, identificar oportunidades reales y medir la eficiencia de cada competidor.

Te cuento lo que he hecho.

El contexto: SEO en el sector automoción en España

El sector del motor en España mueve muchos millones de búsquedas mensuales, es un mercado maduro, muy competitivo, donde las primeras posiciones se traducen directamente en leads y comisiones.

Para este estudio analicé 6 portales líderes del sector: autoscout24, flexicar, coches.com, km77, autocasion y ocasionplus.

Entre todos, recopilé más de 5.000 keywords únicas posicionadas en la primera página de Google España durante octubre de 2025, para llevar a cabo varias técnicas estadísticas objeto del temario del máster, principalmente centradas en territorios clave: las búsquedas orgánicas relacionadas a marcas de coches.

Qué técnicas estadísticas he utilizado

La gracia del estudio está en combinar varias técnicas multivariantes aplicadas al SEO para llegar a información que no veríamos con análisis tradicionales:

  1. Clustering jerárquico para identificar arquetipos o clusters estratégicos de portales
  2. Análisis de Correspondencias (CA) para mapear el la competencia considerando marcas de coches y portales.
  3. Variables suplementarias para proyectar métricas comerciales sobre el espacio factorial

Y además añadí dos métricas más específicas y construidas ad-hoc:

  • el Share of Voice (SOV), que es una ponderación de clics por posición para intentar capturar la cuota de mercado orgánica que se traduce en tráfico.
  • el Índice de Eficiencia Competitiva (IEC), que mide cuánto valor captura cada portal en relación al esfuerzo invertido.

La métrica IEC demuestra algo contraintuitivo: más keywords no significa necesariamente más negocio.

Nota: ambas métricas pueden tener limitaciones y seguramente pueden refinarse mucho más usando pesos o ponderaciones en base al sector de estudio. Por simplicidad, en este trabajo se han usado sin pesos.

Análisis exploratorio: lo que nos dicen los datos antes de aplicar las técnicas estadísticas

Antes de lanzar los análisis estadísticas, es fundamental entender cómo se distribuyen las variables.

Lo primero que salta a la vista: volumen y clics siguen distribuciones log-normales con colas muy largas. Esto significa que el 25% de las keywords captura la mayor parte del tráfico.

La famosa ley de Pareto aplicada al SEO: pocas keywords generan muchos clics, mientras que la mayoría son de long-tail o nicho.

Correlaciones que validan (y cuestionan) intuiciones

La matriz de correlaciones nos da pistas interesantes, aunque como siempre se dice, «correlación no implica causalidad»:

La correlación CPC-competencia tan baja es sorprendente, la intuición dice que keywords muy competidas deberían tener CPCs altos, pero no es así: el CPC refleja más el valor intrínseco de conversión que la presión competitiva pura. Keywords de nicho con alta intencionalidad pueden tener CPCs elevados sin competencia extrema.

Y la correlación casi nula entre posición y clics se explica porque estamos mirando datos agregados de múltiples portales: un portal puede tener keywords en posición 8 con alto volumen que generan más clics que keywords en posición 2 con volumen bajo.

Especialización por marca

Dado que el 100% del corpus está basado en keywords de que incluyen marcas de coche, alrededor de 60, el heatmap resultante revela patrones claros:

Se identifican 3 clusters naturales:

  • Cluster Premium: BMW, Mercedes, Audi, Porsche → dominado por autoscout24 y flexicar
  • Cluster Generalista: Renault, Ford, Toyota, Seat → cobertura equilibrada
  • Cluster Nicho: Suzuki, Fiat, Mitsubishi → especialización de ocasionplus

Resultados del clustering: tres arquetipos estratégicos

El clustering jerárquico con método Ward identifica tres grupos diferenciados aplicado a los portales:

  • Cluster 1 – Seguidores: autocasion y ocasionplus. Posición débil (7.4), bajo % Top 3 (2.5-4.9%), Shre of Voice (SOV) limitado.
  • Cluster 2 – Retadores Eficientes: autoscout24 y km77. Balance volumen-calidad óptimo (23-34% Top 3).
  • Cluster 3 – Líderes Dominantes: cochescom y flexicar. Máximo SOV y CPC elevado (0,49-0,56€).

Lo interesante es que los portales con más keywords (autoscout24: 1.483) no son necesariamente los más eficientes. Esto confirma que la escala y la calidad son dimensiones independientes, más adelante se observará con los gráficos de eficiencia.

El PCA complementa la visión

El biplot PCA captura el 90,4% de la varianza con solo 2 dimensiones:

  • Dimensión 1 (61,6%): nos ofrece lascala de operación. Derecha = alto volumen, izquierda = alto valor
  • Dimensión 2 (28,8%): nos ofrece la calidad de posicionamiento. Arriba = excelencia SEO, abajo = posicionamiento más débil

Esto confirma que volumen y calidad son estrategias independientes: un portal puede elegir entre amplitud (muchas keywords) o especialización (keywords de alto valor).

Análisis de Correspondencias: el mapa competitivo marca-portal

Aquí la cosa se pone ya muuuuuuy interesante. El CA transforma la matriz Marca × Portal en un espacio bidimensional donde podemos ver simultáneamente qué portales dominan qué marcas.

Las 2 primeras dimensiones capturan el 71,3% de la inercia total, suficiente para una interpretación robusta.

La interpretación de este espacio bidimensional es la siguiente:

  • Dimensión 1 (45,4%): Eje Premium ← → Masivo
    • Derecha: marcas premium exclusivas (Porsche, Ferrari, Nissan)
    • Izquierda: marcas generalistas o masivas (Renault, Kia, Volkswagen)
  • Dimensión 2 (25,8%): Eje de Especialización
    • Arriba: marcas con dominancia clara de un portal
    • Abajo: marcas con cobertura dispersa

Posicionamiento de cada portal

Cada portal ocupa una posición estratégica única dentro del espacio:

  • autoscout24: en la parte más hacia la derecha, especialista absoluto en premium
  • flexicar: en el cuadrante inferior izquierdo, cobertura amplia en alto valor
  • cochescom: en el extremo inferior, especialización en Kia y Renault
  • km77: en el centro del espacio, estrategia no diferenciada por marcas (compite por calidad de contenido)
  • ocasionplus: en el extremo superior, alta especialización vertical (pocas marcas, fuerte dominancia)

Marcas que discriminan el mercado

Las 15 marcas con mayor contribución al espacio definen claramente los territorios:

  • Porsche (21,1% de contribución a Dim1): define el segmento premium
  • Kia (27,5% de contribución a Dim2): define la especialización vertical
  • BMW, Mercedes, Toyota: en el centro del espacio, batalla de «todos contra todos»

El Índice de Eficiencia Competitiva (IEC)

Esta es la métrica propuesta para evaluar quién está haciendo las cosas bien de verdad, e ir más allá de posición y clics. La fórmula usada:

IEC = (SOV × CPC × Volumen) / (Competencia × Posición × 10.000)

La idea es simple: ponderar el valor del tráfico captado (numerador) contra el esfuerzo teórico requerido (denominador).

Donde SOV es una ponderación de clics por posición calculada así:

SOV = Sumatorio(Clicsx(11-Posición))

Ranking IEC:

  1. flexicar (3.210.565): líder absoluto. Monetiza su especialización en renting/premium con eficiencia extrema.
  2. cochescom (1.354.599): alto CPC compensa posicionamiento moderado.
  3. autoscout24 (1.280.960): eficiente a pesar de operar en escala.
  4. ocasionplus (331.334): CPC elevado no compensa posición débil.
  5. km77 (279.193): penúltimo a pesar de mejor % Top 3. CPC bajo limita monetización.
  6. autocasion (50.465): última posición. Sin especialización clara.

El IEC revela algo crucial: flexicar, con solo 1.018 keywords, supera en eficiencia a autoscout24 (1.483 kw) gracias a la especialización en términos de alto CPC. Y km77, líder en posiciones Top 3, queda penúltimo por cubrir keywords de bajo valor comercial, presumiblemente con su aportación en reseñas más informativas.

La eficiencia no está en el ranking, sino en la intención de búsqueda.

Oportunidades «océano azul»: dónde hay espacio para crecer

Usando el índice Herfindahl-Hirschman (HHI) para medir concentración competitiva, se pueden identificar marcas donde ningún portal tiene un dominio claro del territorio:

Marcas fragmentadas (HHI < 0.20) con alto valor comercial:

  • Volkswagen: líder flexicar con 37,9%, ocasionplus con 36,3%
  • Seat: fragmentado entre 3 portales
  • Toyota: autoscout24 con 38,7% compite con flexicar (35,4%)

Estas marcas suman casi 800 keywords con CPC medio superior a la media del mercado. Un portal nuevo que conquistara un 25% de esas búsquedas podría añadir entre 35.000-50.000 clics mensuales, valorados potencialmente en más de 1M € al año.

Limitaciones enfrentadas

Algunas de las limitaciones a las que me he enfrentado:

  • Datos estáticos (sin serie temporal)
  • Cobertura parcial del mercado (~60%)
  • CPC como proxy imperfecto del valor real
  • Sensibilidad a la elección del número de clusters
  • Contexto específico (automoción España)
  • Muestra pequeña (solo 6 portales)
  • Los datos de SISTRIX son una muestra y usa estimaciones de Clics

Además, hay muchos indicadores que se han quedado fuera y por tanto no están cubiertos en el estudio:

  • Backlinks, factores on-page, UX
  • Intención de búsqueda detallada
  • Datos reales de conversión
  • Contexto externo

Y lo más importante: cómo interpretar los resultados teniendo todo esto en cuenta, destacando que la metodología es el mayor aporte más allá de los números específicos.

Siguientes pasos: por dónde continuar este trabajo

Este TFM abre muchas puertas y líneas de trabajo que me gustaría explorar si tengo tiempo (y que quizás te interesen si quieres replicar o expandir esto):

1. Análisis considerando la dimensión temporal

El siguiente paso natural es repetir el análisis mensualmente durante 6-12 meses. Esto permitiría:

  • Detectar tendencias: ¿los «seguidores» están creciendo o estancados?
  • Validar estabilidad de patrones: ¿los arquetipos se mantienen o hay movimientos entre clusters?
  • Correlacionar con updates de Google: ¿cómo afectan los Core Updates a cada arquetipo?
  • Identificar estacionalidad: ¿hay marcas que ganan relevancia en ciertos meses (verano para descapotables, invierno para SUVs)?

2. Incorporar datos de Google Search Console reales

Una mejora sustancial sería sustituir los clics estimados por datos reales de GSC. Si tuviéramos acceso a los GSC de varios portales (aunque sea anonimizado), podríamos:

  • Validar si las estimaciones de SISTRIX son precisas
  • Calcular CTRs reales por posición y tipo de keyword
  • Medir impresiones además de clics
  • Añadir métricas de engagement (posición media real)

Con acceso a datos de GSC de un solo proyecto hay potencial de crear una estimación mucho más realista.

3. Análisis de backlinks y autoridad

Una pieza importante no cubierta es la popularidad externa. Añadir métricas de:

  • Domain Rating (DR) o Domain Authority (DA)
  • Número de dominios de referencia
  • Perfil de anchor texts
  • Ratio follow/nofollow
  • etc.

Esto permitiría correlacionar autoridad con eficiencia competitiva. Mi hipótesis: los portales con mayor autoridad pueden permitirse competir en keywords más difíciles, pero los de menor autoridad compensan con especialización vertical.

4. Segmentación por intención de búsqueda avanzada

En el TFM usé categorías genéricas de intención (know, do, visit…) proporcionadas por SISTRIX. El siguiente nivel sería:

  • Análisis semántico con NLP: clustering de keywords por similitud semántica usando word embeddings
  • Clasificación automática de intención: entrenar un modelo que clasifique intención basándose en la keyword y el contenido de las URLs posicionadas
  • Mapeo del customer journey: identificar en qué fase del funnel está cada keyword (awareness, consideration, decision)

5. Aplicación a otros sectores verticales

La metodología se puede replicar en:

  • Inmobiliario: portales de venta/alquiler (Idealista, Fotocasa, Habitaclia…)
  • Viajes: OTAs y comparadores (Booking, Kayak, Skyscanner…)
  • Empleo: job boards (InfoJobs, LinkedIn, Indeed…)
  • Finanzas: comparadores de productos financieros
  • Salud: portales de información médica

Cada sector tendría sus propia categoría clave (en inmobiliario podrían ser zonas geográficas, en viajes los destinos, etc.), pero la lógica del CA y clustering se mantiene.

6. Análisis de contenido y factores on-page

Complementar con scraping de las URLs posicionadas para extraer:

  • Longitud de contenido (word count)
  • Uso de keywords en títulos, H1s, meta descriptions
  • Estructura de encabezados
  • Presencia de elementos multimedia
  • Velocidad de carga (Core Web Vitals)

Todas esas variables podrían ser suplementarias a los análisis principales, para tener un contexto mayor.

Conclusiones y reflexión final

Después de semanas de análisis, código y gráficos, las conclusiones principales son:

  1. Optimizar valor, no volumen: 300 keywords bien seleccionadas pueden generar más ingresos que 1.000 genéricas.
  2. Buscar océanos azules con datos: marcas fragmentadas con valor alto y baja competencia son la mayor oportunidad. El método HHI + CPC permite identificarlas cuantitativamente.
  3. Elegir especialización según recursos: la especialización vertical (pocas marcas dominadas) es más rentable con presupuestos pequeños; la especialización horizontal con grandes inversiones.
  4. La paradoja de la calidad: tener muchas keywords en Top 3 no garantiza rentabilidad. km77 posiciona mejor que nadie pero en keywords informativas de bajo CPC.
  5. La eficiencia es independiente de la escala: flexicar con menos keywords es 2,5 veces más eficiente que autoscout24.

El mensaje final es claro: los proyectos SEO en industrias muy competitivas, con ganar visibilidad no basta, hay que convertirla en valor. La estadística multivariante nos puede dar herramientas potentísimas que van más allá del análisis SEO tradicional.

Este marco, como ya he comentado, es replicable: clustering para segmentar competidores, CA para especializar por nichos, IEC para medir eficiencia. Se puede aplicar a cualquier mercado digital: inmobiliario, viajes, empleo…

Cualquier duda o aportación, deja un comentario o contáctame en privado.

¡Gracias por llegar hasta aquí!

Soy MJ Cachón

Consultora SEO desde 2008, directora de la agencia SEO Laika. Volcada en unir el análisis de datos y el SEO estratégico, con business intelligence usando R, Screaming Frog, SISTRIX, Sitebulb y otras fuentes de datos. Mi filosofía: aprender y compartir.

Explorar por temas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *