Xpath es un lenguaje que, mediante la construcción de expresiones, puede recorrer documentos tipo XML. Con esto, se pueden llevar a cabo análisis muy interesantes de documentos de este tipo.
Sobre XML, podemos decir, que es un lenguaje de etiquetado similar a HTML, capaz de mostrar cómo se estructura una página, o cómo debería. La principal diferencia con HTML es que tiene un objetivo más de distribución y almacenamiento de información, hasta el punto de no mostrar dichos datos.
Dicho esto, ahora vamos a pararnos a ver qué utilidades podemos aprovechar de ambas, si nos las llevamos a un documento de Google Docs. Antes de continuar, indicar un par de recursos imprescindibles para ahondar en este tema.
Y a continuación de leer y poner en práctica lo que cuentan en Distilled y Seo Gadget, aquí dejo un ejemplo interesante para seguir usuarios o hashtags de twitter relevantes
Monitorizar un hashtag de Twitter
Lo primero es irnos al buscador avanzado de twitter y buscar el hashtag que queramos analizar. Yo voy a usar para el ejemplo #aloloco
=importFeed("http://search.twitter.com/search.atom?q=+%23aloloco")
En cuanto demos al enter, se rellenan automáticamente filas y columnas con la información hasta “User Twitter”.
Aquí viene un matiz, ya que “User” se muestra con formato “user twitter (nombre)”, con lo cual, necesitamos obtener únicamente el user de twitter, sin el nombre entre paréntesis, para usar ese dato en la obtención de las columnas extras.
Para ello, debemos adentrarnos en el código fuente de twitter y ver cómo extraer la información que queremos. En este caso, los datos de seguidos y seguidores, llevan un id, que es el que vamos a rastrear. Con Klout, pasa lo mismo, es necesario hacer un pequeño análisis de la estructura de su código, para ver qué se puede extraer.
[Nota: las extensiones Firebug o Web Developer, pueden ser muy útiles para explorar código fuente]
De esta forma, una vez tengamos estos detalles resueltos, justo debajo de la columna de “Following”, vamos a escribir una fórmula un poco más complicada, que nos permita extraer la cifra de Following de estos usuarios:
=importxml(“https://twitter.com/”&F2&””; “//span[@id=’following_count’]”)
F2 corresponde a la columna "User Twitter", a la que hemos eliminado el paréntesis con el nombre, ya que si no hacemos esto previamente, no vamos a poder extraer información para la url http://twitter.com/usuario/(nombre-usuario).
Y hecho esto, ahora podemos hacer lo mismo con la columna "Follower", en la que mantenemos la fórmula, con un pequeño cambio, del id:
=importxml("https://twitter.com/"&F2&""; "//span[@id='follower_count']")
Con ambos datos seleccionados, podemos arrastrar las fórmulas hasta el final de ambas columnas para tener toda la información al completo.
El último paso es incluir la cifra de Klout, que se puede extraer con:
=importXML(“http://beta.klout.com/”&F2;”//div[@class=”]”)
Ahora ya tenemos un panel básico con el que monitorizar un hashtag, con los usuarios supuestamente más “relevantes”, y otra información que podría incluirse. Lo mejor de todo es que cada vez que entremos a este Google Docs, la información se actualiza automáticamente (respetando los límites de 50 funciones por documento).
Trabajar con Google Docs, realizando extracciones de datos externos, tiene un límite de 50 funciones, con lo cual, esto es útil para ciertos casos, pero lógicamente no sería la solución idónea para monitorizar grandes cantidades de información.
Google Docs ofrece ayuda y artículos explicativos para trabajar con las distintas formas de exportar datos, con lo cual, por falta de recursos no será :D
Y un regalo para los que lean hasta el final: Lista de Querys Xpath para SEO
Soy MJ Cachón
Consultora SEO desde 2008, directora de la agencia SEO Laika. Volcada en unir el análisis de datos y el SEO estratégico, con business intelligence usando R, Screaming Frog, SISTRIX, Sitebulb y otras fuentes de datos. Mi filosofía: aprender y compartir.