¿Cómo funciona el tuitómetro?

La idea de lanzar esta página web parte de nuestro interés en examinar los límites y posibilidades de Twitter como fuente de datos sobre el estado de la opinión pública. Este interés yace principalmente en tres dimensiones: el “ruido” o discusión que genera cada uno de los partidos en Twitter, el tono de los mensajes en esta conversación, y las relaciones entre usuarios que los emiten y reciben.

¿Cuántos tweets hacen referencia a los partidos o candidatos? ¿Son mensajes positivos, negativos o neutros? ¿Qué usuarios generan los mensajes más influyentes? ¿Son los partidos quienes difunden sus temas de campaña y dominan la conversación? ¿O, por el contrario, son usuarios anónimos los que generan la agenda pública en Twitter? Este tipo de preguntas son las que pretendemos responder con nuestra investigación, que aún está en su fase inicial, y que va más allá de esta página web, en la que únicamente presentamos una primera aproximación a nuestros resultados. En esta entrada explicaremos con algo más de detalle el significado e interés de cada uno de nuestros gráficos, y la metodología que seguimos para calcular nuestros resultados.

Nuestra primera de variable de análisis es el número de tweets que mencionan cada uno de los dos mayores partidos (PP y PSOE) y sus respectivos candidatos (Rajoy y Rubalcaba), ya sea por su nombre o por su nombre de usuario en Twitter (@PPopular, @PSOE, @marianorajoy, @ConRubalcaba). Para conseguir este dato, utilizamos el paquete twitteR en R. Mediante el uso de un equipo conectado permanente a internet, descargamos todos los tweets públicos que entran en el anterior criterio y los almacenamos. Se trata, como podemos comprobar si observamos los ejes de ordenadas en los gráficos, de una cantidad muy elevada de información (hasta el momento, más de 450.000 tweets). Utilizando estos datos, generamos los gráficos relativos al número de tweets por día (a medianoche), y por hora (cada hora, pasados cinco minutos sobre la hora en punto).

En los comentarios y a través de Twitter, se nos ha preguntado por qué no incluimos otros partidos. Dos motivos justifican esta ausencia. En primer lugar, considerar a IU, UPyD, Equo, CiU, ERC, PNV… supondría incrementar exponencialmente el tamaño de nuestra base de datos. Por otra parte, nos hemos encontrado con la dificultad que supone el discriminar aquellos tweets que utilizan las siglas del partido, pero para referirse a otro tema completamente diferente. Una sencilla búsqueda en Twitter de las letras “IU” nos arroja estos resultados, por ejemplo. Esto también resulta un problema en el caso del PP. Hemos implementado un sistema de filtrado manual, por idioma y por otras cadenas de caracteres que aparecen frecuentemente junto a las siglas, pero es posible que los resultados para este partido estén ligeramente sobrerrepresentados. Esta es una de las cuestiones en que seguimos trabajando.

La segunda dimensión de estudio es la relativa al contenido de estos mensajes. Como comentábamos en la entrada anterior, conseguir el número de tweets que hacen referencia a una determinada palabra es relativamente sencillo. Los trending topics nos permiten también hacernos una idea de las cuestiones políticas más discutidas en Twitter, cuando alguno de ellos se refiere a ellas. Sin embargo, lo interesante y, hasta ahora, inexplorado, es el tono mayoritario de estos tweets. Nuestra hipótesis es que el efecto real (si existe) de la discusión en Twitter será resultado de la interacción entre el número de mensajes y su tono mayoritario. De igual manera, analizar el tono de los mensajes para un determinado día nos permite estimar la respuesta a los eventos políticos que están teniendo lugar en ese momento.

¿Cómo funciona el algoritmo que utilizamos para calcular el tono de los mensajes? El proceso tiene tres pasos. En primer lugar, descargamos el texto de cada tweet, eliminamos la puntuación y lo dividimos en palabras. En segundo lugar, calculamos el número de palabras de dicho mensaje que constan en un diccionario de palabras positivas y en otro de palabras negativas. Estos diccionarios han sido elaborados manualmente, inspirándonos en algunos de los ya existentes en inglés, adaptándolos a los giros y expresiones españolas, e incluyendo términos que hacen referencia directa a la jerga política. Estos últimos días hemos trabajado intensamente en mejorarlos, hasta superar las 6.500 palabras, lo cual dota de mayor robustez a nuestro análisis. El tercer paso es restar el número de palabras positivas al número de palabras negativas de cada tweet para obtener una puntuación. Un tweet será clasificado como positivo si esta puntuación es 1 o superior, y como negativo si es -1 o inferior. El resto son clasificados como neutrales o no afectivos. Los gráficos que hemos titulado “Valoración media por día” reflejan simplemente la proporción de tweets positivos sobre el total de tweets con carga afectiva, por día y término mencionado en cada tweet.

Para entender mejor este método, a continuación ofrecemos varios tweets anónimos con su respectiva clasificación:

@conRubalcaba el #socialismo intransigente que ha practicado #Zapatero es parecido al nacional socialismo del  Führer @PSOE (Puntuación: PSOE y Rubalcaba, -2, tweet negativo)

En unos minutos, Rubalcaba estará en Telecinco, entrevistado por Ana Rosa Quintana. No os lo perdáis! ;) #RubalcabaSI (Puntuación: Rubalcaba, +1, tweet positivo)

Otra buena iniciativa del gobierno d @patxilopez:servicio vasco del emprendedor xra ayudar a la creación de empresas y empleo @conRubalcaba (Puntuación: Rubalcaba, +2, tweet positivo)

Blanco dice que el impuesto de Patrimonio afectará a 90.000 personas y Rubalcaba que afectará a 200.000 ó 300.000. Mal empezamos. (Puntuación: Rubalcaba, -1, tweet negativo)

@PSOE propone medidas contra clientes de prostitución http://ow.ly/6DGnm Pero no expulsa a Curbelo el putero http://ow.ly/6DGpF #nolesvotes (Puntuación: PSOE, -2, tweet negativo)

Es triste que las encuestas apunten a una mayoría del PP.Recordemos la frase “Eres más tonto que un obrero de derechas” #yodecidoynoelPP (Puntuación: PP, -2, tweet negativo)

#Rajoy no quiere aclarar su programa de gobierno, para no perder los votos. Yo a eso lo llamo cobardía y engaño  #Rajoynosabenocontesta (Puntuación: Rajoy, -1, tweet negativo)

En estos ejemplos, parece claro que nuestro sistema de clasificación funciona de manera adecuada. Sin embargo, nos hemos encontrado con tres dificultades, que esperamos poder solucionar pronto. En primer lugar, es difícil capturar el tono real de aquellos tweets con mensajes irónicos, dobles sentidos o juegos de palabras. Además, nuestro diccionario incluye únicamente palabras, no expresiones compuestas. Finalmente, a la hora de calcular las valoraciones media por día, cada retweet es contabilizado como un mensaje adicional. Sin embargo, es debatible que un usuario, al hacer un retweet, esté indicando que está de acuerdo con el contenido de ese mensaje. Pese a estas tres dificultades, creemos que este sistema captura adecuadamente las tendencias de estabilidad y cambio en el tono de los mensajes ya que, incluso aunque exista algún sesgo en la estimación de las valoraciones, éste debería ser constante a lo largo del tiempo.

La última dimensión de análisis es la dirección en qué se difunden los mensajes: ¿son los partidos y candidatos los que lideran la discusión, desde sus cuentas oficiales? ¿O, por el contrario, son los usuarios “de a pie” los que juegan el paper principal en ella? En un contexto en que los ciudadanos pasan cada vez una mayor proporción de su tiempo en las redes sociales, ¿qué partido es más exitoso a la hora de difundir sus lemas de campaña a través de ellas? Una primera aproximación, algo tosca, a esta cuestión es medir el número de retweets de las cuentas oficiales de cada partido y candidato. Esto nos permite tener una idea del número de personas a que estos tweets llegan de manera directa, sin ser modificados por los usuarios. Sin embargo, de nuevo esto no implica que la recepción de estos mensajes sea positiva.

En las próximas semanas seguiremos trabajando en este proyecto, intentando mejorar nuestra metodología y ofreciendo algún otro gráfico más que pueda resultar interesante, junto a una interpretación en clave política de los primeros resultados que estamos obteniendo. Cualquier comentario, crítica o sugerencia es, por supuesto, más que bienvenida.

3 comentarios en ¿Cómo funciona el tuitómetro?

  • anónimo

    “Límites y posibilidades de Twitter como fuente de datos sobre el estado de la opinión pública.”. Me parece una buena idea. Pero la realidad sale de las urnas, se pueden hacer encuestas y estudios, pero lo que se opina de los políticos, el ciudadano se refleja solo en las urnas. ¿Cuántos españoles usan Twitter?, ¿cuántos tienen la posibilidad de tener internet?, ¿cuántos leen o responden mensajes de usuarios políticos?. No se demuestra que tenga ningún valor como método para medir el estado de la opinión pública. Igual los aliento a seguir, no ya como una fuente de datos sobre el estado de la opinión pública, sino de un pequeño sector social -créame que no debe llegar ni al 10%- con características propias -acceso a internet, usuario de Twitter, interesado en temas políticos, etc- Debieran definir el campo sobre el que están trabajando.

  • anónimo

    Como idea me parece muy buena, pero deben enfocarse en el campo sobre el que trabajan. Pero sin dudas es excelente. Sigan.

  • Lidia Valera Ordaz

    Hola,

    Estoy haciendo la tesis sobre esta campaña de noviembre de 2011, especialmente sobre cibercampaña, tratando de ofrecer una panorámica de las iniciativas de los partidos en torno a webs, blogs y redes sociales. Además, pertenezco a un grupo de investigación dirigido por Víctor Sampedro sobre estos mismo asuntos. Me parece muy interesante lo que estáis haciendo.
    A mí me interesa sobre todo observar el tipo de espacio público que se genera en Internet. Supongo que tendréis muchísimo trabajo con ese volument de corpus a analizar diariamente. Sólo quería daros la enhorabuena. Me gustaría saber dónde puedo encontrar vuestro trabajo publicado una vez lo hayáis terminado. Muchas gracias y un saludo

    Lidia Valera