¿Un tweet, un voto?

Este viernes 6 de julio presentaremos en el I Congreso Internacional en Comunicación Política y Estrategias de Campaña parte de la investigación que estamos realizando gracias a los datos del tuitómetro. En concreto, en nuestra ponencia examinamos hasta qué punto la discusión política en Twitter puede ser considerada como representativa de las tendencias en la opinión pública a nivel agregado. Nuestros resultados van en la línea de las intuiciones que hemos expuesto anteriormente en este blog. Por ejemplo, encontramos que los participantes en esta discusión son en su mayoría hombres, residentes en zonas urbanas y con unas preferencias ideológicas intensas. Esto hace que el debate en Twitter tienda a estar más polarizado que el que tiene lugar “offline”.

El texto completo de nuestro artículo está disponible aquí. Éste es el abstract:

Twitter ofrece una oportunidad excepcional para el análisis de la opinión pública: los mensajes que intercambian los usuarios pueden contener información valiosa acerca de sus preferencias y su reacción a los mensajes y eventos políticos en un entorno que es accesible para el investigador. Sin embargo, la validez de las generalizaciones que hagamos al resto de la sociedad está condicionada a la superación de las barreras que limitan la representatividad del debate en esta plataforma. En esta investigación, intentamos dar un paso en esa dirección. Usando una base de datos única con cerca de 3 millones de tweets recogidos durante más de 2 meses, este artículo reconstruye y analiza la estructura y contenido de la discusión política en Twitter alrededor de las elecciones legislativas de 2011 en España. Nuestros resultados muestran la profunda desigualdad existente en la conversación política que tiene lugar a través de esta plataforma.

Como siempre, todos los comentarios o sugerencias serán bienvenidos.

Seguimiento del debate Rubalcaba-Rajoy

Esta noche estaremos realizando desde esta página un seguimiento del debate entre Rubalcaba y Rajoy. Si la API de Twitter nos lo permite, ofreceremos datos sobre el número de tweets que mencionen a cada uno de los dos candidatos durante el debate, el número de retweets de los mensajes que los equipos de los candidatos vayan lanzando desde sus cuentas oficiales y, lo más importante, la evolución de la valoración media de los candidatos en Twitter, aplicando nuestro algoritmo de clasificación afectiva.

Mostraremos todos estos datos en intervalos de uno y cinco minutos, siguiendo un formato similar al de nuestros otros gráficos. Todos ellos estarán disponibles en la página www.tuitometro.es/debate, que ira recargándose de manera automática cada 5 minutos.

Como curiosidad, bajo estas líneas ofrecemos uno de los gráficos que preparamos anoche, a modo de prueba, coincidiendo con la emisión del programa Salvados por la Campaña, de la Sexta. Es interesante observar cómo, durante el programa, Rajoy genera mucha más discusión en Twitter que Rubalcaba, con picos de más de 500 menciones por minuto. Las significativas oscilaciones que encontramos, por cierto, no tienen nada que ver con el nivel de discusión, sino son sencillamente un reflejo de aquellos momentos en que Twitter (o la API que utilizamos para descargar los datos) se saturan. Este es otro ejemplo de por qué el estudio de estos datos hasta un nivel de desagregación tan elevado no tiene demasiado sentido más allá de eventos especiales, como este programa de televisión o el debate de esta noche.

Un tweet por dentro

Como ilustración del tipo de información que podemos usar en el tuitómetro, os mostramos el aspecto de un tweet típico, tal y como es recuperado por el módulo twitter en Python:

{"created_at": "Sat Nov 05 20:39:06 +0000 2011",
 "favorited": false,
 "id": 132919890851012608,
 "retweet_count": 4,
 "retweeted": false,
 "source": "Twitter for Mac",
 "text": "Raro, raro "@tuitometro_es: ¿Y esos 5000 tweets mencionando a Rajoy a las 3 de la madrugada? http://t.co/pbC3LzS7" | @publico_es",
 "truncated": false,
 "user": {"created_at": "Sat Jun 26 13:53:12 +0000 2010",
          "description": "PhD Candidate (Political Science) @ New York University",
          "favourites_count": 1,
          "followers_count": 365,
          "friends_count": 97,
          "id": 159849348,
          "lang": "en",
          "listed_count": 29,
          "location": "New York",
          "name": "Gonzalo Rivero",
          "protected": true,
          "screen_name": "griverorz",
          "statuses_count": 5023,
          "time_zone": "Madrid",
          "url": "https://files.nyu.edu/gr700/public/",
          "utc_offset": 3600}}

Desigualdad en la participación

Los gráficos que usamos en esta página muestran el número tweets que mencionan a cada partido o candidato. No obstante, es razonable pensar que esta es una medida que refleja muy parcialmente el grado en el que existe un debate político en Internet. Al fin y al cabo, los mensajes que puede enviar un usuario en Twitter no se ven limitados por nada más que por las muy holgadas condiciones que impone la página web. Por tanto, podría darse un escenario en el que existiesen participantes muy motivados que estuviesen inundando el canal de comunicación, sin que eso tenga una traducción en una discusión activa. Esto es, más menciones no tienen por qué reflejar una mayor popularidad de un candidato o partido. Esta es la idea que exploramos en esta entrada.

En el siguiente gráfico, se muestra la contribución de cada usuario a la conversación y refleja el número de usuarios (en logaritmo) que han generado un determinado número de tweets (en logaritmo, también) en el que se mencione bien a Rajoy, bien a Rubalcaba. Por ejemplo, en la esquina inferior derecha, se muestra que en la base hay muchos usuarios (e elevado a cerca de 11) que han enviado un único mensaje (e elevado a 0, que es igual a 1) mencionando a alguno de los dos candidatos. Los puntos de la esquina superior izquierda representan a los participantes más activos, con más de 148 mensajes cada uno en este mes y medio. Lo que este gráfico refleja es, pues, que existe una larga cola de participantes que han hecho menos de diez menciones (110.982, que son un 90% del total), mientras que hay un pequeño núcleo hiperactivo que supera los 1000 tweets cada uno (9 usuarios, que suponen el 0.0001% del total). Visto de otro modo, entre el 10 de septiembre y el 3 de noviembre, un 0.1% de los usuarios ha generado el 10% de todos los tweets que hemos recopilado. Esta es, a nuestro juicio, la indicación más clara de que la cantidad de tweets es una medida pobre para acercarse a la actividad y participación de la discusión.

Más interesante todavía es el comportamiento de esta desigualdad a lo largo del tiempo cuando dividimos la base de datos entre los dos principales candidatos. En el segundo gráfico, usamos una medida resumen de desigualdad, el coeficiente Gini, para comprobar en qué grado la producción de mensajes está concentrada a lo largo de la ventana de observación. Mayores valores en este índice son una señal de que los tweets son generados por pocos usuarios o, dicho de otro modo, de que pocos usuarios concentran un gran porcentaje de los mensajes que hemos capturado –en el caso extremo de que el índice tomase el valor 1, toda la base de datos habría sido generada por un único usuario. Tal y como puede verse, los tweets que mencionan a Rajoy están menos homogéneamente distribuidos (están más concentrados) entre los usuarios que los que mencionan a Rubalcaba. El que esta observación se repita consistentemente durante la casi totalidad de los 42 días que hemos analizado señala con claridad que no se trata de un accidente fruto del azar: los usuarios que hablan de Rajoy están más concentrados que los que hablan de Rubalcaba, lo cual es una forma de decir que la comunidad que menciona al candidato del PP es más activa que la que habla del candidato del PSOE. Es interesante comprobar que durante eventos anómalos, como las respectivas conferencias políticas de PP (cerrada el 8 de octubre) y PSOE (cerrada el 2 de octubre), observamos una democratización del mensaje, con significativas caídas en el grado de desigualdad de las menciones.

¿Cantidad o calidad?

El diario Público presentó ayer, en su página web, una nueva herramienta para seguir la evolución del número de tweets que mencionan a cada uno de los partidos y candidatos que concurren en las elecciones del 20N. Estos gráficos interactivos permiten conocer prácticamente al segundo qué formación política está recibiendo una mayor atención en Twitter.

Aplaudimos esta iniciativa, ya que creemos que extender el análisis que nosotros llevamos realizando desde hace más de un mes al resto de formaciones políticas es necesario. Este tipo de gráficos nos permitirá tener una visión más amplia de cuáles son los partidos y candidatos que consiguen generar un mayor nivel de discusión en las redes sociales. Sin embargo, los datos que Público ofrece también son un ejemplo de las complejidades que presenta el estudio de datos provenientes de Twitter.

Por ejemplo, una dificultad importante a superar es ser capaz de clasificar, de entre los millones de tweets que se publican diariamente en español, cuántos hacen referencia a cada partido o candidato. Se trata de un verdadero reto por dos motivos. En primer lugar, los nombres de los partidos son ambiguos. No hay más que hacer una búsqueda en Twitter de los términos pp, iu o antigüedad (como, por ejemplo, hace Público para preparar sus gráficos) para darse cuenta que los datos que ofrece el periódico sobre estos tres partidos están claramente sobreestimados, limitando la validez de cualquier comparación entre partidos. Esto explica que el PP doble en tweets al PSOE, o que Amaiur obtenga casi 10 veces más tweets que PNV, ambos resultados claramente sospechosos.

Nuestra decisión de guardar el texto completo de cada tweet nos ha permitido esquivar este problema mediante la implementación de filtro. De esta manera, limitamos la clasificación errónea de mensajes de contenido no político, y aseguramos que nuestra estimación del número de tweets sea más realista. En nuestros resultados, comprobamos que el PP generalmente supera en menciones al PSOE, aunque la magnitud de esta diferencia es mucho menor. De igual manera, al diferenciar entre partido y candidato, nuestros gráficos permiten diferenciar hasta qué punto es uno u otro quien genera conversación en Twitter. Además, que los apellidos de los dos candidatos sean poco comunes refuerza nuestra confianza en que nuestra clasificación es válida.

Una cuestión diferente es el interés práctico de una comparación cruda en el número de menciones. En Twitter, como cualquier usuario sabe, no es lo mismo cantidad que calidad. El número de tweets sobre un tema y las preferencias públicas son variables que no siempre están asociadas . Es precisamente esta idea la que nos llevó en un origen a intentar analizar el contenido de los mensajes.

Además, como analizamos en nuestra próxima entrada, los usuarios de Twitter de cada partido tienen un comportamiento muy diferenciado. De hecho, encontramos que, partiendo de la misma base de usuarios para PP y PSOE, los populares obtienen un mayor número de menciones sencillamente porque la media de mensajes que hacen referencia a ellos es superior. En conclusión, no es posible distinguir si un mayor número de menciones equivale a una mayor “popularidad” de un determinado partido o candidato, o sencillamente que sus bases están mucho más movilizadas y organizadas en Twitter.

En cualquier caso, de nuevo damos la bienvenida a esta herramienta que, con sus virtudes y defectos, complementa el análisis que nosotros llevamos realizando ya varias semanas, y que nos permitirá seguir la campaña desde una nueva perspectiva. Es difícil determinar si Twitter cambiará o no la manera en que se entiende y se practica la política. Pero sin duda se trata de una excelente – y aún muy inexplorada – fuente de datos sobre opinión pública.

¿A qué hora se habla de política en Twitter?

En los 40 días que llevamos recopilando información acerca del debate político en Twitter, hemos capturado 639.570 tweets que mencionan a Rajoy o a Rubalcaba. Usando esta información como punto de partida, podemos empezar a extraer inferencias sobre el comportamiento de los usuarios. Hoy empezamos el análisis de la base de datos con una descripción muy breve de la dinámica diaria del debate político en Twitter. En particular, la siguiente figura muestra la distribución por hora de los mensajes. Cada punto representa una observación, mientras que la linea roja une la mediana de la distribución por día. Para facilitar su lectura, hemos recortado de la base de datos los pocos casos que superan los 1.000 tweets por hora (un 2% del total).

Dos cosas llaman la atención en el gráfico anterior. La primera, el enorme grado de dispersión: dejando de lado aquellos días en los que eventos extraordinarios empujaron el debate hasta alcanzar los 3600 tweets, encontramos variaciones de casi 300 tweets por hora con respecto al día típico representado en rojo. La segunda, que encontramos un mayor uso (en mediana) a mediodía, entre las 12 y las 14 horas, con cerca de 400 tweets. La frecuencia de mensajes cae suavemente a lo largo de la tarde, hasta llegar a unos 200 tweets a medianoche. Resulta interesante comprobar que siguen apareciendo con cierta regularidad tweets que mencionan a alguno de los dos candidatos hasta las dos de la madrugada.

Sin embargo, este comportamiento oculta una cierta variación según el día de la semana, si bien aún no tenemos suficientes observaciones como para apuntar regularidades con fiabilidad. Una de las tendencias más interesantes es la pequeña punta que asoma los jueves entre las ocho y las nueve de la tarde, cuya interpretación se nos escapa. En todo caso, sí parece que, independientemente del día, el debate se anima a lo largo de la mañana y se sostiene durante la tarde, tal y como hemos visto antes.

La única excepción son los fines de semana: en un sábado o domingo típico, el debate repunta un par de horas más tarde pero, cuando lo hace, alrededor de la 1 del mediodía, supera los 400 tweets por hora. Este efecto se distingue más claramente si distinguimos entre días festivos y laborales, como en el gráfico bajo estas líneas. Creemos que este incremento puede deberse al efecto de los actos de (pre)campaña de los candidatos, que normalmente se celebran a esta hora. Destaca también el notable descenso en el número de tweets durante las noches de los días festivos.

¿Cómo funciona el tuitómetro?

La idea de lanzar esta página web parte de nuestro interés en examinar los límites y posibilidades de Twitter como fuente de datos sobre el estado de la opinión pública. Este interés yace principalmente en tres dimensiones: el “ruido” o discusión que genera cada uno de los partidos en Twitter, el tono de los mensajes en esta conversación, y las relaciones entre usuarios que los emiten y reciben.

¿Cuántos tweets hacen referencia a los partidos o candidatos? ¿Son mensajes positivos, negativos o neutros? ¿Qué usuarios generan los mensajes más influyentes? ¿Son los partidos quienes difunden sus temas de campaña y dominan la conversación? ¿O, por el contrario, son usuarios anónimos los que generan la agenda pública en Twitter? Este tipo de preguntas son las que pretendemos responder con nuestra investigación, que aún está en su fase inicial, y que va más allá de esta página web, en la que únicamente presentamos una primera aproximación a nuestros resultados. En esta entrada explicaremos con algo más de detalle el significado e interés de cada uno de nuestros gráficos, y la metodología que seguimos para calcular nuestros resultados.

Continuar leyendo ¿Cómo funciona el tuitómetro?

Bienvenidos a tuitometro.es

Recientemente, Twitter se ha convertido en la herramienta de comunicación en internet por excelencia. En paralelo al incremento en el uso de smartphones y otros dispositivos móviles con acceso a internet, el número de usuarios únicos de esta página web en España se ha disparado hasta superar los tres millones. Empresas, periodistas, políticas, deportistas y otras celebridades comparten espacio en esta red social, interactuando con miles de ciudadanos en una conversación continua sobre todo tipo de temas.

Uno de los ámbitos en que Twitter ha adquirido mayor importancia es el de la política. Nuevos movimientos ciudadanos, como el del 15M, han centrado su actividad organizativa y de promoción en este sitio web, con resultados muy positivos. En la campaña electoral que está a punto de comenzar, los dos candidatos con posibilidades de acceder a la presidencia del gobierno han abierto cuentas en esta red social, en las que se están implicando directamente. Estar en Twitter se ha convertido no en una opción sino en una necesidad para nuestros representantes políticos, independientemente de su color político.

Pero la importancia de Twitter en la campaña electoral consiste no solamente en su labor como herramienta de difusión política, sino las posibilidades que presenta como fórum de discusión pública. Un rápido vistazo a nuestros timelines muestra cómo usuarios de twitter generan importantes discusiones, que en muchos casos pasan al debate público. De igual manera, todas las propuestas de los candidatos son debatidas y analizadas en Twitter. Este continuo intercambio de información, a través de miles y miles de tweets, supone una fuente de información rica y variada sobre la opinión pública española, que ha sido inexplorada hasta el momento en el ámbito de la Ciencia Política.

Esta página web, que forma parte de un proyecto mucho más amplio, quiere representar un primer paso en esta progresiva toma de contacto entre Twitter y el mundo académico. Nuestro objetivo es explorar las posibilidades que presenta el uso de datos provenientes de esta red social en el análisis de las campañas electorales, la opinión pública y el comportamiento político en España. Aunque nuestra intención es realizar la mayor parte de nuestra investigación una vez transcurridas las elecciones generales del 20N, nos gustaría compartir parte de los frutos de nuestro análisis antes de esa fecha, pues consideramos que puede ser del interés de muchos.

¿En qué consiste el tuitómetro?

La mayoría de medidas de influencia política en Twitter han estado basadas hasta el momento en la cantidad de tweets mencionando una palabra clave, ya sea el nombre de un partido, de un candidato o un hashtag. Esta aproximación está basada en la idea de que, a más “ruido” en twitter, mayor será la influencia o importancia. Se centra por tanto en la cantidad de mensajes sobre un tema concreto, ignorando el contenido de estos mensajes, el contexto en que se producen, y su finalidad a la hora de emitirlos.

El principal objetivo de nuestro proyecto es mejorar este método de análisis, ofreciendo una medición basada en esta doble dimensión. Por un lado, ofrecemos gráficos en los que se analiza la evolución en el número de tweets diarios mencionando cada partido o candidato. Este tipo de análisis nos ofrece una visión longitudinal de cuál de los dos partidos ha sido más exitoso a la hora de dominar la agenda pública de cada día. Nuestro objetivo no es ofrecer una imagen representativa de la discusión política en Twitter, sino más bien analizar las tendencias que podamos distinguir a lo largo de la campaña, desde una perspectiva longitudinal.

Estos gráficos se complementan con un resumen del número de retweets diarios de cada una de las cuentas de los dos principales partidos y candidato. Este tipo de análisis nos permite comprobar hasta qué punto los mensajes emitidos por los representantes oficiales de cada formación política son difundidos por sus seguidores.

Sin embargo, la principal parte de nuestra investigación se centra en el estudio del contenido de los tweets. Utilizando una metodología basada en el procesamiento de lenguaje natural, hemos diseñado unos diccionarios de palabras con carga afectiva que nos permiten otorgar una puntuación a cada tweet. A partir de este dato, clasificamos cada uno de ellos en tres posibles categorías: positivos, neutros y negativos. El cálculo de la proporción diaria de tweets positivos respecto a los negativos mencionando cada partido o candidato es una medida del contenido de la discusión política que tiene lugar en Twitter, que denominamos valoración media diaria.

Aunque esta metodología es aún mejorable, los primeros datos que ofrecemos, relativos a los últimos 10 días, nos permiten hacer un primer balance positivo. Por ejemplo, la publicación de la entrevista a Rubalcaba en El País, el pasado domingo 11 de septiembre, se corresponde con un ligero incremento en el número de tweets relativos a este candidato. Por otra parte, la llegada de Rajoy a Twitter el 15 de septiembre disparó el número de tweets que lo mencionaban, con una respuesta marcadamente positiva, que se expandió también a la valoración del PP en conjunto. Este tipo de comparaciones entre la actualidad política y su respuesta en Twitter es complejo, y sin duda requiere un mayor refinamiento, pero pone de manifiesto las enormes posibilidades del análisis de datos de Twitter desde una perspectiva científica.