Taller Flash: ¿es Bot o es Cyborg?

Alguien nos consultó si un grupo de cuentas de Twitter sospechosas eran «bots». Las revisamos a profundidad usando herramientas gratuitas: TweetBeaver, Allegedly y Tableau

La consulta original la hizo Sergio, un tuitero nicaragüense:

Nos pareció una excelente forma de explicar a paso todo lo que hacemos y pensamos para determinar si una cuenta es bot, o solamente lo parece.

Contexto: los Tuiteros de La Patria son usuarios venezolanos que tuitean etiquetas diariamente propuestas por el Ministerio para el Poder Popular para la Comunicación e Información (@Mippcivzla), de forma manual. Reciben pago a través del Sistema Patria y sus cuentas de Twitter estaban hasta principios de 2021, sincronizadas con dicho sistema. Pueden leer más información aquí.

Arriba: la portada del artículo donde explicamos qué era la red Tuiteros de la Patria (y básicamente, cómo funciona la red). Abajo: Tuiteros de la Patria hablando en un grupo abierto de Telegram, sobre lo que hacen

Considerando lo anterior, no tiene sentido que publiquen tweets sin esas etiquetas específicas: si quieren ganar sus «logros» semanales, deben acumular una cuota de tweets con las etiquetas propuestas diariamente por el MIPPCI.

Es una operación que viola la política en contra de manipulación de plataforma de Twitter. El tweet que citó Sergio en su consulta, no tenía ninguna de las 2 etiquetas del 1° de noviembre de 2021 del @Mippcivzla : #CooperaciónCPI ni #NavidadEsReconciliación.

Lo que tenía el tweet citado por Sergio era un montón de cuentas aparentemente falsas que lo habían retuiteado. Con 18 retweets y solamente 2 «me gusta», algo muy anómalo (lo normal es alrededor de 1 retweet por cada «me gusta»)

Revisamos el contenido de las cuentas y publicaban principalmente contenido con las etiquetas del @Mippcivzla.

Pero, ¿por qué le hicieron retweet a ese tweet si NO tenía ninguna de estas etiquetas? ¿Acaso son cuentas automatizadas? ¿O están programadas para retuitear contenido sobre las elecciones en Nicaragua?

Lo primero que hicimos fue revisar diagramas de publicación de tweets en Allegedly, para determinar qué tan similares eran las horas de publicación de tweets y las apps usadas por las cuentas. Si las cuentas están sincronizadas o relacionadas, deben tener diagramas similares.

Diagramas de publicación de tweets de 8 de las cuentas sospechosas, extraidos con Allegedly

En 17 de los 18 retweets, observamos coincidencias en horas de publicación de tweets.

En algunos casos hay divergencias con respecto al app usado.

Varían entre Twitter para Android (típico de los Tuiteros de la Patria) y el cliente web de Twitter.

Revisamos 4 cuentas más, pero en vez de seleccionar «tweet source» (la aplicación, o «app» usada), elegimos «tweet type» (tipo de tweet) y vemos que el 100% de los tweets que publicaron estas cuentas son retweets:

La única razón de existir de estas cuentas, es hacer retweets. Pero, ¿están automatizadas o no?

Pensamos: quizás esta sub-red ha dejado de usar Twitter para Android, debido a la caída del app Twitter Patria (a través de la que hacían los conteos de tweets de los Tuiteros de la Patria), porque ya las cuentas no están sincronizados con el Sistema Patria. ¿Acaso ahora están haciendo conteos manualmente?.

Como la escala del diagrama que entrega Allegedly es de apreciación limitada (cada punto son tweets publicados por hora y no se aprecian minutos o segundos), ¡tenemos que hacer zoom!.

Es necesario descargar data cruda, que tenga la fecha de publicación de los tweets, para ver exactamente en cuáles momentos tuitearon cada una de las cuentas y observar el comportamiento, segundo a segundo. Con TweetBeaver descargamos el timeline, una a una, de las 17 cuentas:

Descargar los timelines de cada una de las cuentas sospechosas, una a una: «download a user’s timeline», luego pegar el nombre de usuario. Enviar. Luego «download as CSV» y esperar a que se descargue. Al finalizar una, pasar con la siguiente cuenta

Arrastra cada uno de los archivos a una ventana del bloc de notas de Windows y pega uno a uno todos los timelines descargados (no repitas los encabezados). También puedes usar CSVED u otros editores similares, pero considera que a veces, los archivos descargados de TweetBeaver pueden venir con errores y saltos de columnas. Guardar el nuevo archivo compilado con extensión *.csv

Así compilamos todos los timelines descargados en un solo archivo *.csv

Importa el archivo *.csv compilado en EXCEL. Selecciona: Datos/Obtener datos/De un archivo/de texto-csv/ Seleccionar el archivo compilado. Cargar.

Formateemos la fecha para exportar a Tableau: Sustituir «+0000 2021» por -vacío- Sustituir «Mon » y todos los días de la semana (en inglés) por -vacío-

Así formateamos la fecha, para que pueda ser legible en Tableau. Si alguien tiene una mejor técnica, que nos comente

Sustituir «Nov » por «2021-11-«

Sustituir «Oct » por «2021-10-«. Repetir si hay más meses.

Luego guardar como e importar a Tableau. El campo de fecha debe estar como «fecha y hora», no como ABC.

Cargamos y comenzamos a jugar.

Todo lo anterior se hace para crear y limpiar en Excel un archivo *.csv bien formateado y luego importarlo en Tableau sin problemas. Recuerda que en Tableau la fecha no puede quedar en ABC sino en formato de fecha.

Graficamos fecha (eje X) vs. nombre de usuario (eje Y).

Vemos una distribución muy homogénea de publicación de tweets. Parecen bots, pero hay que hacer zoom.

¡Nótese lo difícil que es concluir si son bots o no!

Parece una matriz de puntos casi robótica, pero cada punto representa a todos los tweets publicados en una hora. ¿Y si hacemos zoom para ver qué pasa minuto a minuto?

Hagamos zoom a la publicación de tweets el 4 de octubre 2021, entre 18 y 19 H GMT+000. Aquí si vemos ráfagas dispersas de tweets, que si ordenamos alfabéticamente por username no tienen sentido:

Ráfagas de tweets desorganizadas (Tableau)

Pero SÍ toman sentido si se organizan no de forma alfabética, sino en cascada, por periodos de uso (se debe hacer manualmente, arrastrando los usernames). De esta forma, parecen cuentas relacionadas y pareciera que su operador (u operadores), pasaran de usar una a otra, en serie.

Disposición en cascada de las ráfagas de tweets publicadas por las cuentas de la subred. Para organizarlas de esta forma, hay que mover uno a uno los nombres de usuario de la izquierda
  • Cada ráfaga de tweets está compuesta por aproximadamente 150 retweets.
  • Al terminar una ráfaga, el usuario pasa a otra cuenta y continua haciendo otra ráfaga de 150 retweets aproximadamente

Hay momentos en que los que las ráfagas se solapan. Pero si les aplicamos colores a los tweets de acuerdo a la aplicación que las cuentas usan para tuitear, se ve más claramente la forma en la que estaban tuiteando.

Son 2 operadores distintos: uno hace ráfagas de retweets con el cliente de Twitter para Android (desde un celular) y otro lo hace desde un browser, con Twitter Web:

Los tweets en naranja los publica alguien desde Twitter Web App (desde una computadora) y los que están en azul, alguien desde el cliente de Twitter para Android (desde un celular)

En otros momentos del timeline, uno de los operadores usó el Twitter Web App con más cuentas, y alrededor de las 10 PM (2:08 AM +GMT000), otro comenzó a tuitear desde Android.

Siempre ráfagas de entre 80 y 150 tweets:

Esta es la misma gráfica anterior, pero el 19 de octubre. Parece que el operador «naranja» estuvo trabajando un rato largo y un poco después de las 02:00 comenzó a trabajar el operador «azul»

La pregunta del millón: ¿por qué estos usuarios retuitearon contenido Nicaragüense en vez de retuitear solamente etiquetas propuestas por el @Mippcivzla?

Pues también retuitearon otros tuits, no relacionados, algunos con las palabras «Etiqueta» y «Día«.

¿Bot o no?

Algunos tweets no relacionados con los Tuiteros de la Patria, que contenían las palabras «etiqueta» y «día». El de arriba a la derecha, que está en japonés, no tiene ninguna etiqueta en español. ¿Lo retuitearon de forma aleatoria?

Los tweets están generalmente publicados en intervalos regulares en cada ráfaga, distanciados de 3 a 5 segundos, pero el distanciamiento no es homogéneo, no es robótico.

Es similar al ritmo de publicación de Tuiteros de La Patria, que lo hacen así para evitar suspensiones:

Hora/minuto/segundo de publicación de tweets de 4 usuarios de la red (Tableau)

Conclusión:

Probablemente sean cuentas híbridas, cyborg, operadas por un par de personas, pero que no estén automatizadas.

Por ello, preferimos mejor no hablar de bots en este caso, porque aparentemente no están automatizadas. Si decimos que son «bots», la mayoría de los investigadores suponen que tenemos pruebas de automatización, cuando lo que vimos fue todo lo contrario.

Entonces, lo más adecuado es referirse a ellas como «cuentas con comportamiento similar a bot«, bastante similares a los cyborgs Tuiteros de la Patria venezolanos, pero con características diferentes.

Podría ser la primera mini-red «Post-Tuiteros de la Patria» que vemos.


Comparte y ayuda a combatir la desinformación