um estudo preliminar sobre o perfil dos seguidores dos …³rio-bots... · sem pretensões de...
TRANSCRIPT
1
Bots ou não?
Um estudo preliminar sobre o perfil dos seguidores dos pré-candidatos à
Presidência da República no Twitter
Equipe: Lucas Lago e Heloisa Massaro
Colaborou: Francisco Brito Cruz
INTRODUÇÃO
Os robôs, ou, como são conhecidos, os bots, são um tipo específico de programa de
computador que realiza tarefas de forma autônoma, a partir de algoritmos. Eles são
programados para executar uma série de funções, desde facilitar a navegação na internet até
interagir com indivíduos. Ainda que sejam mais conhecidos por terem sido supostamente
usados para influenciar as eleições nos EUA em 2016, eles são, na verdade, bem comuns na
internet e essenciais para o seu funcionamento. De todo o tráfego da internet, 65,1% é
operacionalizado por meio de bots.1 Os crawlers, por exemplo, são os robôs que navegam nos
sites para organizar as informações para buscadores como o Google, enquanto que os
chatbots podem ser usados em diversas plataformas para responder a usuários, fornecer
informações e facilitar atendimentos.
Mais especificamente nas redes sociais, os bots podem ser usados não apenas nos chats, mas
também para automatizar contas e perfis. Essas contas podem deixar claro ao usuário que são
controladas por robôs e serem usadas para promover engajamento político de usuários,2
fornecer informações de interesse público, ou, até mesmo, apenas para fins de entretenimento.
A bot Fátima, por exemplo, da agência Aos Fatos, está presente no Twitter e no Facebook, e
foi elaborada para disseminar a checagem de fatos nas plataformas. Além dela, no Twitter,
contas como o @big_ben_clock, que informa o horário com “badaladas” do sino, e o Ruibarbot,
criado pelo Jota para informar sobre atrasos em processos no judiciário brasileiro, se
apresentam como usuários automatizados e executam tarefas que podem ter um impacto
positivo para os usuários.
Por outro lado, os bots também podem ser usados para automatizar contas e perfis falsos, de
forma não transparente, para que eles se passem por usuários comuns das redes sociais, e
1 Report: Bot traffic is up to 61.5% of all website traffic. Incapsula, 9 de dezembro de 2013. Fonte: <https://www.incapsula.com/blog/bot-traffic-report-2013.html>, acesso em 26 jan 2018. 2 How Twitter Bots Turn Tweeters into Activists. MIT Technology Review, 18 de dezembro de 2015. Disponível em: <https://www.technologyreview.com/s/544851/how-twitter-bots-turn-tweeters-into-activists/>, acesso em 26 jan 2018.
2
inflem a quantidade de seguidores de alguém, por exemplo, ou coloquem um assunto nos
Trending Topics. Com o objetivo de alavancar conteúdos e indivíduos artificialmente, eles
podem ser programados para seguir pessoas, interagir em debates ou publicar e curtir
conteúdos de forma orquestrada. No contexto de disputas político-eleitorais, os bots podem ser
empregados dessa forma para distorcer a dimensão de movimentos políticos, manipular e
radicalizar debates, e criar falsas percepções sobre disputas e consensos nas redes sociais.
Eles podem fazer parecer que determinada figura é mais popular do que de fato é ou, ainda,
serem utilizados para replicar discursos em série, fazendo parecer que há uma enorme adesão
à uma causa quando não há.
No Brasil, é possível diagnosticar o uso de bots em contextos eleitorais desde pelo menos 2011
e há evidências de que eles tenham sido utilizados no Twitter para apoiar candidatos nas
eleições de 2014, durante o processo de impeachment e nas eleições municipais de 2016.3
Estima-se que nas últimas eleições presidenciais eles teriam sido responsáveis por mais de
10% das interações no Twitter.4
Como esses mecanismos inflam artificialmente a audiência, eles são contrários às próprias
políticas das plataformas. No caso do Twitter, a plataforma anunciou mudanças na sua política
com o objetivo de combater esses perfis automatizados.5 As alterações reduziram a
capacidade de uma pessoa ou serviço que controlam diversas contas de realizar spam através
de tweets semelhantes ou de curtidas e retweets em massa.
Quando criados para se passarem por usuários das redes sociais, uma das finalidades dos
bots pode ser a de seguir perfis com o objetivo de inflar o número de seguidores de
determinado indivíduo. No início de 2018, o New York Times elaborou uma reportagem sobre o
mercado de compra de seguidores bots, além de likes e retweets, entre figuras influentes nas
redes sociais.6 Na matéria, o jornal investigou uma companhia suspeita de atuar na venda
desses robôs e analisou o perfil dos seguidores no Twitter dos supostos clientes dessa
empresa. Uma das personalidades identificadas que teve seu perfil analisado foi o chef de
cozinha Michael Symon, que admitiu ter comprado bots por acreditar que isso movimentaria
sua audiência na plataforma.
O objetivo de inflar audiências para aumentar a relevância de um perfil também pode ser
transposto para contextos político-eleitorais. O uso desse mecanismo pode elevar o alcance, a
repercussão, e, até mesmo, a confiabilidade de candidatos, que vêem seu número de
seguidores crescer elevando sua influência nas redes sociais.
3 ARNAUD, Dan. Computational propaganda in Brazil: social bots during elections. University of Oxford
Working Paper, n.8, 2017. Disponível em: http://blogs.oii.ox.ac.uk/politicalbots/wp-content/uploads/sites/89/2017/06/Comprop-Brazil-1.pdf 4 Robôs, redes sociais e política no Brasil: estudo sobre interferências ilegítimas no debate público na
web, riscos à democracia e processo eleitoral de 2018. Coordenação Marco Aurélio Ruediger. – Rio de Janeiro: FGV, DAPP, 2017. 5 https://blog.twitter.com/official/en_us/topics/company/2018/2016-election-update.html https://blog.twitter.com/developer/en_us/topics/tips/2018/automation-and-the-use-of-multiple-accounts.html 6 https://www.nytimes.com/interactive/2018/01/27/technology/social-media-bots.html
3
Com a aproximação das eleições presidenciais de 2018, emergem inquietações sobre o
possível uso desses mecanismos automatizados em processos de desinformação e
manipulação de opiniões. Pela primeira vez a legislação eleitoral vai admitir propaganda
política na internet por meio de impulsionamento. Estas eleições serão provavelmente a
primeira na história na qual a internet, e principalmente as redes sociais, terão um papel
importante na campanha eleitoral.
É nesse contexto que fomos investigar o perfil dos seguidores dos pré-candidatos à presidência
da república no Twitter. Sem pretensões de trazer conclusões sobre compras e usos de bots,
nosso principal objetivo foi verificar se haviam bots seguindo os pré-candidatos e, se sim,
quantos eles seriam. Para isso, desenvolvemos um sistema a partir das APIs7 públicas do
Twitter e do Botometer, que, a partir de uma amostra aleatória dos seguidores de cada um dos
candidatos, permitiu calcular a probabilidade de cada um deles ser bot. Com esse conjunto de
dados elaboramos três tipos de análises: estimamos estatisticamente a quantidade de
prováveis robôs que seguem cada pré-candidato; mapeamos essa rede seguidores bots com
base em quem eles seguem em comum; e, por fim, identificamos a ordem na qual cada conta -
seja ela bot ou não - seguiu determinado pré-candidato e cruzamos essa informação com a
probabilidade de cada uma delas ser totalmente automatizada ou não.
7 APIs (Interface de Programação de Aplicação) é um conjunto de interfaces estabelecidas por um software - como o Twitter e o Botometer - para permitir que outras aplicações utilizem funcionalidades do software sem precisar se envolver completamente com o seu funcionamento.
4
METODOLOGIA
Como já dito, para esse estudo nós utilizamos as APIs públicas do Twitter e do Botometer e
desenvolvemos um sistema capaz de calcular a probabilidade de cada conta de uma amostra
de seguidores de um pré-candidato ser totalmente automatizada ou não. Com esses dados,
primeiro elaboramos cálculos estatísticos para estimar a quantidade de possíveis bots que
seguem cada candidato. Em seguida, a partir do software Gephi, aplicamos o algoritmo de
Modularidade com o objetivo de mapear essa rede de bots com base em quem eles seguem
em comum. Por fim, adaptamos a metodologia utilizada pelo New York Times na reportagem
acima citada para identificar a ordem em que cada conta, seja ela bot ou não, passou a seguir
um pré-candidato no Twitter, e sua respectiva probabilidade de ser bot.
O Botometer
Toda pessoa que utiliza o Twitter provavelmente já cruzou com algum usuário que é um bot.
Essas contas falsas possuem algumas características comuns que podem ser identificadas por
algoritmos especializados em diferenciar usuários humanos de usuários automatizados. Uma
dessas ferramentas é o Botometer, criado pelo “Observatory of Social Media” da Universidade
de Indiana nos Estados Unidos.
O Botometer é um algoritmo de inteligência artificial que calcula a probabilidade de um perfil do
Twitter ser totalmente automatizado, a partir de uma base de dados composta por milhares de
contas no Twitter classificadas como bots ou humanos pelos pesquisadores. O algoritmo utiliza
muitas características diferentes para classificar se um perfil da rede é um bot ou não, mas
algumas delas são fáceis de se imaginar como a frequência de postagem, o tipo de interação, e
as características de seguidores e amigos.
A abordagem específica do Botometer é o uso de um algoritmo chamado de “floresta aleatória”.
Muito usado para classificação de elementos, esse algoritmo precisa de uma base de testes
para ser treinado, e a escolha dessa base é crucial para a qualidade dos resultados da
classificação. Para o seu treinamento, o Botometer utiliza repositórios de contas no twitter
classificadas de diversas formas entre humanos e robôs, que estão disponíveis online8.
Com essas informações, o algoritmo fornece alguns scores para cada perfil, como mostram as
imagens abaixo:
8 https://botometer.iuni.iu.edu/bot-repository/
5
Cada uma desses scores utilizam diferentes aspectos da conta na rede social. O score final do
perfil do InternetLab no Twitter, por exemplo, foi de 0.6, e o score de probabilidade dele ser
considerado um perfil “totalmente automatizado”, o chamado CAP, foi de 0%. Isso faz bastante
sentido, já que o perfil do InternetLab é comandado pela nossa equipe. Por outro lado, o score
do John - um seguidor de um dos membros da nossa equipe identificado como um possível bot
- foi muito mais alto, 4.8 em 5, enquanto seu score de probabilidade de ser um perfil
completamente automatizado, índice CAP, foi 95%.
Por ser um score mais conservador, os desenvolvedores do Botometer recomendam a
utilização do CAP para estimativas sobre um perfil ser ou não um bot. Além disso, sugerem que
seja utilizado o CAP universal, e não o específico para língua inglesa, na hipótese de contas
que não sejam 100% em inglês.
De acordo com um estudo publicado em uma conferência da Association for the Advancement
of Artificial Intelligence (AAAI), a taxa de acerto do Botometer é de 86%.9 A ferramenta possui
uma baixa probabilidade de classificar erroneamente perfis que seriam claramente apontados
como bots ou como usuários reais. Os casos que podem gerar erros da ferramenta são
principalmente aqueles que envolvem perfis dúbios, nos quais as características de bots ou de
humanos não ficam claras. Ainda assim, o fator de confiança médio atinge os 86% citados.
Para essa pesquisa, nós utilizamos o índice CAP - Complete Automation Probability - como
indicador da probabilidade de um perfil ser completamente automatizado. Esse índice já foi
utilizado por diversos estudos para analisar o comportamento de bots na rede social. Os
pesquisadores Pozzana e Ferrara, por exemplo, aplicaram o índice CAP em 53% como o limite
a partir do qual uma conta pode ser identificada como bot.10 Já o Pew Research Center, em
outro trabalho, utilizou o valor de 43%11. Em nossa pesquisa, como elaboramos uma estimativa
estatística para estimar a quantidade de bots de cada perfil, que será melhor explicada abaixo,
não foi traçado um CAP específico. Não obstante, ao mapear a rede de bots que seguem os
9 VAROL, Onur; et al. Online Human-Bot Interactions: Detection, Estimation, and Characterization. In: Proceedings of the Eleventh International AAAI Conference on Web and Social Media, 2017, pp. 280–289. Disponível em: https://aaai.org/ocs/index.php/ICWSM/ICWSM17/paper/view/15587/14817 10 POZZANA, Iacopo; FERRARA, Emilio. Measuring bot and human behavioral dynamics. 2018. Disponível em: https://arxiv.org/pdf/1802.04286.pdf 11 GRAMLICH, John. Q&A: How Pew Research Center identified bots on Twitter. Pew Research Center, 19 abr. 2018. Disponível em: http://www.pewresearch.org/fact-tank/2018/04/19/qa-how-pew-research-center-identified-bots-on-twitter/
6
pré-candidatos, para afastar ao máximo a chance de falsos positivo, selecionamos apenas
aquelas contas cujo CAP fosse maior de 90%.
Nosso algoritmo
A partir das APIs públicas do Twitter e do Botometer, nós desenvolvemos um sistema que
permitiu levantar o identificador de todos os usuários que seguem os pré-candidatos à
Presidência da República, para, em seguida, calcular o score CAP de uma amostra desses
seguidores. A arquitetura desse sistema pode ser visualizada abaixo, e os códigos fonte estão
disponíveis aqui:
● get_followers.py
○ Esse código utiliza a API do Twitter para inserir no banco de dados os
seguidores de uma conta a partir do seu Twitter ID. Como a API do Twitter
retorna os resultados na ordem em que os perfis seguiram o ID enviado, essa
informação também é registrada.
● prob_bot.py
○ Esse código busca perfis aleatórios capturados pelo get_followers.py e os envia
para a API do Botometer, que retorna, entre outras informações, o CAP dessa
conta, informação que também é armazenada no banco de dados.
● guesstimator.py
○ Utiliza as informações salvas no banco de dados pelas outras duas aplicações
acima e calcula o intervalo de confiança para a estimativa da quantidade de
7
seguidores automatizados que um perfil tem de acordo com o CAP calculado
pelo Botometer.
● Banco de dados
○ O banco de dados utilizado possui 3 tabelas: perfis, seguidores e
perfis_seguidores. Na primeira estão as informações das contas dos pré-
candidatos que serão analisadas. A segunda contém as contas dos seguidores
dos perfis analisados, com uma coluna para o CAP. A última é para fazer o
relacionamento entre perfil e seguidor.
Estimativas estatísticas sobre o número de seguidores bots
Com o sistema acima descrito, foi feito um levantamento dos dados de seguidores de diversos
pré-candidatos à presidência da república entre os dias 04 e 28 de junho. Como o Botometer
analisa apenas contas do Twitter, essa pesquisa foi feita só com os perfis dos pré-candidatos
nessa plataforma, pois não encontramos ferramentas semelhantes para outras redes sociais.
Com os dados coletados, foi possível calcular o intervalo de confiança do score CAP de robôs
seguidores que cada um dos perfis dos candidatos possui. A partir desse cálculo, foi possível
extrapolar o intervalo de confiança da quantidade de seguidores robôs de cada perfil, conforme
ilustrado abaixo.
Para cada perfil analisado, foi extraída uma amostra aleatória com n perfis ativos (com pelo
menos uma postagem12) e não bloqueados (perfis acessíveis publicamente13) no Twitter. Após,
o CAP desses perfis foi calculado. A partir desse dado, o CAP médio de cada perfil analisado e
seu desvio padrão foi calculado com a seguinte fórmula (onde cap[k] significa o score CAP do
k-ésimo perfil):
12 Contas como https://twitter.com/abdulla20145 não possuíam nenhuma postagem durante as análises e foram ignoradas. 13 Contas como https://twitter.com/itambe_0 estavam bloqueadas durante as análises e foram portanto ignoradas.
8
Com essas duas informações foi possível calcular o intervalo de confiança do CAP para cada
um dos perfis dos pré-candidatos de acordo com a seguinte fórmula:
A multiplicação do CAP pelo número total de seguidores é uma boa métrica para extrapolar a
quantidade de seguidores que cada uma das contas analisadas possui.
Limitações Conhecidas
No curso da pesquisa algumas possíveis limitações foram identificadas. O sistema utilizado
buscava uma amostra aleatória de seguidores de cada um dos perfis analisados, porém,
considerava os resultados que fossem comuns nos cálculos dos intervalos de confiança. Dessa
forma, se um seguidor amostrado no perfil A seguisse outros perfis, seu CAP seria considerado
em todos eles e não somente no perfil A. Isso foi realizado para conseguir uma amostra
significativa de forma mais eficiente, mas pode ter interferido com a aleatoriedade da
amostragem realizada caso exista uma relação entre scores CAP e seguir múltiplas contas,
hipótese que não foi considerada no modelo.
Outra limitação conhecida é que o sistema ignora no cálculo das estimativas contas que não
tenham postado nenhuma vez, ou que sejam perfis privados. Apesar da freqüencia encontrada
dessas contas ser pequena, elas podem alterar o resultado final.
9
RESULTADOS
Com base na metodologia acima, coletamos dados entre os dia 4 e 28 de junho e dos perfis
dos seguintes pré-candidatos à presidência da república: Adilson Barroso (PATRIOTA), Álvaro
Dias (PODEMOS), Ciro Gomes (PDT), Fernando Collor (PTC), Flávio Rocha (PRB), Geraldo
Alckmin (PSDB), Guilherme Boulos (PSOL), Henrique Meirelles (MDB), Jair Bolsonaro (PSL),
Jaques Wagner (PT), João Amoêdo (NOVO), Lula (PT), Manuela D’Ávila (PCdoB), Marina Silva
(REDE), Paulo Rabello (PSC), Rodrigo Maia (DEM).
Além dos pré-candidatos, foi incluído na pesquisa os dados coletados do perfil do chef de
cozinha Michael Symon, que admitiu ter comprado seguidores após ter sido apontado pela
reportagem do New York Times como um dos clientes de uma companhia suspeita de atuar na
venda de bots. Com a informação prévia de que ele possui efetivamente seguidores robôs,
seus dados foram acoplados à pesquisa para fins de comparação e validação da metodologia
utilizada.
Os resultados foram divididos em três partes: estimativas estatisticas da quantidade de
prováveis robôs que seguem cada pré-candidato; mapeamento dessa rede de seguidores bots
com base em quem eles seguem em comum; e identificação de padrões de possíveis compras
de bots a partir da ordem na qual cada conta - seja ela bot ou não - seguiu determinado pré-
candidato.
Estimativas Estatísticas sobre a quantidade de seguidores bots
Com base na metodologia aplicada, foi calculado estatisticamente o número máximo e o
número mínimo de bots que seguem cada pré-candidato, chamado de intervalo de confiança.
Os dados foram organizados na tabela abaixo:
Perfil Seguidores Amostra Intervalo de confiança
Mínimo Máximo Média
Michael Symon 893825 21999 340897 340897 340897
Guilherme Boulos 65555 9455 8732 9637 9185
Paulo Rabello 1086 225 135 245 190
João Amoêdo 69344 12174 14027 15036 14532
Manuela 205286 17437 43912 46528 45220
Lula 336905 21291 72583 76433 74508
Henrique Meirelles 48696 8317 11302 12208 11755
Flávio Rocha 26274 5761 7254 7882 7568
Rodrigo Maia 42042 7660 12301 13184 12743
10
Ciro Gomes 165113 18171 51858 54147 53003
Jair Bolsonaro 1187867 24191 394633 409077 401855
Marina Silva 1914200 27195 682102 704279 693191
Jaques Wagner 64995 10268 24241 25476 24859
Fernando Collor 28381 6474 11197 11896 11547
Geraldo Alckmin 992735 21823 448407 461674 455041
Adilson Barroso 841 707 364 426 395
Alvaro Dias 408732 22754 260255 265645 262950
Se olharmos apenas para o número absoluto de bots que seguem cada pré-candidato, é
possível observar que ele será maior na medida em que os perfis possuem um maior número
de seguidores.
Para uma visualização mais precisa do perfil dos seguidores dos pré-candidatos, portanto, é
necessário olhar quanto esses bots representam percentualmente com relação ao total de
seguidores. Com a média do intervalo de confiança, estimamos esse percentual, conforme
pode ser visto no gráfico e na tabela abaixo:
11
Perfil Seguidores Intervalo de confiança
Mínimo Máximo Media
Michael Symon 893825 38.1% 38.1% 38.1%
Guilherme Boulos 65555 13.3% 14.7% 14.0%
Paulo Rabello 1086 12.4% 22.6% 17.5%
João Amoêdo 69344 20.2% 21.7% 21.0%
Manuela 205286 21.4% 22.7% 22.0%
Lula 336905 21.5% 22.7% 22.1%
Henrique Meirelles 48696 23.2% 25.1% 24.1%
Flávio Rocha 26274 27.6% 30.0% 28.8%
Rodrigo Maia 42042 29.3% 31.4% 30.3%
Ciro Gomes 165113 31.4% 32.8% 32.1%
Jair Bolsonaro 1187867 33.2% 34.4% 33.8%
12
Marina Silva 1914200 35.6% 36.8% 36.2%
Jaques Wagner 64995 37.3% 39.2% 38.2%
Fernando Collor 28381 39.5% 41.9% 40.7%
Geraldo Alckmin 992735 45.2% 46.5% 45.8%
Adilson Barroso 841 43.3% 50.7% 47.0%
Alvaro Dias 408732 63.7% 65.0% 64.3%
O pré-candidato Guilherme Boulos apresentou o menor percentual, com um Intervalo de
Confiança entre 13.3% e 14.7%, o que representa uma média de aproximadamente 9.185 bots
entre seus seguidores. Na outra ponta do gráfico, acima dos 38,1% de Michael Symon, se
encontram Fernando Collor, Geraldo Alckmin, Adilson Barroso e Álvaro Dias. Este último
possui o maior percentual entre todos, com um Intervalo de Confiança entre 63.7% e 65.0%,
equivalente a uma média de 262.950 seguidores bots.
Em nenhum caso o percentual chegou a zero ou próximo disso. Essa alta quantidade de bots
nos perfis dos pré-candidatos à presidência, todavia, não indica, necessariamente, que houve
qualquer tipo de aquisição de seguidores por eles ou pelas empresas de marketing que os
auxiliam. O Brasil é um dos países com o maior uso de bots em redes sociais14 e, de acordo
com um relatório da Symantec de 2016,15 o Brasil hospeda o 8º maior número de bots do
mundo. Além disso, como já foi dito acima, isso não é algo fundamentalmente novo, afinal já foi
identificado a atividade de robôs no Twitter desde na última eleição presidencial em 2014,
durante o processo de impeachment e nas eleições municipais de 2016.16
14 ARNAUD, Dan. Computational propaganda in Brazil: social bots during elections. University of Oxford Working Paper, n.8, 2017. Disponível em: http://blogs.oii.ox.ac.uk/politicalbots/wp-content/uploads/sites/89/2017/06/Comprop-Brazil-1.pdf 15 Internet Security Threat Report, vol. 21, Abril 2016. Disponível em: https://www.symantec.com/content/dam/symantec/docs/reports/istr-21-2016-en.pdf, acesso em 26 jan 2018. 16 ARNAUD, Dan. Computational propaganda in Brazil: social bots during elections. University of Oxford Working Paper, n.8, 2017. Disponível em: http://blogs.oii.ox.ac.uk/politicalbots/wp-content/uploads/sites/89/2017/06/Comprop-Brazil-1.pdf
13
Isolamento ou conexão entre seguidores bots
O funcionamento de bots nas plataformas é muito diversificado, nem sempre eles são objeto de
compra, podendo seguir usuários e interagir com conteúdos com base em palavras-chave,
assunto, conjuntos de interesse etc. Mapear esses bots a partir de quem eles seguem em
comum pode levantar pistas sobre isso. Há mais chances de que eles sejam ativados a partir
de palavras-chave ou temas em comum, por exemplo, se eles seguem mais de um perfil com
características semelhantes.
Diante disso, com os dados coletados, aplicamos um algoritmo de modularidade e mapeamos
a rede de seguidores bots existente entre os pré-candidatos. A partir do software Gephi17,
criamos o grafo de quais perfis os seguidores com CAP maior que 90%18 da amostra de
seguidores analisados seguiam, com o objetivo de verificar se esses bots seguiam vários pré-
candidatos em comum ou apenas um perfil dentre eles. Nessa visualização, quanto mais
próximos os pré-candidatos estão entre si, maior o número de seguidores bots em comum. As
cores indicam a formação de aparentes clusters, em decorrência de um relativo alto número de
seguidores compartilhados entre eles, conforme pode ser observado abaixo:
17 O Gephi é um software open-source para visualização e análise de redes utilizado em pesquisas acadêmicas e jornalísticas. 18 O score CAP reflete a probabilidade de uma conta ser totalmente automatizada. Estudos acadêmicos selecionaram um score entre 40 e 60% para considerar a conta um robô, todavia para essa pesquisa nós escolhemos um score mais conservador com o objetivo de reduzir ao máximo a chance de falsos positivos.
14
Como pode ser observado, os clusters identificados a partir dos seguidores em comum ilustram
de certa forma um cenário político-eleitoral no Brasil, que se aproxima do que foi feito em
pesquisas que se utilizaram de metodologia semelhante para mapear debates políticos nas
redes sociais.19 Além disso, esse tipo de abordagem para encontrar perfis que são
potencialmente bots já foi também aplicado em outros estudos20, que usaram como base para
a captura de dados, todavia, hashtags, e não perfis específicos.
Há uma distorção, todavia, que pode ser observada com relação ao candidato Álvaro Dias, que
claramente se isola dos demais. Esse achado indica, principalmente, que entre ele e os outros
pré-candidatos existe um baixo número de seguidores bots compartilhados, se comparado com
a situação dos demais. Se ele for retirado, é possível ter uma visualização mais aproximada da
rede de bots compartilhada entre os outros candidatos:
19 MALINI, Fábio. UM MÉTODO PERSPECTIVISTA DE ANÁLISE DE REDES SOCIAIS: cartografando topologias e temporalidades em rede. In: XXV Encontro Anual da Compós, 2016. Goiânia: Associação Nacional dos Programas de Pós-Graduação em Comunicação. Disponível em: http://www.labic.net/wp-content/uploads/2016/06/compos_Malini_2016.pdf. 20 CÔRTES, Thaísa G. et al. O #VemPraRua em dois ciclos: análise e comparação das manifestações no Brasil em 2013 e 2015. In: XXXIX Congresso Brasileiro de Ciências da Comunicação, 2016. São Paulo: Intercom – Sociedade Brasileira de Estudos Interdisciplinares da Comunicação. Disponível em: http://portalintercom.org.br/anais/nacional2016/resumos/R11-1938-1.pdf
15
Algoritmos de modularidade mostram o quão semelhantes diferentes conjuntos de nós das
redes são. O algoritmo utilizado no Gephi21 possui um parâmetro chamado resolução22, que ao
ser aumentado reduz o número de comunidades criadas pelo algoritmo. Abaixo verificamos
diferentes resoluções e as comunidades criadas por esse algoritmo. A redução das
comunidades acentua o isolamento que o nó que representa o candidato Álvaro Dias possui
em relação ao ecossistema de bots no Twitter.
21 Vincent D Blondel, Jean-Loup Guillaume, Renaud Lambiotte, Etienne Lefebvre, Fast unfolding of communities in large networks, in Journal of Statistical Mechanics: Theory and Experiment 2008 (10), P1000 22 R. Lambiotte, J.-C. Delvenne, M. Barahona Laplacian Dynamics and Multiscale Modular Structure in Networks 2009
19
32 1
Ao aumentarmos a resolução do algoritmo, as comunidades vão se agrupando. Com resolução
0.5, são criadas 13 comunidades para os 16 candidatos, já quando aumentamos isso para
resolução de 1, temos somente 8 comunidades formadas pelos 16 candidatos:
Número da comunidade Candidatos
0 Rodrigo Maia e Fernando Collor
1 Jaques Wagner
2 Álvaro Dias
3 Geraldo Alckmin
4 Marina Silva e Adilson Barroso
5 Lula e Ciro Gomes
6 Manuela D’Ávila e Guilherme Boulos
7 Paulo Rabello, Henrique Meirelles, Jair Bolsonaro, Flávio Rocha e João Amoêdo
20
A quantidade de seguidores em comum entre os candidatos também pode ser vista nessa
rede. Com um recorte de apenas 3 candidatos, Geraldo Alckmin, Marina Silva e Álvaro Dias, é
possível visualizar mais claramente os robôs que seguem somente 1 dos candidatos, os que
seguem 2, e os que seguem os 3 candidatos.
Em uma análise sobre o número de possíveis robôs que seguem cada candidato e quantos
desses seguidores são compartilhados entre eles, apuramos que o candidato Geraldo Alckmin
é seguido por 3816 possíveis robôs, Marina Silva por 2793 e Álvaro Dias por 10411. Destes
números, 547 são compartilhados por Marina Silva e Geraldo Alckmin, 151 entre Álvaro Dias e
Geraldo, 72 entre Marina e Álvaro e 140 pelos três candidatos. A tabela abaixo ilustra esses
dados:
21
Geraldo Alckmin Marina Silva Álvaro Dias
Geraldo Alckmin 3816 547 151
Marina Silva 547 2793 72
Álvaro Dias 151 72 10411
*além disso 140 seguidores são compartilhados pelos 3 candidatos simultaneamente
A quantidade de robôs que seguem os candidatos Geraldo e Marina ao mesmo tempo é muito
maior do que os que seguem um dos candidatos e o candidato Álvaro Dias, mesmo esse último
possuindo um maior número de seguidores que foram identificados como robô pelo score CAP.
Sabendo que alguns desses robôs seguem por palavras-chave ou por tipo de conta (contas de
políticos, por exemplo) o compartilhamento de alguns robôs é esperado em um ambiente onde
eles seguiram os candidatos de forma “orgânica”.
Modelo para ilustrar perfis com suspeita de compra de bots
Na reportagem produzida pelo New York Times, acima mencionada, foi aplicada uma
metodologia que permitiu identificar a ordem em que cada conta passou a seguir um perfil no
Twitter, seja ela bot ou não, e sua respectiva data de criação. Essa abordagem possibilitou
identificar momentos nos quais muitos prováveis bots passaram a seguir um perfil em conjunto,
o que pode indicar uma suposta compra de bots.
O sistema desenvolvido pelo internetlab coleta o score CAP de uma amostra aleatória de
seguidores de diversos perfis de pré-candidatos à presidência e a ordem que eles seguiram
cada um dos perfis indicados. Com isso, para replicar essa investigação feita pelo New York
Times no perfil dos pré-candidatos, nós adaptamos a metodologia para utilizarmos o CAP
calculado pelo Botometer, e plotamos o CAP de cada um dos seguidores analisados versus a
ordem que eles seguiram o perfil de cada pré-candidato.
Grandes blocos de seguidores com CAP alto indicam a provável compra de seguidores,
enquanto que um gráfico sem esses blocos indica que bots naturalmente seguiram o perfil.
Para validar esse sistema, primeiro nós aplicamos essa metodologia ao perfil de Michael
Symon, que já havia confessado a compra de bots. No gráfico abaixo, observamos no topo
algumas aglomerações de perfis que são provavelmente automatizados (score CAP próximo de
1.0), o que indica o momento nos quais essas compras ocorreram:
22
Uma outra forma de analisar esses dados é dividir os seguidores das contas em faixas de igual
tamanho, colocando os primeiros seguidores na primeira faixa, os seguidores seguintes na
segunda e assim por diante. Neste trabalho utilizamos 20 faixas para realizar essa divisão e
cada uma foi nomeada com os percentis que ela representa. A faixa 0-5, por exemplo, é a
primeira das dez faixas e contém todos os seguidores entre o primeiro e o que marca o
percentil 5.
Intervalo de percentis (posição entre os seguidores) CAP médio23
00-05 11.5%
05-10 13.0%
10-15 13.9%
15-20 15.9%
20-25 18.5%
25-30 33.4%
30-35 30.7%
35-40 24.5%
40-45 22.9%
45-50 43.6%
50-55 26.6%
23 Quanto mais perto de 100% for esse valor, maior a quantidade de bots que seguiram a conta naquele percentil.
23
55-60 41.1%
60-65 45.3%
65-70 59.9%
70-75 72.3%
75-80 68.6%
80-85 72.4%
85-90 79.2%
90-95 59.4%
95-100 24.0%
As manchas escuras na parte superior da imagem representam onde provavelmente ocorreu a
compra de seguidores, principalmente ao ser acompanhada por uma mancha mais clara na
parte debaixo do gráfico.
O mesmo processo foi aplicado nos pré-candidatos à Presidência da República. Como a
seleção da amostra de seguidores analisados é feita de forma aleatória, a diferença na
quantidade de pontos testados em cada perfil está relacionada à quantidade de seguidores dos
perfis. O resultado está representado na tabela e nos gráficos abaixo.
24
Faixa CAP Médio
Geraldo
Alckmin
Álvaro
Dias
Marina
Silva
Jair
Bolsonaro
Ciro
Gomes Lula
00-05 23.6% 47.7% 14.7% 15.5% 25.3% 9.1%
05-10 26.9% 37.2% 18.5% 16.6% 22.8% 20.4%
10-15 33.9% 63.1% 21.7% 18.1% 25.2% 19.2%
15-20 37.7% 80.8% 19.4% 16.6% 30.2% 15.5%
20-25 36.3% 79.1% 27.8% 24.3% 38.2% 16.9%
25-30 35.4% 95.5% 30.8% 29.6% 36.9% 15.7%
30-35 39.6% 96.0% 39.0% 24.9% 23.0% 15.3%
35-40 50.7% 89.0% 35.9% 24.4% 18.3% 19.8%
40-45 55.8% 87.9% 34.6% 27.0% 20.4% 24.9%
45-50 60.5% 87.4% 32.3% 32.1% 43.8% 31.4%
50-55 58.2% 86.2% 30.2% 35.2% 36.3% 33.8%
55-60 43.6% 83.1% 34.1% 43.3% 50.7% 16.0%
60-65 50.2% 80.2% 49.8% 42.6% 38.3% 37.3%
65-70 63.0% 27.2% 54.5% 46.3% 50.1% 36.4%
70-75 58.2% 29.6% 53.3% 49.5% 37.4% 21.5%
25
75-80 54.5% 39.3% 37.3% 54.2% 30.1% 16.5%
80-85 45.1% 47.5% 40.0% 45.6% 31.7% 14.0%
85-90 51.2% 41.4% 50.6% 42.6% 35.7% 15.1%
90-95 52.3% 49.7% 55.9% 46.6% 29.5% 33.6%
95-100 40.0% 38.7% 44.3% 41.6% 17.9% 29.9%
26
Faixa CAP Médio
Guilherme
Boulos
Manuela
D’Ávila
João
Amôedo
Jaques
Wagner
Henrique
Meirelles
Fernando
Collor
00-05 6.6% 26.5% 10.6% 23.2% 8.7% 26.1%
05-10 10.6% 25.0% 9.6% 24.3% 11.0% 29.1%
10-15 11.0% 25.8% 9.9% 35.8% 13.2% 33.3%
15-20 13.8% 32.1% 14.0% 40.2% 15.0% 34.4%
20-25 12.7% 36.3% 17.1% 31.5% 13.7% 32.4%
25-30 11.5% 41.3% 12.5% 38.8% 16.9% 30.4%
30-35 12.7% 34.5% 24.1% 37.5% 20.8% 43.6%
35-40 11.9% 25.1% 31.9% 37.6% 18.4% 51.2%
40-45 16.8% 22.0% 21.9% 37.2% 19.9% 54.7%
45-50 14.4% 17.8% 34.6% 28.5% 26.1% 64.1%
50-55 12.0% 21.7% 41.0% 24.7% 24.5% 70.3%
55-60 12.3% 15.0% 22.1% 27.3% 23.8% 36.2%
60-65 16.5% 12.9% 19.2% 25.4% 23.9% 22.7%
65-70 16.4% 5.3% 17.6% 38.7% 25.0% 43.6%
70-75 14.0% 11.3% 20.8% 56.4% 23.6% 46.4%
27
75-80 13.0% 13.0% 20.6% 57.8% 29.4% 32.3%
80-85 17.3% 15.5% 21.5% 58.9% 48.9% 55.1%
85-90 17.8% 18.4% 23.6% 54.4% 48.8% 36.7%
90-95 19.7% 21.6% 21.5% 44.6% 28.1% 41.9%
95-100 19.0% 19.6% 24.9% 42.2% 43.1% 29.0%
28
Faixa CAP Médio
Flávio
Rocha
Rodrigo
Maia
Adilson
Barroso
Paulo
Rabelo
00-05 23.6% 30.4% 34.5% 4.8%
05-10 35.8% 26.4% 38.9% 3.0%
10-15 22.8% 37.9% 42.1% 18.2%
15-20 34.0% 37.3% 41.4% 20.2%
20-25 30.6% 39.3% 47.8% 14.2%
25-30 32.0% 50.3% 50.1% 17.2%
30-35 45.5% 40.0% 54.7% 12.8%
35-40 44.5% 35.1% 44.2% 13.9%
40-45 49.3% 17.7% 42.1% 7.7%
45-50 19.4% 19.2% 46.9% 12.8%
50-55 24.6% 28.7% 53.4% 18.5%
55-60 26.8% 23.0% 55.7% 23.1%
60-65 27.8% 28.0% 47.6% 47.5%
65-70 21.9% 26.4% 49.9% 15.6%
70-75 21.5% 25.8% 51.9% 19.9%
29
75-80 28.8% 28.9% 43.5% 19.4%
80-85 22.4% 24.1% 70.8% 19.5%
85-90 20.5% 28.5% 51.1% 28.5%
90-95 24.0% 29.1% 50.5% 26.4%
95-100 20.4% 30.2% 24.1% 6.4%
33
De todos os pré-candidatos pesquisados, apenas Álvaro Dias apresentou características
semelhantes àquela observada no gráfico de Michael Symon. Esse contorno anormal, todavia,
não significa, necessariamente, uma compra de seguidores robôs, mas indica que em algum
momento na história do perfil todos os novos seguidores eram provavelmente bots, algo que
não é comum em um crescimento orgânico na relevância de um perfil. Além disso, com o
espaço amostral ainda limitado que estamos usando, existe a possibilidade do perfil do
candidato se apresentar dessa forma por uma anomalia estatística.
CONSIDERAÇÕES FINAIS
As análises deste estudo não tem a pretensão de traçar afirmações categóricas sobre a origem
e o uso de bots no cenário político-eleitoral, mas de começar a olhar para esse cenário. As
conclusões aqui encontradas nos revelam que a presença de bots no discurso político nas
eleições de 2018 será uma realidade. Mais de 1 milhão de robôs seguem os pré-candidatos e
em muitos casos seguem mais de um simultaneamente. Além disso, todos os candidatos
possuem um percentual considerável de seus seguidores composto por contas automatizadas.
Tudo isso aponta a importância de que tanto cidadãos quanto a justiça eleitoral estejam atentos
à essas questões durante a campanha eleitoral.