A segunda maior Wikipedia do mundo é escrita quase inteiramente por um bot

'O consenso da Wikipedia é que uma tradução automática não editada, deixada como um artigo da Wikipedia, é pior do que nada.'
  • Imagem: Cathryn Virginia

    Kyle Wilson é um administrador na Wikipédia em inglês e um renomeador de usuário global . Ele não recebe pagamento da Fundação Wikimedia nem participa de edições pagas, interpretadas de forma ampla. Você pode segui-lo no Twitter @kwilsonmg .

    O objetivo fundamental da Wikipedia é tornar o conhecimento disponível gratuitamente online no maior número de idiomas possível. Até agora, a maior parte foi em inglês. Diferentes idiomas na Wikipedia são chamados de 'edições', e a edição em inglês recentemente ultrapassou 6 milhões de artigos . Ter mais de um milhão de artigos é uma façanha que apenas 16 das 309 edições cumpridas.

    A Wikipedia de Cebuano é a segunda maior edição da Wikipedia, ficando atrás da versão em inglês em apenas pouco mais de 630 mil artigos e à frente das edições sueca e alemã em mais de 1,64 e 2,98 milhões de artigos, respectivamente. Seu posicionamento é bastante peculiar, visto que, de acordo com a Enciclopédia Britânica , existem apenas aproximadamente 16,5 milhões de falantes dessa língua nas Filipinas. Apesar de ter mais de 5,37 milhões de artigos, possui apenas 6 administradores e 14 usuários ativos. A edição em inglês, em comparação, tinha 1.143 administradores e 137.368 usuários ativos para mais de 6 milhões de artigos, no momento da redação.



    De acordo com pesquisas da Motherboard e comentários de vários administradores globais , usuários altamente confiáveis ​​que se especializam no combate ao vandalismo nas edições da Wikipedia, isso se deve ao uso de bots, ferramentas automatizadas que realizam principalmente tarefas repetitivas e mundanas, mas também podem ser usadas para gerar entradas da Wikipedia. De acordo com um artigo publicado em Proceedings of the ACM on Human-Computer Interaction journal , existem aproximadamente 1.601 desses bots nas edições da Wikipedia. Enquanto a Wikipedia em inglês e outras edições usam essas ferramentas para realizar tarefas repetitivas e banais, algumas edições passaram a usá-las para escrever conteúdo.

    Embora isso possa não parecer um problema, quando a maior parte do conteúdo de uma edição é escrita por um único bot, isso pode afetar negativamente a qualidade da edição. O bot específico que escreve a edição Cebuano é chamado Lsjbot e foi criado pelo físico sueco Sverker Johansson. Sua criação é responsável por mais de 24 da edição 29,5 milhões de edições e de acordo com a pesquisa feito por Guilherme Morandini, outro administrador global, criou 5.331.028 dos 5.378.570 artigos da edição, ou 99,12% de suas criações de artigos. De acordo com a mesma pesquisa, todos, exceto cinco dos 35 principais editores da edição, são bots, sem nenhum editor humano entre os dez primeiros. Com base nisso, Morandini argumentou que os bots assumiram a edição Cebuano de editores humanos.

    Bots são o produto de pessoas, disse Vermont, um administrador global de longa data que pediu para ser referido por seu nome de usuário na Wikipedia. Eles não assumiram nenhum projeto; em vez disso, eles simplesmente desincentivaram a criação de artigos com grandes quantidades de stub [artigos]. Vermont também apontou que Lsjbot fez mais edições… do que palestrantes de Cebuano.

    Riley Huntley, um novo administrador global, compilou uma amostra de 1.000 artigos aleatórios que o Lsjbot criou. Da seleção aleatória desses 1.000 resultados que a placa-mãe analisou, a maioria foi surpreendentemente bem construída.

    De acordo com Johansson, seu bot opera usando os seguintes princípios básicos: para começar, ele seleciona um domínio semântico —Uma área de significado e as palavras usadas para descrevê-la. Por exemplo, o corpo do domínio incluiria pé, mão, rosto e assim por diante. A próxima etapa do processo é encontrar bancos de dados legíveis por máquina que cubram o domínio; eles fornecerão os fatos básicos sobre cada subtópico - pé, mão, rosto, etc. - a serem incluídos nos artigos. O banco de dados legível por máquina que Lsjbot usou para artigos baseados em geografia, por exemplo, é chamado GeoNames .

    Uma vez que essas informações são obtidas, a próxima etapa é escrever frases modeladas em fórmulas, genéricas e reutilizáveis ​​com pontos para informações específicas; isto expressará, em texto, os vários fatos de cada artigo. O bot então preenche essas frases com as informações dos bancos de dados legíveis por máquina e adiciona infoboxes (como as barras laterais vistas nas biografias mais desenvolvidas da Wikipedia), categorias , e links a outros artigos, conforme apropriado. Assim que tudo estiver concluído, a última etapa é salvar a edição, enviando assim o conteúdo para a edição da Wikipedia em questão.

    Johansson disse - e a placa-mãe verificada verificando o registro de contribuições do bot —Que Lsjbot está atualmente fazendo um trabalho de manutenção na Wikipedia Cebuano e nenhum projeto importante de criação de artigos está em andamento.

    Lsjbot é responsável pela criação de artigos sobre várias espécies nas Wikipédias Cebuano, Sueca e Waray-Waray. Quando perguntado por que Lsjbot parou a criação de artigos, Johansson respondeu que opiniões mudaram dentro da comunidade sueca da Wikipedia e os editores Waray-Waray não foram capazes de formar um consenso sobre a criação automática de artigos.

    Quando contatada para comentar, a Fundação Wikimedia - a instituição de caridade responsável pela manutenção dos servidores, software e divulgação da Wikipedia - reconheceu a lacuna de conhecimento presente entre as edições, o que limita o acesso à informação para aqueles que falam apenas idiomas com representação insuficiente. Em um e-mail para Placa-mãe , Adora Svitak da Wikimedia Foundation declarou que a Fundação está tentando resolver isso fornecendo ferramentas, recursos e parcerias às comunidades de línguas locais. Isso inclui o fornecimento de recursos e plataformas, como Wikimedia Cloud Sergswconsultinggroup.coms , para desenvolvedores que desejam criar bots e outras ferramentas. De acordo com Svitak, no entanto, as políticas sobre bots e seus usos permitidos dependem estritamente das próprias comunidades individuais. Ela também falou sobre desenvolvimentos técnicos para ajudar a aliviar a carga sobre os editores de tradução de conteúdo, principalmente o ferramenta de tradução de conteúdo , que já publicou mais de 500.000 artigos.

    Quando questionado sobre como se sentia sobre o trabalho da Fundação Wikimedia em abordar essas questões e a disparidade entre as edições, Vermont afirmou que, embora eles realizem atividades de divulgação, não existe realmente qualquer tipo de diferença com fatores socioeconômicos que impedem os usuários de contribuir.

    Com essa falta de apoio percebida, as comunidades passaram a gerar conteúdo por diversos meios. Alguns optaram por se concentrar fortemente na qualidade, enquanto outros preferem ter artigos curtos de uma ou duas frases, tanto quanto possível. Quando traduções automáticas, como as criadas com a ferramenta de tradução de conteúdo, não são editadas, isso pode causar problemas. Por exemplo, bomba da vila quando colocado no Google Translate pode virar uma bomba na vila em português. Embora este exemplo tenha sido para uma consulta à comunidade da Wikimedia, erros como esse podem acabar facilmente em artigos da Wikipedia ao vivo. 'O consenso da Wikipedia é que uma tradução automática não editada, deixada como um artigo da Wikipedia, é pior do que nada', de acordo com a Wikipedia em inglês guia de tradução .

    Lsjbot não é a única forma automatizada ou necessariamente a melhor maneira de ajudar as pessoas a criar artigos da Wikipedia em diferentes idiomas. Outra ferramenta, que conta com contribuições mais humanas, foi criada em 2018 por João Alexandre Peschanski e Érica Azzellini, que também co-escreveram um artigo sobre bots de transclusão de conteúdo . Isso foi baseado em uma estrutura mais especializada criada um ano antes por Richard Knipel, Wikimediano residente no Metropolitan Museum of Art, para um 'Museu de Babel' para ajudar a construir artigos da Wikipedia para cada trabalho possível em uma coleção de arte.

    A ferramenta de Peschanski e Azzellini, Mbabel, gera rascunhos de artigos automaticamente com base em informações armazenadas na web banco de dados semântico , Wikidata —Um banco de dados online aberto hospedado pela Wikimedia Foundation projetado para ser lido por software automatizado. Ao contrário da ferramenta de tradução de conteúdo da Fundação, Mbabel não permite a publicação direta de artigos. Em vez disso, ele coloca o conteúdo gerado em uma página de teste do usuário na Wikipedia, com a intenção de os usuários expandirem as informações básicas fornecidas pelo Mbabel.

    O artigo de demonstração criado usando Mbabel que Azzellini compartilhou com Placa-mãe é sobre o Museu Paulista de São Paulo, Brasil e está na Wikipédia em português. Ele foi gerado exclusivamente a partir do conteúdo disponível em seu Entrada do Wikidata . Mbabel também é capaz de compilar informações de várias entradas diferentes do Wikidata, como foi feito para Este artigo nas eleições brasileiras de 2016.

    Essa abordagem, no entanto, tem suas desvantagens. Devido à sua forte dependência das entradas do Wikidata, a qualidade do conteúdo produzido é fortemente influenciada pela qualidade do Wikidata disponível.

    Claro, cada comunidade deve decidir como lidar com o conteúdo escrito de bot, mas do meu ponto de vista, não é benéfico para o projeto da Wikipedia entregar este tipo de texto [usando o tipo de informação que Mbabel cria] no principal domínio como algo equivalente a um artigo enciclopédico. ' Disse Azzellini. 'Pode desacreditar outras entradas da Wikipedia relacionadas à criação automática de conteúdo ou até mesmo a qualidade da Wikipedia.

    Ainda há espaço para melhorias quando se trata de fazer suas entradas soarem mais humanas e de acertar a gramática e os pronomes. Por exemplo, inserir uma frase em português para dizer que alguém foi cineasta pode ser complicado. Enquanto em inglês o sexo do diretor não muda a estrutura da frase, em português a estrutura é muito dependente do contexto do sexo. Isso forçou Azzellini a continuar escrevendo esse tipo de frase na voz passiva, jogando pelo seguro com as traduções. Ao dizer isso, no entanto, ela enfatizou que Mbabel não funciona como um bot e depende diretamente da edição humana para ser publicado.

    Em sua infância, a Wikipedia em inglês era semelhante ao que a edição Cebuano é agora - embora com significativamente menos artigos. UMA grande número de seus artigos foram também gerado por bot . Desde 2006, a Wikipedia em inglês teve um grupo de aprovação de bots que supervisiona a aprovação dos bots autorizados a funcionar e ajuda a fazer cumprir o política de bot , que foi originalmente criado em 2002 . Desde 2010 , a política de bots da Wikipedia em inglês incluiu um seção impedindo o uso de bots para gerar conteúdo na grande maioria dos casos.

    Ter a maior parte do conteúdo de uma edição escrita por um único bot é uma faca de dois gumes. Pode levar a preocupações confiáveis ​​sobre sua qualidade, mas também é indiscutivelmente melhor do que nada. Em última análise, mais editores humanos com conhecimento em vários idiomas são necessários para ajudar na expansão do conteúdo e para revisar, melhorar e limpar artigos feitos por bots. No momento, esta é uma tarefa difícil e dada a edição Cebuano tem apenas 148 usuários ativos e 5.331.028 artigos criados por bot.

    O problema para mim não é usar ou não ... uma informação modelada ', disse Azzellini. 'Mas não pensar criticamente sobre de onde está vindo e confiar no modelo como um texto definitivo em vez de expandir e melhorar o conteúdo com suas capacidades humanas de pesquisa, senso crítico, análise e revisão.

    Em última análise, Vermont vê a edição Cebuano da Wikipedia como uma espécie de wiki piloto para a ideia de um bot de criação de artigos. Ele acredita firmemente que mais trabalho é necessário para aperfeiçoar a habilidade de escrever dos bots. No futuro próximo, disse ele, os humanos são uma necessidade para controlar o conteúdo e a qualidade dos artigos. Eu sou da opinião que os bots podem, em algum ponto, fazer tudo que um humano pode.