O uso etnográfico do Google Lens: possibilidades, limitações e experimentações estratégicas


resumo resumo

Ana Gretel Echazú Böschemeier
Raquel Assunção Oliveira



Introdução: de onde partimos

O presente texto, escrito a duas vozes, enquadra-se no âmbito de uma reflexão metodológica interdisciplinar em diálogo com as novas tecnologias e, de forma mais ampla, na procura pelo exercício democrático de cidadanias culturais na prática educativa e científica. O objeto inicial da pesquisa estava ligado à análise das dinâmicas de gênero e direitos humanos dentro de um contexto tailandês, explorando como as práticas culturais, políticas e sociais nacionais se entrelaçam com propostas vindas de noções universalistas do Ocidente. Entretanto, durante a construção da análise de campo, um fator surgiu como primordial: a questão da interpretação e das ferramentas interpretativas que mediaram a experiência etnográfica. É diante da problemática da inevitabilidade da mediação tecnológica em contextos etnográficos de acentuada alteridade que propomos, como digressão metodológica, a presente reflexão. Ao explorarmos as possibilidades e desafios envolvidos no reconhecimento e tradução de textos/imagens em diferentes idiomas, propomos trazer à tona as lógicas subjacentes aos processos comunicativos que viabilizam as formas de interação mediada pelas plataformas em contextos etnográficos. Assim, o manuscrito desloca as formas habituais de fazer etnografia ao investigar um instrumento da etnografia digital como ferramenta de mediação intercultural.

Tomamos como ponto de partida a ideia do direito à ciência, que faz parte, por sua vez, do direito à cultura, e que está expresso no 27° artigo da Declaração Universal dos Direitos Humanos (Direitos, 2006, p. 44). Também, em diálogo com esse marco, trazemos à tona o direito à informação, presente no artigo número 19 da mesma declaração. Consideramos ambos expressões fundamentais da prática científica como forma de construção de cidadanias em contextos contemporâneos (Echazú Böschemeier; Carvalho; Oliveira; Medeiros, 2022).

Atualmente, a antropologia e a comunicação social convergem no estudo crítico do lugar social das tecnologias de inteligência artificial, e seu diálogo frutifica no campo mais amplo dos estudos da Ciência e da Técnica (STS Studies). Tomemos como exemplo o estudo realizado pela pesquisadora ganense-estadunidense Joy Buolamwini e pela cientista da computação etíope Timnit Gebru (2018). A investigação avaliou três sistemas comerciais de reconhecimento facial e concluiu que a classificação de gênero das mulheres negras era radicalmente mais enviesada, com taxas de erro de até 34,7%, em alto contraste com a taxa de erro da classificação de gênero de homens brancos, de até 0,8%.

Em outro estudo, desta vez conduzido pelas pesquisadoras brasileiras Fernanda Carrera e Denise Carvalho (2020), houve a análise de 2.512 imagens provenientes de três bancos pagos de imagens digitais e que estavam vinculadas às palavras-chave família branca, família negra e família, em inglês. Dentre os resultados da pesquisa, as autoras observaram que houve maior frequência de aparição das mulheres negras sem a presença masculina do que a de mulheres brancas nesses mesmos parâmetros, reverberando a hiper-ritualização imagética da solidão das mulheres negras, bem como o preterimento afetivo dirigido a elas, “estando sua imagem reservada ao mercado do sexo e do trabalho” (ibidem, p. 104). Entendemos que trabalhos como esses exemplificam as diferentes abordagens possíveis para estudos que entrelaçam criticamente questões provenientes das ciências humanas e dos estudos sobre tecnologias.

No caso específico das tecnologias voltadas para a tradução, o pesquisador irlandês Joss Moorkens (2022) comenta sobre os vieses sexistas embutidos nessas ferramentas, “o que pode causar suposições sobre certos adjetivos, como 'bonito/a', 'atrevido/a' ou 'sexy' ser feminino, e adjetivos como 'decente', 'obstinado/a' ou 'simpático/a' ser masculino” (ibidem, p. 25, tradução nossa). O autor também retoma o episódio em que usuários de redes digitais como Twitter e Reddit identificaram resultados de teor “sinistro”, profético ou religioso no uso do Google Tradutor (Christian, 2018).

Esses trabalhos reforçam a importância de estarmos atentas para não sermos seduzidas pelo mito da neutralidade tecnológica. No lugar de direcionar apenas aos/às usuários/as a responsabilidade pelos vieses racistas e misóginos identificados nos aparatos tecnológicos, é importante observarmos que o problema reside em larga medida nas próprias plataformas e big techs, cujos modelos de negócios baseiam-se no lucro e também na comoditização do racismo e sexismo (Noble, 2021, p. 64).

Propomos que no caso do Google Lens, foco empírico deste trabalho, não é diferente. Ao investigarmos as potencialidades e gargalos implicados no reconhecimento e tradução de textos de diversos idiomas, precisamos ponderar as lógicas subjacentes aos processos comunicativos que permitem a comunicação entrecultural mediada pelas plataformas.

Para tanto, esse texto divide-se em seções que visam, inicialmente, localizar o estudo nos campos da antropologia e da comunicação social, bem como no contexto do advento cada vez mais acelerado das tecnologias de reconhecimento de imagem no cotidiano, cenário particularmente perceptível durante e após a pandemia da Covid-19. Na sequência, apresentamos o campo de estudo, os materiais e os métodos que foram mobilizados no campo da pesquisa. Também nos detemos na descrição e análise crítica da ferramenta Google Lens, contemplando sua inserção na cultura contemporânea, o descritivo dos seus recursos e a apresentação de alguns usos metodológicos dentro e fora da prática etnográfica. Finalmente, esse movimento nos leva às discussões com as imagens em interface com a ferramenta Lens: imagens provenientes de experimentações com traduções que nos levaram a cacofonias visuais que oscilam entre o visível, o dizível e o legível.

 

Tecnologias digitais, cotidiano e etnografias

Nos últimos anos, fomos conduzidas, de maneira compulsória, à incorporação de novas tecnologias, primeiro na nossa vida cotidiana – Orkut, Facebook, WhatsApp, Google Meet, Instagram, TikTok – e, depois, nas nossas metodologias de ensino, pesquisa e extensão nas ciências sociais e humanas. Isso parece ter acontecido, com mais força, a partir de dois eventos que, no caso do Brasil, eclodiram de forma quase sincrônica nos finais da segunda década do século XXI: a pandemia da Covid-19 e a emergência da infodemia (OPAS, 2020).

Em contraste com esse pano de fundo, emergem usos pedagógicos e criativos destas plataformas. Nos dirigindo ao caso específico da tradução via Lens, há o vídeo produzido e compartilhado pela professora Lavínia Rocha (2023) nas suas redes digitais. No vídeo, assistimos à docente trabalhando uma metodologia de ensino na qual propõe que os aos/às alunos/as se coloquem na posição de historiadores/as, deduzindo a história passada da vida da professora a partir de um conjunto de itens pessoais, como fotografias, cartas e outros objetos, trazidos por ela numa sacola.

Dentre as estratégias encontradas pelos/as discentes para captar e organizar as informações, está a de um estudante que usou o Lens para traduzir manuscritos em espanhol em uma bandeira da Colômbia, demonstrando um exemplo não intencional, mas bem-vindo à dinâmica, do uso didático da ferramenta no Ensino Básico (Rocha, 2023). Se trabalhado de modo crítico e em metodologias ativas de aprendizagem, percebemos as potencialidades do Lens em auxiliar a captação de contextos de pesquisa, inclusive no que diz respeito ao trabalho de campo etnográfico e em eventuais práticas metodológicas no contexto do básico ou superior.

Em relação aos dois eventos mencionados, observamos que, no primeiro caso, a pandemia mudou nossas dinâmicas de sociabilidade, laborais e de comunicação, acelerando a pergunta sobre a introdução ou ampliação do uso das novas tecnologias na pesquisa antropológica. A inserção dos entornos virtuais no próprio trabalho de campo antropológico (Miller, 2020) tem avançado com rapidez, sobretudo a partir das exigências de distanciamento social impostas durante a pandemia da Covid-19. O trabalho de campo presencial, no sentido antropológico clássico, evoca um deslocamento físico (Malinowski, 1922; Eriksen e Nielsen, 2001) e uma imersão/afetação na cultura do/a outro/a. Esses fenômenos do encontro social direto não se dissolveram, mas tomaram novas formas nas interações que transitamos hoje. Neste sentido, os mundos presenciais parecem não mais bastar: eles se tornaram janelas abertas para os mundos digitais.

Por sua vez, pontes para a interpretação da dimensão física do mundo são trazidas pelos mundos virtuais, que intervêm nos locais específicos cada vez que fazemos uso de ferramentas tecnológicas que mediam a interpretação, como é o caso das tecnologias de reconhecimento de imagem. Nossas interações sociais, antes consensuadas de forma mais plana no tempo e no espaço, foram ganhando densidade. A existência ciborgue apresentada por Haraway (1991) há três décadas já não mais nos alerta: hoje ela nos descreve. O conceito de híbrido foi ganhando corpo para compreender cada vez mais nossas interações sociais, on e offline, síncronas e assíncronas. Tanto no nível do consumo quanto da produção científica, nossos selfs se expandem em várias dimensões do tempo e do espaço.

Nesse sentido, vemos como inspiradoras as maneiras por meio das quais um conjunto de pesquisadores/as da Comunicação Social têm se aproximado dessas questões. Seja a partir de perspectivas de cunho teórico (Bruno, 2013), metodológico (Fragoso; Recuero; Amaral, 2011) ou epistemológico (Silva, 2022), compreendemos ser incontornável o trabalho sobre e com as ferramentas digitais dentro dos campos disciplinares das ciências sociais e humanas para navegar criticamente as complexidades do presente e, em particular, os desafios inerentes ao trabalho etnográfico.

Nossa relação como sociedade com a tecnologia está condicionada por fatores estruturais que não somente limitam seu aproveitamento em termos de acessibilidade e usabilidade (Iwarsson e Ståhl, 2003), mas também o próprio acesso à sua produção/ideação/criação. Dialogando com a dimensão da colonialidade do saber e do poder, os estudos sobre ciência e tecnologia na América Latina também se perguntaram pelo tipo de relação que uma ciência periférica, dependente e colonizada (Díaz; Texera e Vessuri, 1983) tem tido em relação à ciência, à técnica e, de forma mais tímida, às novas tecnologias digitais (Casas e Pérez-Bustos, 2019). Neste sentido, ponderamos que toda experimentação com novas tecnologias em ciências sociais e humanas precisa, de forma implícita ou explícita, contornar um ajuste entre certa tendência tecnofóbica dentro das nossas matrizes tecnológicas disciplinares e uma perigosa ingenuidade, que propagandiza benefícios imediatos no uso destas ferramentas.

Com essas compreensões em mente, chegamos ao seguinte questionamento: quais são as implicações do uso do Google Lens para a pesquisa etnográfica? Para tanto, trabalharemos a partir de registros de um caso específico, colhidos em trabalho de campo presencial em diferentes cidades da Tailândia.

 

Notas sobre o campo de estudo, os materiais e os métodos

O trabalho de campo em questão foi realizado por uma das autoras entre 24 de dezembro de 2022 e 22 de fevereiro de 2023, com apoio de uma bolsa TWAS/UNESCO Partnership em missão de pesquisa junto ao Gender and Development Studies Center do Asian Institute of Technology (AIT). O mesmo ocorreu nas províncias de Pathum Thani, Krung Thep Maha Nakhon, Chiang Mai, Nakhon Pathom e Chonburi, todas elas localizadas em território tailandês.

A Tailândia é um país de 5130,120 km² e 71.610.000 habitantes, situado no Sudeste Asiático e membro da comunidade internacional ASEAN (Association of Southeast Asian Nations) cuja independência remonta ao ano de 1350 a.C. Seu sistema de escrita, fortemente ligado à unificação do território Thai e à língua siamesa, foi proposto algumas décadas antes, quando em 1283 o Rei Ramkhamhaeng (em tailandês, พ่อขุนรามคำแหงมหาราช) estabeleceu suas bases, havendo mudado pouco o sistema de escrita séculos após (Tiencharoen, 1987). Por sua vez, o tailandês é uma das mais de seis dezenas de línguas faladas no país, contudo, majoritária deste território (Brown, 1965). A gravitação da língua, escrita e cultura sob a égide unificada do sistema Thai é notória no atual Estado. De fato, as três dimensões foram impostas à população de forma articulada como expressão do poder de unificação territorial da monarquia tailandesa, hoje categorizada como a monarquia parlamentarista de um Estado unificado (Sukhumbhand, 1993).

Apesar de algumas referências comuns entre a Tailândia e o Brasil, que dizem respeito à mútua identificação dos países como sendo parte do Sul Global, observamos que a alteridade cultural, relativa à distância radical ou familiaridade entre uma cultura e outra, não pode ser minimizada. São poucas as referências que, no Brasil, temos da Tailândia e do Sudeste Asiático como um todo. Uma importante exceção disso são as formas de soft power (Nye, 2004), um tipo de dominação cultural difusa divulgada pela cultura ligada ao k-pop, cute core e yaoi/boy love (Prasannam, 2019), formas de consumo ligadas à cultura pop produzidas majoritariamente pela Coreia do Sul, mas também por países como Japão, Tailândia e territórios como Taiwan.

Dito isso, é decerto que para a maioria das cidadãs e profissionais vindas da América Latina, alfabetizadas em português ou espanhol, qualquer incursão social ou mesmo etnográfica nos contextos socioculturais do país apresenta a dificuldade de acessar uma língua filologicamente distante como veículo de comunicação: enquanto o espanhol e o português pertencem à família de línguas românicas (Posner, 1998), o tailandês integra a família de línguas kra-daí (Tiencharoen, 1987). A isso, soma-se a dificuldade da compreensão, por parte das pessoas alfabetizadas em línguas românicas, dos caracteres que são particulares à escrita do sistema Thai. O contrário acontece, mas diferentemente, pois há acesso ao alfabeto românico a partir da hegemonia da língua inglesa nas comunicações internacionais (Phillipson, 1992), o que reverbera na sua popularidade entre segmentos médios-altos urbanos da população tailandesa.

Foi, portanto, enredada nesse contexto que o uso do Google Lens apresentou-se como um instrumento bem-vindo para a pesquisa etnográfica. Para esse trabalho em específico, foram usadas as capturas de um total de 160 imagens selecionadas a partir da produção etnográfica em campo. Elas foram fotografadas via smartphone Samsung Galaxy A13, tanto em formato paisagem, como retrato, e em momentos vinculados ao trabalho de campo etnográfico e à perambulação urbana de uma das autoras: caminhadas, passeios, visitas e deslocamentos em espaços mais ou menos voltados para o turismo, no período de dois meses. Boa parte das fotografias foi realizada em momentos nos quais era necessário um apoio tradutório em tempo real através do uso do Lens. Em outros casos, as fotografias foram tiradas e o uso da ferramenta foi realizado a posteriori. Dentre os elementos/cenários fotografados, há cartazes, moedas, cartões postais, bilhetes manuscritos, inscrições em fachadas, capas de livros, anúncios publicitários em telas de grandes dimensões, grafites, cupons fiscais, rótulos de embalagens e objetos diversos.

No que diz respeito às nossas tentativas de classificação dos materiais de campo, pensamos em diversas estratégias de aproximação das imagens. Inicialmente, experimentamos trabalhar com as imagens de acordo com a forma, de modo que as fotografias obtidas poderiam ser classificadas em: fachadas, documentos, grafites/pichações nas paredes, objetos, interfaces digitais, telas digitais em grande formato, manuscritos em papel. Também pudemos classificá-las de outra maneira, pelo conteúdo: imagens com textos relativos à divulgação científica, peças de publicidade, propaganda política, divulgação de regras estatais ou religiosas, manuais de uso, bulas médicas, etc.

Num terceiro e último esforço de classificação, propusemos trabalhar com imagens cujos textos escritos em tailandês, após a tradução via Lens, dessem lugar a resultados diversos. Assim, organizamo-las em um continuum que foi de um maior a um menor grau de ruído nos resultados. Compreendemos como ruído as interferências na tradução que desviam do enunciado original para significados que aparecem como confusos ou absurdos no novo contexto. Para tanto, como pauta de organização, e seguindo as propostas de Deleuze (1988), fizemos a leitura das imagens a partir do conceito do fora, daquilo que rebasa. Esse percurso será detalhado no tópico Experimentações e discussões: em meio à cacofonia visual.

 

Google Lens: apresentação da ferramenta

Em contextos de distância cultural, alteridade radical e/ou choque cultural, o uso de ferramentas tecnológicas que auxiliem a interpretação destes mundos e seus espaços sociais é oportuno e bem-vindo. E fornece, de fato, a possibilidade de transitarmos em espaços de pertencimento entrecultural (Corona Berkin, 2007), compreendidos como lugares onde fala e visibilidade podem se tornar públicas, e os diálogos, ainda que com ruídos, podem acontecer.

Há, entretanto, a possibilidade de estabelecer uma comunicação que envolve ruídos mínimos: é o caso do Código QR (quick response, resposta rápida), um tipo bidimensional de código de barras, legível a partir de câmeras de smartphones, que decodifica em alta velocidade e de modo unidirecional os dados nele armazenados, como links, textos e imagens (Tiwari, 2016). Os primeiros QR Codes foram criados inicialmente em 1994 pela fábrica de peças automotivas Denso Wave, subsidiária da empresa Toyota. Hoje, dada sua alta capacidade de armazenamento de dados, superior aos códigos de barra convencionais, bem como por todas as suas mencionadas características e pela facilidade do/a usuário/a comum encontrar ferramentas geradoras de QR Codes, seu uso espalhou-se no cotidiano, estando presente desde a decodificação de cardápios à leitura de chaves PIX, podendo ser veiculado pelas mais diversas mídias, impressas ou digitais.

 

Figuras 01 e 02: Exemplos de aplicações e usos dos QR Codes.

Fonte: Fotos de autoria própria, captadas em janeiro de 2023.

 

Na imagem à esquerda (Figura 01), a escultura de uma figura sentada do templo Wat Pho, em Bangkok/Tailândia, é acompanhada de uma placa informativa com um QR Code que direciona para um e-book com informações sobre uma postura de alongamento. Já na imagem à direita (Figura 02), há a propaganda de uma ONG exposta na parte de trás de um táxi em Bangkok, com dois QR Codes: o do canto inferior esquerdo direciona para a busca no Google pela Buddhist Compassion Relief - Tzu Chi Foundation, enquanto que o do canto superior direito leva para a página no Facebook da instituição.

Por outra parte, a leitura de cartazes e placas nas ruas, terminais de ônibus, hospitais, monastérios e feiras livres, bem como a possibilidade de acessar a tradução de uma bula medicamentosa ou de um rótulo de alimento podem ser uma verdadeira “mão na roda” para o trabalho etnográfico e para a própria sobrevivência, simplificando, agilizando e garantindo certa segurança nas decisões cotidianas.

As tecnologias que possibilitam ou facilitam esse tipo de interações comunicacionais podem ser programas de tradução online em tempo real - como é o caso do Google Tradutor. Tais programas recebem inputs em língua escrita ou em áudio e apresentam resultados (outputs) também escritos e em áudio. Assim, uma pergunta dita ou escrita em português pode, com o requisito de acesso à internet através de um aparelho com um navegador minimamente atualizado, ser traduzida à escrita, fala e indicação fonológica da frase em tailandês em tempo relativamente curto.

Nos espaços onde o trabalho de campo aconteceu, as orientações de uso dos espaços públicos - ou privados, mas habitados por grupos e comunidades - encontram-se boa parte das vezes em tailandês e em inglês, às vezes em tailandês, inglês e chinês e, em outras ocasiões, somente em tailandês. Como interagir com essas textualidades? Neste contexto, o uso do Google Lens, uma tecnologia privada de reconhecimento de imagens que continua a ser de uso gratuito na corrente data, trouxe algumas interessantes alternativas. Ao mesmo tempo, colocaram-se ao centro alguns desafios epistemológicos inadiáveis, que passaremos a descrever em seguida.

A ferramenta Lens é um sistema de reconhecimento visual de imagens que se vale da análise de rede neural para trazer informações relevantes sobre coisas que ela reconhece (Chennapragada, 2021). A utilidade foi anunciada inicialmente na conferência Google I/O 2017, tendo sido baixada mais de 500 milhões de vezes (Nguyen, 2021).

Nas palavras da própria empresa (Lens, s/d), ela funciona como um “um conjunto de recursos de visão computacional que entendem o que você está vendo e usam essas informações para copiar ou traduzir texto, identificar plantas e animais, conhecer lugares, ler menus, descobrir produtos, encontrar imagens visualmente parecidas e outras ações úteis”. Nessa descrição, de imediato dois pontos chamam nossa atenção: a) o reconhecimento de imagem extrapola a dimensão textual, foco deste artigo, englobando a identificação de imagens diversas; b) a maneira como a empresa sugere alguns usos, como é o caso de conhecer lugares ou ler menus, por exemplo, recursos particularmente interessantes em contextos de viagens a locais com idiomas estrangeiros.

De acordo com a revisão apresentada por Xingang Wang (2018), compreendemos que o Lens enquadra-se como uma tecnologia de reconhecimento de imagem. Combinada a tecnologias de aprendizagem de máquina e inteligência artificial, plataformas como a mencionada Lens, da empresa Google, e a Bing Visual Search, da Microsoft, operam como uma espécie de “câmera inteligente”, fornecendo informações adicionais sobre a imagem capturada.

Embutido no navegador Google Chrome ou em aplicativos como Google Assistente e Google Tradutor, o Lens funciona da seguinte maneira: com a opção ativada, basta direcionar a câmera do celular para elementos como códigos de barra, códigos QR, rótulos, textos, objetos, plantas ou animais, que a ferramenta irá trabalhar por semelhança em seu banco de dados, apresentando opções relacionadas. É ainda possível selecionar apenas parte de uma imagem, como seria o caso de apenas a camiseta na foto de corpo inteiro.

Ao fotografar uma imagem (Figura 03), o aplicativo apresenta as seguintes abas: a) Tradução, que detecta o idioma do possível texto presente na imagem, com opções de selecionar, ouvir e traduzir o texto para outros idiomas via Google Tradutor; b) Texto, com a opção adicional de pesquisar o texto da imagem diretamente no navegador; c) Pesquisa, permitindo conferir os resultados da busca da imagem no navegador; d) Dever de casa, voltado para o auxílio e resolução de problemas escolares, como são as equações matemáticas e exercícios de outras disciplinas; e) Compras, vinculado ao Google Shopping, mostrando as páginas de e-commerce que vendem aquele produto na web; f) Lugares, mostrando correspondências visuais da imagem fotografada, como seria útil no caso hipotético da identificação de uma praça; g) Refeições, voltado para a fotografia de menus de restaurantes, possibilitando que o/a cliente veja imagens dos pratos descritos nos cardápios.

 

Figura 03: Montagem com exemplos dos recursos do Lens,

exibindo da esquerda para a direita as opções Tradução, Compras e Texto.

Fonte: Prints de tela de celular de autoria própria e tradução via Google Lens.

 

De forma específica, para as intenções deste trabalho, nos dedicaremos à investigação da ferramenta Lens a partir do seu botão disponível no Google Tradutor. Para tanto, a perspectiva adotada por nós nessa pesquisa é entrecultural - quer dizer, ela sublinha as relações entre os/as sujeitos/as mediadas pelo espaço público, considerado-a como um espaço onde a diversidade cultural, mesmo que não sempre reconhecida, é intrínseca. Para Sarah Berkin (2007, tradução nossa), o prefixo entre - “não sugere acordo, boa relação ou compreensão; sugere a exposição do próprio frente ao estrangeiro em um espaço político, onde os outros se expõem e ao se exporem existem”.

Nessas dinâmicas de desacordo e confronto, têm chamado nossa atenção as traduções “defeituosas” realizadas pelo Lens, seja por meio de outputs que apresentam imprecisões gramaticais e lexicais, seja pela complexidade da tipografia ou do suporte dos inputs, como costuma ser o caso do reconhecimento de alguns textos manuscritos ou escritas integradas a imagens.

Antes de partir para a apresentação e análise desses casos, vale dedicar algumas linhas para comentar algumas dinâmicas relevantes vinculadas à empresa Google. De acordo com Shoshana Zuboff (2020), a Google é uma empresa pioneira no capitalismo de vigilância, tendo sido seguida de modo competitivo por big techs como Amazon, Microsoft, Apple e Facebook (hoje, parte da Meta). Por capitalismo de vigilância, a autora compreende a lógica por trás das dinâmicas de extração de dados comportamentais humanos com finalidades econômicas. Na leitura que fazemos, esse fenômeno insere-se num cenário ainda mais amplo de cultura da vigilância, conforme teorizado por David Lyon (2018). Se, numa primeira camada, a coleta de dados comportamentais ocorre com a finalidade de aperfeiçoar os próprios recursos da plataforma, logo revela-se - ou oculta-se - o restante do corpo desse iceberg, sendo a coleta do superávit comportamental o motor dos modelos de negócios das empresas. O caso da Google é emblemático nesse sentido. Para Zuboff (2020), a empresa revolucionou as dinâmicas e escalas de extração de dados de modo equivalente às revoluções nas dinâmicas e escalas de produção empreendidas pela empresa Ford no início do século XX.

A extração de dados apresenta-se, portanto, como um imperativo econômico da cultura capitalista de vigilância, cuja menção e reflexão crítica são incontornáveis ao lidarmos com plataformas de tecnologia digital em contextos de ensino e pesquisa científica. No caso do Lens, as imagens que subimos na plataforma, de modo anonimizado e entrelaçado a outros dados comportamentais, são cedidos à Google, suas empresas afiliadas e seus chamados “parceiros” (Parceiros, s/d): empresas desenvolvedoras e anunciantes interessados/as em determinados conjuntos de dados. Vale pontuar, entretanto, que por trás da aparente transparência no trato dos dados coletados, pode haver ocultamentos deliberados - e casos como o recente escândalo da Cambridge Analytica e Facebook expõem a fragilidade desses processos (Schwartz, 2017).

Somam-se ao cenário de coleta de superávit comportamental e das brechas na regulamentação pública das plataformas digitais os mencionados vieses racistas, sexistas e excludentes que revelam-se no uso cotidiano das ferramentas digitais. É em meio a esse contexto que o Google Lens está imerso - sendo, portanto, passível de reproduzir esses vieses, nos convocando a um uso crítico e estratégico da ferramenta.

No cotidiano, experienciamos uma situação, pós-trabalho de campo, na qual houve o uso espontâneo do Lens para a leitura de um souvenir trazido da Tailândia (Figura 04). O cartão, adquirido no contexto das festividades do Ano Novo chinês, logo teve seus caracteres traduzidos pelo presenteado, revelando os dizeres boa sorte e Que você seja feliz e próspero.

 

Figura 04: Uso do Lens via smartphone através do aplicativo Google Tradutor.

Fonte: Autoria própria, 2023.

 

Experimentações e discussões: em meio à cacofonia visual

Conceitos-chave da área da antropologia, tais como o de relativismo cultural e do caráter holístico da cultura, aplicados à discussão sobre as tecnologias de reconhecimento de textos em imagens, como é o caso do Lens, podem cobrar uma forma renovada:

a) Todo conhecimento é situado;

b) Toda linguagem depende da comunicação;

c) A mediação linguística realizada pelo ato tradutório é um processo complexo que deve ser tomado como um problema em si;

d) Não há espaços neutros nos territórios da enunciação nem da recepção dos sentidos.

Logo, a antropologia linguística facilitaria um caminho de problematização que deve ser realizado de forma paralela ao desenvolvimento deste tipo de tecnologia.

Conforme apresentamos na seção Métodos e materiais, optamos por classificar os materiais de campo a partir do desvio, do ruído, acompanhando as proposições deleuzianas acerca do conceito de fora (Deleuze, 1988). Nesse lado de fora residem formas resistentes às relações de forças. Tais forças são constituintes das relações de poder - estas que, como já vimos, são indissociáveis dos saberes e, acrescentamos, apresentam-se difusas, como nós ou pontos, e não emanam de um eixo central, mas espraiam-se pelos enunciados e visibilidades que as instituições organizam a partir de suas múltiplas regras e aparelhos, discursivos ou não (ibidem). Com isso em mente, as relações de poder funcionam como espécies de diagramas, cujos enunciados traçam curvas por entre os pontos nodais das forças, estas sempre em movimento.

Apresentamos inicialmente um par de imagens (Figura 05) que mostra uma tradução mais “accurate” (ajustada), vinculada à embalagem de duas cápsulas com extrato de pimenta e galingale (Kaempferia galanga), conhecido como gengibre tailandês. Podemos observar que o fato dos escritos serem estandarizados digitalmente em fontes tipográficas influencia na legibilidade da imagem. Além disso, é possível notar que artigos de uso medicinal ou alimentar, bem como regras de trânsito e formas de deslocamento em grandes espaços – o caso de rodoviárias, aeroportos, estações de trem ou metrô –, todos os quais se encontram vinculados a sistemas de prescrição mais controlados e a linguagens técnicas, costumam oferecer traduções mais nítidas nesta ferramenta.

 

Figura 05: Produto medicinal de fácil identificação através da tradução do Lens.

Fonte: Foto de autoria própria e tradução via Lens.

 

Em outras situações, as traduções resultaram em textos ora de sentido incompleto ou pouco plausível para o contexto, ora diretamente incompreensíveis. Tais outputs de teor non sense, com informações que se aproximam do absurdo, pouco nos falam da intenção comunicativa dos/as emissores/as envolvidos/as na produção destas inscrições. Na Figura 06, o registro fotográfico da escrita com piloto no muro de uma rua próxima da Yaowarat Road, em Chinatown - Bangkok, a tradução informa: Despeje o lixo para o papai!! Você é?.

 

Figura 06: Montagem de tradução com resultado confuso ou absurdo

Fonte: Foto de autoria própria e tradução via Lens.

 

Já na Figura 07, da fotografia de uma seção do muro atrás de um templo budista chinês, em Chinatown - Bangkok, vemos uma espécie de infográfico com duas imagens: a primeira, uma espécie de cobertura, ou telhado, num estilo genericamente classificado como oriental; e a outra de uma pessoa, talvez enrolada ou mumificada, vista de cima sobre um retângulo - talvez uma cama ou caixa. Há setas, às vezes bidirecionais, conectando as duas figuras, bem como palavras escritas em tailandês. Na tradução para o português, identificamos um ideograma chinês (, respeitosamente), enquanto o restante do texto diz: **sardas; vender; substâncias, papel, cola e quebrar ah, numa dadaísta dissonância de sentidos que envolve palavras, onomatopéias e sinais gráficos.

 

Figura 07: Montagem de tradução de sentido confuso ou absurdo.

Fonte: Foto de autoria própria e tradução via Google Lens.

 

A Figura 08, por sua vez, traz uma imagem obtida em uma rua periférica da ilha de Koh Sichang. Sua tradução1, apesar de trazer algumas pistas de significado, nos levando a compreender que se trata de um comunicado legal ou jurídico sobre o terreno ou propriedade onde está fixado, apresenta algumas lacunas no sentido, com frases aparentemente incompletas, expressões curiosas como aprenda a dardo e execute a linha de luz, bem como uma informação após um asterisco que não está vinculado a nenhuma informação anterior.

Por último, apresentamos o par de imagens da Figura 09, um cavalete fotografado próximo ao porto da ilha de Koh Sichang, e que, apesar dos vários caracteres e palavras, resulta apenas na tradução em português para palavra abrir, bem como na tradução de uma informação periférica, com os dizeres em Koh Sichang, de outra placa fotografada parcialmente e de modo não intencional. A tradução, apesar de coincidir com a ilustração de uma menina de boca aberta, na verdade, pouco contribui para a compreensão do sentido geral da placa.

 

Figura 08: Montagem de tradução de sentido confuso ou absurdo.

Fonte: Foto de autoria própria e tradução via Lens.

 

Figura 09: Montagem de tradução de sentido confuso ou absurdo.

Fonte: Foto de autoria própria e tradução via Lens.

 

Navegando pelo lado de fora

Na presente análise da cacofonia in crescendo que aparece nos resultados da tradução textual -, retomamos as reflexões de Deleuze (1988). Nelas, observamos como as capturas recíprocas entre poder e saber estabelecem um “fora” inapreensível entre dispositivos como o diagrama e o arquivo. Neste sentido, o Lens poderia se constituir como dispositivo híbrido, configurado pelas forças de um complexo poder-saber que “une o diagrama e o arquivo” (ibidem, p. 83), afetando desta forma múltiplas dimensões do ato comunicacional. De forma mais ampla, as tecnologias de reconhecimento de imagem configurariam um novo jogo entre o que é visível, dizível e legível.

O filósofo reflete sobre o poder como campo de forças, apontando que “as relações de poder não emanam de um foco único de soberania, mas vão a cada instante de um ponto a outro no interior de um campo de forças, marcando inflexões, retrocessos, retornos, giros, mudanças de direção, resistências” (ibidem, p. 81). Desta forma, nossos resultados poderiam se localizar em um continuum, colocando, de um lado, aqueles sentidos que conseguem ser capturados pela tecnologia de reconhecimento de imagens de forma regular, como são as fotografias de caracteres de fontes digitais capturados nitidamente, configurando uma espécie de quadro-descrição enquanto “regulação que caracteriza as visibilidades” (ibidem, p. 87). Do outro, encontram-se aquelas “ligações móveis e não localizáveis” (ibidem, p. 82), que apresentam resultados manuscritos, confusos, ambivalentes ou absurdos, configurando-se como o lado de sombra onde a ferramenta não penetra.

A Figura 05 representa o primeiro extremo deste leque imaginário, exibindo uma regularidade que permite a compreensão. Por regularidade, entendemos aquilo que torna um enunciado inteligível, “a curva que une os pontos singulares” (ibidem, p. 84). Poderíamos arriscar mais uma definição do que é uma mensagem inteligível neste tipo de tecnologia: é aquela capaz de atravessar várias camadas - em termos de órgãos seriam mãos, cérebros, olhos humanos mediados por máquinas e programas realizados por outras mãos, cérebros e olhos humanos - e se manter o menos alterada possível. E dizemos o “menos alterada possível” porque, da mesma forma que a tradução envolve uma traição, o reconhecimento de imagens e textos, nos quais agem dimensões imagéticas da tradução, potencializam essas possibilidades de mudança, forclusão ou quebra de sentidos a respeito dos contextos originais.

Por outro lado, as Figuras de 06 a 09 constituem o extremo oposto deste espaço domesticado, capturado e regular acima mencionado. Nelas, os resultados são cacofônicos, inesperados, assêmicos e esvaziam a força do uso desta ferramenta nos contextos cotidianos. A dimensão estética da imagem é alterada, padronizada, o saber não se configura, o poder não alcança. Tal ponto viria a configurar aquilo que Deleuze (ibidem, p. 88) chama de “o terceiro: o não conhecido, não visto, não dito”, situado nos interstícios e que faz impossível qualquer tipo de relação significativa.

Enquanto isso, a lógica algorítmica do Lens se mantém ignorante até que suas dinâmicas algorítmicas sejam atualizadas, os bancos de dados sejam encorpados ou, em menor escala, um relatório de erros seja enviado, ativando, de forma difusa, novos inputs no quesito solicitado que talvez em algum momento sejam definidos por parte da empresa. Ao mesmo tempo, e desde outro ponto de vista, tais plataformas continuam a ser dependentes dos/as usuários/as que as alimentam e ativam de forma corriqueira, naturalizando muitas vezes a sua presença como ferramentas “neutras” de obtenção de informação para fins próprios do/a usuário/a.

Ao passo em que são disponibilizados cada vez mais dados online, os sistemas de aprendizagem de máquina das plataformas são aperfeiçoados, em direta relação com as mencionadas cultura capitalista de vigilância e coleta de superávit comportamental. Assim, as corporações que detêm o poder da construção e manutenção destes dispositivos produzem “verdade enquanto problema” (ibidem, p. 90), num movimento que se pretende crescente e que avança na captura de dimensões cada vez mais íntimas, menos expostas, menos dizíveis e menos traduzíveis da vida social.

Finalmente, entre ambos os pontos deste continuum, que vai desde uma captura mais regular até uma captura cacofônica, uma boa parte das imagens opera nos interstícios, trazendo soluções parciais, relativamente precárias, mas não totalmente disparatadas, que configuram atos comunicativos com ruídos, mas funcionais. Desta forma, a base de sentidos promovida pelas capturas das tecnologias de reconhecimento de imagem, assim como qualquer movimento de captura da realidade por parte de dispositivos de saber poder, existem “em estado de agitação, de mistura e de recombinação, de mutação” (ibidem, p. 94).

 

Considerações finais

Neste trabalho, debatemos acerca do uso de tecnologias de reconhecimento de imagens como forma de mediação entrecultural a partir de um diálogo sinérgico entre a Antropologia e a Comunicação Social. De forma mais específica, problematizamos as potencialidades metodológicas do Google Lens como tecnologia de reconhecimento de imagens no trabalho de campo antropológico, assim como algumas das suas implicações teóricas, que se situam na discussão entre o que está “dentro” e o que está “fora” da malha fina do poder-saber nos campos digitais híbridos - digitais e presenciais.

Na direção deste argumento, trazemos aqui a importância de pensarmos os espaços virtuais da mesma forma que os presenciais: públicos ou privados, são essencialmente lugares em disputa. À classificação entre espaços devemos interseccionar a classificação entre espaços físicos e virtuais: há espaços públicos virtuais (a minoria) e há espaços públicos privados (uma grande maioria). O Lens é um espaço imersivo que, por seu uso gratuito e relativa acessibilidade, aparenta ser público, mas continua a ser privado. Neste sentido, ele tem os problemas de uma empresa privada somados às problemáticas dos monopólios da gestão de sentidos em qualquer sociedade, diretamente relacionados à vigilância dos corpos, à ficção de “transparência” e à coleta de superávit comportamental.

Nesse contexto, reforçamos a importância de investir maiores esforços em processos de tradução em chave Sul-Sul (Carrascosa, 2016), atualizando criticamente as nossas metodologias etnográficas em campo e fazendo um uso criterioso destas ferramentas. O fato de lidarmos com artigos elaborados no Norte Global sobre dispositivos tecnológicos projetados no Sul Global com uma apropriação básica diz também respeito às particularidades da ciência que fazemos, que é uma ciência periférica. Além disso, é mister construir cidadania informando políticas públicas desse uso, pois esses espaços estão em disputa. É neste sentido que já as ruas e a praça não são mais as únicas formas de produzir ligações de solidariedade. O papel das ciências neste contexto não é somente o de produzir conhecimento, mas também alertar sobre as possibilidades e limitações do uso de dispositivos que nos auxiliam metodologicamente na produção destes conhecimentos.

              A partir do exposto, observamos que, nos casos aqui em estudo, identificar a semente do fantástico surge como um gesto intencional e crítico frente ao uso acrítico de ferramentas tecnológicas. Com isso, sugerimos uma aproximação que entende os ruídos, glitches e cacofonias visuais como pertencentes a um “fora”, espaço somente visível através dos resultados indesejados e não intencionais expostos pelas plataformas em uso.

 

Referências bibliográficas

BROWN, James M. From Ancient Thai to Modern Dialects. Bangkok: Social Science Association Press of Thailand, Bangkok, 1965.

BRUNO, Fernanda. Máquinas de ver, modos de ser. Porto Alegre: Sulina, 2013.

BUOLAMWINI, Joy; GEBRU, Timnit. Gender shades: intersectional accuracy

disparities in commercial gender classification. Proceedings of Machine Learning Research, n. 81, p. 1-15, 2018.

CARRASCOSA, Denise. Traduzindo no Atlântico Negro: por uma práxis teórico-política de tradução entre literaturas afrodiaspóricas. Cadernos de Literatura em Tradução, n. 16, p. 63-71, 2016.

CARRERA, Fernanda. CARVALHO, Denise. Algoritmos racistas: a hiper-ritualização da solidão da mulher negra em bancos de imagens digitais. Galáxia, n. 43, p. 99-114, jan-abr 2020.

CASAS, Rosalba; PÉREZ-BUSTOS, Tania. Ciencia, tecnología y sociedad en América Latina: la mirada de las nuevas generaciones. Buenos Aires: CLACSO/ESOCITE, 2019.

CHENNAPRAGADA, Aparna. Helpful new visual features in Search and Lens. Publicado em: 7 mai. 2019.

Disponível em: https://blog.google/products/search/helpful-new-visual-features-search-lens-io/. Acesso em: 1 mar. 2023.

CHRISTIAN, Jon. Why Is Google Translate Spitting Out Sinister Religious Prophecies? Publicado em: 20 jul. 2018. Disponível em: https://www.vice.com/en/article/j5npeg/why-is-google-translate-spitting-out-sinister-religious-prophecies. Acesso em: 19 mar. 2023.

CORONA BERKIN, Sarah. Entre voces: fragmentos de educación “entrecultural”. Guadalajara: Universidad de Guadalajara, 2007.

DÍAZ, Elena; TEXERA, Yolanda; VESSURI, Hebe. La ciencia periférica. Caracas: Monte Ávila Editores, 1983.

DELEUZE, Gilles. As estratégias ou o não estratificado: o pensamento do lado de fora (poder). In: Foucault. São Paulo: Brasiliense, 1988, p. 78-100.

DIREITOS Humanos: Documentos internacionais. Brasília: Presidência da República, Secretaria Especial de Direitos Humanos, 2006.

ECHAZÚ BÖSCHEMEIER, Ana Gretel; CARVALHO, Breno; OLIVEIRA, Luan; MEDEIROS, Nathalia. (2022). Diálogo com Lideranças: Etnografia para uma Ciência Cuidadã no Enfrentamento à COVID-19 no Nordeste Brasileiro. Revista PLURAL, Antropologías desde América Latina y del Caribe, n. 10, 2022.

ERIKSEN, Thomas; NIELSEN, Finn. A History of Anthropology. Londres: Pluto Press, 2001.

FRAGOSO, Suely; RECUERO, Raquel; AMARAL, Adriana. Métodos de pesquisa para internet. Porto Alegre: Sulina, 2011.

HARAWAY Donna. Simians, cyborgs, and women: the reinvention of nature. New York: Routledge, 1991.

IWARSSON, Susanne; STÅHL, Agneta. Accessibility, usability and universal design: positioning and definition of concepts describing person-environment relationships. Disability and Rehabilitation. vol. 25, n. 2, p. 57-66, 2003.

LENS - O que é o Google Lens. S/d. Disponível em: https://lens.google/intl/pt-BR/howlensworks/. Acesso em: 13 mar. 2023.

LYON, David. Cultura da vigilância: envolvimento, exposição e ética na modernidade digital. In: BRUNO, Fernanda (et al.). Tecnopolíticas da vigilância: perspectivas da margem. São Paulo: Boitempo, 2018.

MALINOWSKI, Bronisław. Argonauts of the western Pacific: an account of native enterprise and adventure in the archipelagoes of Melanesian New Guinea. London: Routledge & Sons, 1992.

MILLER, Daniel. Como conduzir uma etnografia durante o isolamento social. Blog do

Labemus. Publicado em: 23 mai. 2020. Disponível em:

https://blogdolabemus.com/2020/05/23/notas-sobre-a-pandemia-como-conduzir-uma-etnografia-durante-o-isolamento-social-por-daniel-miller/. Acesso em: 26 jan. 2023.

MOORKENS, Joss. The translator, an endangered species? The UNESCO Courier, n. 2, p. 24 - 25, ago. 2022.

NOBLE, Safiya. Algoritmos da opressão: como o Google fomenta e lucra com o racismo. Santo André: Rua do Sabão, 2021.

NYE, Joseph. Soft power: the means to success in world politics. New York: Public Affairs, 2004.

NGUYEN, Vihn. Determinants of Intention to use Google Lens. Special Issue on Learning Systems and Innovation in Education – iJIST, vol. 5, n. 2, out. 2021.

Organização Pan Americana de Saúde (OPAS). Entenda a infodemia e a desinformação na luta contra a COVID-19. Publicado em: 30 abr. 2020. Disponível em: https://iris.paho.org/handle/10665.2/52054. Acesso em: 02. mar. 2023.

PARCEIROS - Quem são os parceiros do Google?. S/d. Disponível em: https://policies.google.com/privacy/google-partners?hl=pt-BR. Acesso em: 13 mar. 2023.

PHILLIPSON, Robert. Linguistic imperialism. Oxford: Oxford University Press, 1992.

POSNER, Rebecca. Las lenguas romances. Cátedra: Madrid, 1998.

SUKHUMBHAND, Paribatra. State and Society in Thailand: How Fragile the Democracy? Asian Survey, vol. 33, n. 9, p. 879–93, 1993.

PRASANNAM, Natthanai. The Yaoi Phenomenon in Thailand and Fan/Industry Interaction. Plaridel Journal of Communication, Media, and Society, v. 16, n. 2, p. 63-89, 2019.

ROCHA, Lavínia (@lavi_rocha). “Adoro vê-los (...)”. Publicado em: 15 fev. 2023, 18h47min. Tweet. Disponível em: https://twitter.com/lavi_rocha/status/1625975067023736834?s=20. Acesso em: 19 mar. 2023.

SCHWARTZ, Mattathias. O Facebook não protegeu 30 milhões de usuários (...). Publicado em: 31 mar. 2017. Disponível em: https://theintercept.com/2017/03/31/o-facebook-nao-protegeu-30-milhoes-de-usuarios-de-terem-dados-acessados-por-uma-das-empresas-da-campanha-de-trump/. Acesso em: 31 jan. 2022.

SILVA, Tarcízio. Racismo algorítmico: inteligência artificial e discriminação nas redes sociais. São Paulo: Edições Sesc São Paulo, 2022.

TIENCHAROEN, Supanee. A Comparative Study of Spoken and Written Thai: Linguistic and Sociolinguistic Perspectives. Tese de Doutorado. Georgetown University, 1987.

TIWARI, Sumit. An introduction to QR Code Technology. 2016 International Conference on Information Technology (ICIT), Bhubaneswar, Índia, 2016, p. 39-44.

WANG, Xing-Zhu. A Review of Image Recognition Technology. Proceedings of the 2nd International Conference on Artificial Intelligence: Technologies and Applications (ICAITA), vol. 146, p. 24-28, 2018.

ZUBOFF, Shoshana. A era do capitalismo de vigilância. Rio de Janeiro: Intrínseca, 2020.

 

Data de Recebimento: 19/08/2024
Data de Aprovação: 13/11/2024


1  Transcrição da tradução da Figura 09: Placa menor, acima: não posso reclamar / Prateep Kawepanlang foi colocado como. Placa maior, abaixo: Eu sou Phae Thara, me mudando para Kham Prik, a estrada 242 de largura, com um total de 332,75 rom. O Sul pediu justiça ao xerife distrital, governador da ouvidoria do estado desde março de 1998 como / Na 21ª turma, 2011, denúncia está arquivada há 24 anos e tem sido utilizada para despacho, mas o responsável não acatou a ordem. Portanto, aprenda a dardo e, em seguida, execute a linha de luz. / *foi dividido em capítulos.






REVIEW
resenha

ARTES
artes