Anchor Deezer Spotify

O ChatGPT está nos deixando mais burros? Não é bem assim, diz cientista do MIT

O ChatGPT está nos deixando mais burros? Não é bem assim, diz cientista do MIT

Em entrevista à GALILEU, a pesquisadora Nataliya Kosmyna, do MIT Media Lab, defende que o ChatGPT não está exatamente “nos deixando mais burros”. Mas é preciso saber o momento certo de usá-lo para não atrapalhar a aprendizagem

A notícia se espalhou rapidamente: o ChatGPT estaria nos deixando mais burros. Foi esse o atalho que boa parte da mídia e das redes sociais tomou ao divulgar um estudo do MIT Media Lab, laboratório de pesquisa do Instituto de Tecnologia de Massachusetts, no início de junho. Mas a realidade é um pouco mais complexa. “Quando vejo as pessoas dizendo ‘meu Deus, a IA apodrece o cérebro’, tomo muito cuidado”, disse a pesquisadora Nataliya Kosmyna, autora correspondente do estudo, em entrevista exclusiva à GALILEU.

O trabalho monitorou 54 estudantes de cinco universidades da região de Boston enquanto eles redigiam quatro ensaios curtos. Na metade das sessões, o grupo “somente cérebro” escreveu sem apoio externo; outro grupo contava com o ChatGPT para gerar rascunhos e dar sugestões. Os pesquisadores mediram a atividade neural em tempo real dos voluntários, avaliaram os textos que eles entregaram, se eles lembravam das fontes citadas e registraram o esforço percebido por cada aluno.

Entre quem recorreu ao ChatGPT, a conectividade global — especialmente as ligações entre os dois hemisférios responsáveis pelo planejamento e pelo monitoramento da linguagem — caiu de forma consistente, e os participantes quase não se lembraram das referências que usaram. Já os que começaram sem IA e receberam a ferramenta depois mostraram um pico de engajamento cerebral, um sinal de que a ordem de usar a tecnologia pode influenciar o aprendizado.

Kosmyna insiste que as conclusões ainda são preliminares: a amostra é pequena, o foco foi apenas a redação de ensaios e o artigo ainda nem passou por “revisão de pares”, sendo avaliado por cientistas independentes. Mesmo assim, ela vê uma lição nos achados. Modelos como o ChatGPT podem acrescentar valor quando o estudante já domina as noções básicas de uma redação. Antes disso, podem eliminar etapas vitais do raciocínio e aprendizado. Por isso, defende que escolas e governos testem os LLMs [modelos de linguagem que transmitem ideia de forma semelhante à humana] em séries avançadas, apoiem estudos de longo prazo e definam regras claras de uso.

“Pense no conhecimento instantâneo que temos agora com os LLMs como a frase “agora eu sei Kung Fu” do filme Matrix, algo que magicamente foi carregado na cabeça do personagem”, explica. “Essa sedução do conhecimento instantâneo é real, mas você não aprendeu Kung Fu, o que significa que existe a chance de você não saber o que fazer em uma luta real. Quando é fácil demais, você vai se desligar e não vai se importar.” A seguir, ela fala mais sobre os resultados do estudo, a pressão das Big Techs nas salas de aula e indica caminhos para que a IA some, em vez de atrapalhar, o aprendizado humano.

A pesquisa mostrou que estudantes que usaram o ChatGPT para escrever redações apresentaram menor conectividade cerebral em comparação com aqueles que escreveram sem nenhuma ajuda. Que tipo de processos mentais são ignorados quando dependemos da IA para realizar tarefas como essa?

O que vimos foi que no grupo “somente cérebro”, aqueles que não usaram nenhuma ferramenta para fazer o ensaio, essa conectividade estava muito presente. O cérebro todo estava ativamente interconectado. Isso significa que vimos muito do que chamamos de “redes amplas”, a interconexão entre os hemisférios do cérebro. Isso não é surpreendente, porque eles não tinham ferramentas. Precisavam formular a ideia da estrutura do ensaio, elaborar seus exemplos, a linguagem.

No grupo LLM, que usou o ChatGPT, vimos menos essa conectividade. Isso significa que algumas áreas do cérebro — ainda é cedo para dizer o que realmente significa em larga escala — estavam menos engajadas no processamento dos estímulos. Mas é muito importante notar que isso não significa que está tudo perdido, que acontece o mesmo em todos os tipos de tarefas. Muitas pessoas, inclusive a mídia, falaram em “brain rot” ou “dano cerebral”, o que é incorreto.

Vimos também outros processos diferentes — para simplificar, diferentes maneiras de “encriptar” e “desencriptar” informações no cérebro. É uma teoria proposta há cerca de 25 anos por diversos pesquisadores que falaram especificamente sobre como a informação é encriptada no cérebro. Por exemplo: você está criando essa informação ou somente processando o que está diante de você? No geral, vimos muitas diferenças, muito menos interconectividade entre os hemisférios entre quem não usou o ChatGPT e quem usou. Analisado isoladamente, talvez não pareça nada demais, mas quando você junta com outras descobertas do nosso grupo — como a incapacidade de fazer citações ou lembrar o que escreveram —, começa a surgir um panorama maior.

No Brasil, muitas pessoas trataram o estudo como uma prova de que o ChatGPT está nos deixando mais burros. Como você responde a essa interpretação?

Não é uma prova definitiva. Para termos algo mais definitivo — o que estamos tentando alcançar, convidando pesquisadores de todo o mundo para formar parcerias — precisamos trabalhar com populações maiores. Precisamos incluir também diferentes faixas etárias e levar em consideração que o estudo analisou ensaios, o que pessoalmente considero uma tarefa criativa bastante complexa. Afinal, o ensaio não diz respeito ao ensaio em si, e sim a ensinar uma pessoa a expressar ideias, manter um fluxo consistente de argumentos. Mas é muito importante também entender outros casos de uso.

O que você acha que pode se perder nessas simplificações?

Quando vejo as pessoas dizendo “meu Deus, a IA apodrece o cérebro”, eu sempre tomo muito cuidado. Afinal, sou uma pesquisadora que trabalha com cérebro há 16 anos. Mas também trabalho com IA. Toda minha formação foi em IA, antes de ser algo popular. Então, é muito importante saber duas coisas: estamos falando sobre LLMs, os modelos de linguagem de larga escala. Mas a IA em si existe há 50, 60 anos. Ela já era usada para análise de dados. São coisas diferentes. Sempre recomendo às pessoas nomearem especificamente a ferramenta sobre a qual estão falando. Aqui, estudamos o uso de LLMs para ajudar na escrita de ensaio. Não é sobre toda a IA.

Em uma parte do estudo, os grupos se inverteram — e curiosamente, quem passou do “somente cérebro” para usar ChatGPT mostrou uma conectividade cerebral maior do que aqueles que seguiram no grupo sem ferramenta desde o início. O que isso sugere?

Se você fosse nossa participante e tivesse sido designada para o grupo do ChatGPT, na sessão quatro você iria para o grupo “somente cérebro”. E o contrário também ocorreu. Muitas pessoas que leram o artigo e falaram em dano cerebral não chegaram até essa parte, que é a mais interessante.

Quando essa troca aconteceu — e novamente medimos conectividade cerebral, produção textual e tudo mais —, vimos que os participantes que usaram inicialmente o LLM, o ChatGPT, e depois perderam o acesso, apresentaram menor conectividade cerebral. Por outro lado, os participantes que estavam no grupo “somente cérebro” e que depois passaram a usar o ChatGPT, apresentaram maior conectividade cerebral do que os do grupo “somente cérebro”.

Isso pode significar que o momento da introdução da ferramenta pode ser muito importante. Em uma escola, se você tem estudantes aprendendo uma nova habilidade ou ferramenta, talvez não valha a pena introduzir as LLMs logo no primeiro semestre — melhor deixar para o segundo, quando os estudantes já tiverem aprendido o básico.

Há uma pressão crescente para que escolas adotem IAs como o ChatGPT o quanto antes, com o argumento de que, se não fizerem isso, ficarão para trás. O que você diria para quem defende a adoção acelerada dessas ferramentas nas escolas?

Por melhores que sejam alguns casos de uso, precisamos ser claros sobre o que é bom, o que é ruim e o que é problemático — e onde precisamos de regulamentações. É nesse sentido que os legisladores podem agir de forma mais eficaz e apoiar pesquisas como essa, para realmente entender o que acontece no cérebro das pessoas — dos jovens que agora estão usando, ou sendo levados a usar, alguns desses sistemas sem nenhuma avaliação adequada. Temos esses sistemas ou esses algoritmos, que geralmente são modelos de empresas com fins lucrativos, sendo empurrados agressivamente nas escolas dos EUA. Não sei como é no Brasil, mas presumo que aí também haja essa pressão, porque ouço isso em todos os lugares: “precisamos usar isso na escola, senão vamos ficar para trás”. Mas a pergunta é: será mesmo que vamos ficar para trás? Temos dados que mostrem que será tão ruim se não integrarmos isso imediatamente? Não temos esses dados.

O fato de o estudo ter provocado todas essas perguntas, por si só, é tão valioso quanto a contribuição científica. Porque as empresas de IA não vão pensar no usuário ou no impacto da tecnologia, mas nós sim podemos pensar nos usuários, nos seres humanos. No fim das contas, a ideia é apoiar a introdução adequada de ferramentas poderosas que podem ter oportunidades de ganhos interessantes. Mas, ao mesmo tempo, precisamos ser críticos quanto ao “onde” e “como”. E se temos o controle.

No estudo, o grupo “somente cérebro” teve conectividade neural mais forte, mas também relatou mais dificuldade e menor satisfação. Como traçamos a linha entre estimulação cognitiva saudável e sobrecarga mental desnecessária?

Acho que no começo é preciso exigir que seja feito sem ajuda. Ou seja, quando você está começando. Mesmo que seja uma redação sobre “como foram minhas férias de verão” no caso de uma criança pequena, que está começando a aprender como debater e apresentar suas ideias. De que outra forma ela aprenderia a habilidade de perceber que o que está dizendo pode ser um absurdo? Como saberia construir um argumento? Como saberia o que é um argumento? Afinal, para escrever um prompt, você precisa saber escrever — não apenas digitar palavras. Para fazer uma pergunta, você precisa saber qual pergunta fazer.

Foi o que potencialmente mostramos na sessão quatro, com o grupo “somente cérebro” que depois teve acesso ao LLM. Aquelas pessoas começaram sem ajuda, pensaram sobre os temas dos ensaios e refletiram. E aí elas receberam a ferramenta e começaram a pensar: “eu tinha todas essas ideias. Vamos ver o que outras pessoas pensam. Me dê referências e pontos sobre esse tema.” Elas tinham suas opiniões, suas ideias, e agora puderam fazer perguntas completamente diferentes. Não pediram para que a IA escrevesse por elas.

A facilidade de obter respostas com ferramentas como o ChatGPT pode dar a sensação de aprendizado, mas sem esforço. Por que a promessa do “conhecimento instantâneo” pode ser mais sedutora do que útil?

O aprendizado realmente precisa ser difícil. Não excessivamente difícil, além dos seus limites. Mas deve haver carga cognitiva, porque é assim que se aprende. Se você nunca recebesse um feedback dizendo que o seu ensaio está errado, que essa frase tem sete linhas e vai espantar todos os leitores, nunca aprenderia a escrever um ensaio.

Pense no conhecimento instantâneo que temos agora com os LLMs como a frase “agora eu sei Kung Fu” do filme Matrix, algo que magicamente foi carregado na cabeça do personagem. E essa sedução do conhecimento instantâneo é real, mas você não aprendeu Kung Fu. Seus músculos não doeram, você não quebrou nenhum osso, isso tudo veio sem nenhum custo para seu corpo e para seu cérebro. O que significa que existe a chance de você não saber o que fazer em uma luta real. Quando é fácil demais, você vai se desligar e não vai se importar. E isso também foi algo que mostramos em nosso artigo com nossos resultados. As pessoas no grupo do ChatGPT não conseguiram fazer citações porque não lembravam — afinal, não escreveram por conta própria seus ensaios.

A ciência já tem ferramentas precisas para detectar se um conteúdo foi gerado por IA? Deveríamos impor algum tipo de assinatura para indicar que algo foi escrito por uma IA ou por um humano?

É algo realmente difícil, mas existem maneiras para isso. Especificamente, pense no que fizemos no artigo: entregamos os ensaios para professores de inglês avaliarem. Eles não sabiam nada do protocolo, simplesmente os contratamos depois que tudo já havia sido feito e dissemos: aqui estão os ensaios, por favor, avaliem de acordo com uma escala e voltem para nos explicar. E eles conseguiram perceber o que foi gerado por IA. O mais interessante é que eles disseram: “achamos que esses aqui vêm da mesma pessoa”. Ou seja, conseguiram perceber micro diferenças linguísticas nos ensaios e atribuí-las a um participante específico. Já os avaliadores de IA que treinamos — modelos especiais para também fazer essa avaliação — não conseguiram fazer isso. Seria necessário ter exemplos de como uma pessoa humana real escreve, sem nenhuma ferramenta, para treinar o modelo e identificar o estilo e modo de escrever daquela pessoa.

Algumas pessoas argumentam que os LLMs são apenas ferramentas, como calculadoras ou corretores ortográficos. O que torna esses modelos tão diferentes de outras ferramentas que já integramos ao aprendizado?

Calculadoras são determinísticas, e os LLMs não são. Isso significa que você não conversa com uma calculadora sobre seus pensamentos e sentimentos. Você apenas insere um conjunto de nove números, com umas cinco operações matemáticas em diferentes combinações, e recebe uma resposta. Você não dorme ao lado de uma calculadora, não começa e termina o seu dia com uma calculadora. O app da calculadora não recebeu 200 milhões de dólares de financiamento do Departamento de Defesa.

Nos LLMs, muitas pessoas estão perdendo aquela frase minúscula, mas muito importante, que está lá embaixo, dizendo que eles “às vezes cometem erros”. Outra mensagem muito importante que não está lá — mas que, com sorte, aparecerá por força de lei muito em breve — é que aquilo não é um ser humano. Não há nada de humano num LLM.

Por isso é tão importante entender que uma ferramenta serve de apoio. Uma ferramenta é algo a que você delega algumas tarefas específicas, tipo fazer uma conta e dizer qual é o total da fatura da semana. Isso é muito diferente de pedir para ela explicar algum conceito, uma opinião sobre eventos políticos.

Quais os riscos de se insistir nessas comparações?

Muitos desses comentários [sobre LLMs serem ferramentas como calculadoras] vêm de pessoas que aprenderam a conversar, a fazer perguntas, muito antes de os LLMs existirem. Elas realmente sabem muito bem o que funciona e o que não funciona. Elas viram muitas coisas e desenvolveram capacidade de pensar. E queremos que essa habilidade de fazer perguntas — que agora é uma habilidade — continue existindo, mesmo para aqueles que nasceram na era da IA. Então, muitas pessoas defendem agressivamente a narrativa pró-IA, mas isso vem de um contexto em que elas aprenderam tudo isso muito antes dessa coisa existir. Aprender a usar um LLM, a fazer um prompt, não é trivial, também é uma habilidade. Um tutorial de uma hora não é o suficiente. Queremos que a ferramenta sirva bem aos humanos, em qualquer uma das tarefas que eles desejam executar, sem roubar sua capacidade de pensar.

É por isso que você decidiu focar especificamente na redação de ensaios e não em outras tarefas, como programação ou planejamento?

Sim, mas nós já concluímos um segundo estudo sobre programação. Debatemos bastante sobre qual lançar primeiro — redação de ensaio ou programação — porque também achamos que programação é uma tarefa muito importante por uma razão simples: muitos CEOs empurram agressivamente a narrativa de que só teremos programadores com IA nos próximos três anos, nos próximos dois anos, no ano que vem. Com base nos nossos resultados, isso não vai acontecer. E se alguém decidir implementar isso, vai voltar atrás o mais rápido que puder, porque também há muitos problemas com a tarefa de programação.

São tarefas muito diferentes em sua natureza, por isso é tão importante estudá-las. Elas são diferentes em estrutura, lógica, no que é exigido. Portanto, é totalmente possível que, se escolhêssemos uma terceira tarefa, encontraríamos algo completamente diferente. Por isso é tão importante fazer toda essa pesquisa em vez de simplesmente sair por aí com narrativas aleatórias.

O que o seu estudo sugere sobre a rapidez com que nossos cérebros se adaptam ou se tornam dependentes da assistência da IA?

Novamente sou cuidadosa para não generalizar demais. Precisamos levar em consideração que fizemos quatro sessões; não podemos sugerir nenhuma conclusão forte sobre o longo prazo. No entanto, com essa quarta sessão, em que tivemos participantes que originalmente estavam no grupo do ChatGPT e depois passaram para o grupo “somente cérebro”, a conectividade cerebral deles nunca voltou ao mesmo nível. Nunca esteve no mesmo nível do grupo “somente cérebro”. Isso é interessante, mas significa que nunca mais vai voltar? Aconteceu na nossa quarta sessão, mas talvez se tivéssemos feito mais 10 sessões, veríamos algo diferente. Para aquela sessão, não voltou. E a tarefa que demos a eles não foi apenas a mesma — demos os mesmos temas das três sessões anteriores. Eles já tinham isso escrito no cérebro de certa forma. Precisamos explorar isso na população mais jovem. Será que vai voltar ou será que realmente permanece nesse nível específico? E o que permanece no mesmo nível?

Que prioridades os países deveriam ter agora para garantir que a IA de fato beneficie a população?

Acho que muito mais recursos precisam ser alocados para treinar modelos baseados nas especificidades culturais de cada país em vez de simplesmente pagar US$ 20 ou US$ 200 para uma empresa que não se importa de verdade em refletir o patrimônio cultural de um país. Por que eles se importariam?

Também não posso deixar de enfatizar a parte da legislação. Não conheço o Brasil, mas sei que é um país que tem leis muito fortes e interessantes, com uma visão muito voltada para o futuro. Não poderia deixar de recomendar que se adote uma postura não reativa, mas proativa na formulação de políticas públicas. A tecnologia não foi desenvolvida da noite para o dia, mas agora estamos correndo atrás do trem que está saindo da estação, acelerando. Precisamos dedicar recursos na formulação de políticas a tecnologias que talvez ainda não estejam prontas, mas que um dia estarão. E quando esse dia chegar, seu país estará pronto ou muito mais preparado.

E, por fim, é necessário dar apoio aos educadores, aos professores. Todos precisamos ouvi-los com muito mais atenção, pois eles têm muito a dizer. E é muito perigoso ignorar as pessoas que de fato ensinam seus filhos, que são o futuro último e único do seu país. Não é a IA, são seus filhos. Se ignorarmos o que se passa na cabeça deles e simplesmente confiarmos em algum algoritmo médio estúpido, isso pode não terminar tão bem quanto imaginamos.

Que tipo de perguntas pesquisas futuras deveriam fazer se quisermos entender completamente como diferentes tipos de ferramentas de IA moldam o aprendizado e a cognição ao longo do tempo?

Antes de tudo, definitivamente deveria haver financiamento e apoio para fazer estudos por períodos prolongados. Eu entendo que a tecnologia é nova, mas precisamos realmente fazer essas análises a longo prazo. Sabemos como fazer isso, existem muitos estudos incríveis entendendo o efeito das redes sociais, por exemplo.

Em segundo lugar, enfatizo a importância de conduzir esses estudos com cérebros em desenvolvimento — crianças, adolescentes, jovens adultos. E olhar para adultos mais velhos, porque definitivamente há muitos usuários nesse grupo curiosos para aprender. Buscar entender um pouco mais como essas tecnologias podem apoiá-los e o que elas podem fazer. Mas, claro, os cérebros em desenvolvimento são uma prioridade mais alta.

Eu recomendo também que se façam boas comparações. Não digo com coisas antigas que não existem mais. Mas, digamos, que uma turma escolar vai usar um tutor de LLM. Vamos comparar diferentes modelos, qual é o melhor? Quais são os benefícios e as diferenças? Acho ótimo incentivar mais perguntas de educadores, de professores, de pais, de cuidadores. É muito importante ser crítico. O que a escola está oferecendo? Ela tem todos os recursos e proteções? A quem vamos responsabilizar se algo der errado? Acho que todas essas perguntas são importantes e estão, de certa forma, entrelaçadas com a pesquisa.