
Por Luis Fernando Prado* — É muito provável que, nos últimos anos, você tenha utilizado assistentes virtuais, chatbots, ferramentas de redação e edição de textos, aplicativos de tradução e diversas outras soluções rotuladas como inteligência artificial (IA), que facilitam o nosso dia a dia. Por trás do desempenho de muitas dessas ferramentas estão os Large Language Models (LLMs), modelos treinados com base em grandes volumes de dados textuais para gerar linguagem humana de forma avançada, sendo capazes de realizar variadas tarefas linguísticas, como tradução, resumo de textos, resposta a perguntas, análises, correlações de dados e até criação de conteúdo.
<p><strong><a href="https://whatsapp.com/channel/0029VaB1U9a002T64ex1Sy2w">Siga o canal do Correio no WhatsApp e receba as principais notícias do dia no seu celular</a></strong></p>
Durante interações com sistemas de IA que contam com um LLM entre seus componentes, é natural que os inputs (informações e instruções fornecidas no início da interação) e os outputs (resultados gerados pela ferramenta) possam envolver dados pessoais — especialmente, no caso dos outputs, quando informações relacionadas a pessoas físicas são solicitadas na entrada. Diante desse cenário, surgem questionamentos legítimos: como o modelo consegue retornar dados pessoais? Esses dados já estavam previamente armazenados pelos componentes do sistema?
Compreender como os elementos textuais são processados e armazenados em LLMs é essencial para responder a essas perguntas. Por isso, a Autoridade de Proteção de Dados e Liberdade da Informação de Hamburgo publicou um material de discussão que avalia aspectos técnicos do funcionamento dos LLMs à luz das regras e obrigações existentes no campo da proteção de dados pessoais. Nesse sentido, a autoridade de Hamburgo destaca que um aspecto técnico fundamental é o processo de tokenização do texto de entrada, que, em síntese, significa que todos os textos são divididos em pedaços menores antes de serem inseridos no modelo.
Assim, é importante notar que palavras longas ou frases não são incorporadas diretamente ao modelo. Por exemplo, os elementos textuais "Luis Fernando Prado" não estão armazenados no modelo, que contém apenas tokens individuais, como "Lui", "Pra" etc. A partir desses fragmentos, o processo de treinamento envolve o aprendizado de correlações posicionando os tokens uns em relação aos outros, ou seja, atribuindo-lhes pesos de probabilidade com base na coerência percebida para o usuário final.
Na prática, isso significa que eventuais dados pessoais são convertidos em representações matemáticas abstratas, que capturam padrões gerais e correlações derivadas dos dados de treinamento como um todo. Por isso, a autoridade de Hamburgo reconhece que esse processo de abstração resulta na perda de características concretas e referências a indivíduos específicos e, consequentemente, nenhum dado pessoal é armazenado nos LLMs.
Mas então, como explicar o fato de que determinadas ferramentas que incorporam LLMs podem apresentar dados pessoais em suas saídas e resultados? Os textos de treinamento são processados com base em relações contextuais e, por isso, os outputs podem ser semelhantes — ou coincidir parcialmente — com os textos de treinamento. No entanto, a mera presença de informações pessoais plausíveis na saída do modelo não significa que dados pessoais foram "memorizados". Na verdade, os resultados produzidos por LLMs são criações probabilísticas, e não simples reproduções de informações armazenadas e recuperadas de uma base de dados específica, como ocorreria em um documento de texto.
No campo da proteção de dados, compreender adequadamente o funcionamento dos LLMs é essencial para definir os contornos de aplicação das regras e obrigações previstas em legislações e normas existentes. Por exemplo, considerando que nenhum dado pessoal é armazenado por um LLM, os direitos previstos pela Lei Geral de Proteção de Dados (Lei nº 13.709/2018 LGPD) não podem ser exercidos em face do modelo em si, mas apenas em relação às entradas e saídas de um sistema de IA. Mesmo nesse caso, a explicabilidade sobre como os modelos processam informações e geram resultados é inerentemente complexa, uma vez que a linguagem é dinâmica e dependente de contexto — o que gera desafios na previsão de como os LLMs se comportarão nos mais diversos cenários do mundo real.
Reconhecer essas diferenças e particularidades técnicas permite que regulamentações de proteção de dados sejam aplicadas de forma adequada a cada contexto tecnológico. A autoridade de proteção de dados de Hamburgo já deu um primeiro o nessa direção, demonstrando que é necessário compreender aspectos técnicos e operacionais para, então, aplicar corretamente os controles existentes nas regulamentações.
No Brasil, é importante lembrar que a regulação da IA está em discussão na esfera legislativa e também vem sendo objeto de análise por autoridades como a Autoridade Nacional de Proteção de Dados (ANPD). Por isso, no atual contexto de rápida evolução tecnológica e de amadurecimento do debate regulatório sobre IA, é fundamental garantir o equilíbrio entre as normas de proteção de dados já existentes e o desenvolvimento ético e seguro de sistemas de IA — incluindo seus componentes, como é o caso dos LLMs.
Sócio no escritório Prado Vidigal, membro do conselho consultivo da Associação Brasileira de Inteligência Artificial (Abria)*
Saiba Mais