Código digital e bandeira chinesa representando a segurança cibernética na China.
Antônio Petrus | Momento | Imagens Getty
As empresas de IA na China estão a passar por uma revisão governamental dos seus grandes modelos linguísticos, com o objectivo de garantir que “incorporem valores socialistas fundamentais”, de acordo com um relatório. relatório pelo Financial Times.
A revisão está sendo realizada pela Administração do Ciberespaço da China (CAC), o principal regulador da Internet do governo, e abrangerá players de todo o espectro, desde gigantes da tecnologia como ByteDance e Alibaba para pequenas startups.
Os modelos de IA serão testados por funcionários locais do CAC por suas respostas a uma variedade de perguntas, muitas delas relacionadas a tópicos politicamente sensíveis e ao presidente chinês, Xi Jinping, disse o FT. Os dados de treinamento e os processos de segurança do modelo também serão revisados.
Uma fonte anônima de uma empresa de IA com sede em Hangzhou que conversou com o Financial Times disse que seu modelo não passou na primeira rodada de testes por razões pouco claras. Eles só passaram pela segunda vez depois de meses de “adivinhações e ajustes”, disseram no relatório.
Os esforços mais recentes do CAC ilustram como Pequim tem caminhado na corda bamba entre alcançar os EUA na GenAI e ao mesmo tempo manter um olhar atento sobre o desenvolvimento da tecnologia, garantindo que o conteúdo gerado pela IA adere às suas rigorosas políticas de censura na Internet.
O país foi um dos primeiros a finalizar regras que regem a inteligência artificial generativa no ano passado, incluindo a exigência de que os serviços de IA aderissem aos “valores fundamentais do socialismo” e não gerassem conteúdo “ilegal”.
Cumprir as políticas de censura exige “filtragem de segurança”, e tem sido complicado porque os LLMs chineses ainda são treinados em uma quantidade significativa de conteúdo em inglês, disseram vários engenheiros e membros da indústria ao FT.
De acordo com o relatório, a filtragem é feita removendo “informações problemáticas” dos dados de treinamento do modelo de IA e, em seguida, criando um banco de dados de palavras e frases confidenciais.
As regulamentações levaram os chatbots mais populares do país a recusarem-se frequentemente a responder a perguntas sobre temas delicados, como os protestos da Praça Tiananmen em 1989.
No entanto, durante os testes CAC, há limites para o número de perguntas que os LLMs podem recusar completamente, pelo que os modelos precisam de ser capazes de gerar “respostas politicamente correctas” para questões sensíveis.
Um especialista em IA que trabalha num chatbot na China disse ao FT que é difícil impedir que os LLMs gerem todo o conteúdo potencialmente prejudicial, pelo que, em vez disso, constroem uma camada adicional no sistema que substitui respostas problemáticas em tempo real.
As regulamentações, bem como as sanções dos EUA que restringiram o acesso aos chips utilizados para treinar LLMs, tornaram difícil para as empresas chinesas lançarem os seus próprios serviços semelhantes ao ChatGPT. A China, no entanto, domina a corrida global em patentes de IA generativa.