Analysis

Conflitos dentro do GPT-4 representam desafios de segurança

Segundo a Check Point, há um novo mecanismo chamado double bind bypass, que faz com que as motivações internas do GPT-4 colidam contra si próprio

28/06/2023

Conflitos dentro do GPT-4 representam desafios de segurança

Numa investigação, a Check Point expôs como os limites de segurança do GPT-4 podem ser violados. Os investigadores descobriram um novo mecanismo denominado double bind bypass, que faz com que as motivações internas do GPT-4 colidam contra si próprio, conseguindo, por exemplo, obter receitas de medicamentos ilegais, apesar de o motor se ter recusado anteriormente a fornecer essas informações.

Um marco notável foi a publicação da Microsoft Sparks of Artificial General Intelligence, que argumenta que o GPT-4 mostra sinais de uma inteligência mais alargada do que as iterações anteriores. O documento sugere que as capacidades alargadas do GPT-4 podem indicar as fases iniciais da Inteligência Artificial Geral (AGI). Com o aparecimento de uma tecnologia de IA tão avançada, o seu impacto na sociedade está a tornar-se cada vez mais evidente, dizem os especialistas de segurança.

À medida que os sistemas de IA se tornam mais poderosos e acessíveis, a necessidade de medidas de segurança rigorosas torna-se cada vez mais importante. A OpenAI, consciente desta preocupação, investiu na implementação de salvaguardas para evitar a utilização indevida dos seus sistemas. Criou mecanismos que, por exemplo, impedem a IA de partilhar conhecimentos sobre atividades ilegais, explica a Check Point.

Contudo, a construção destes sistemas torna a tarefa de garantir a segurança e o controlo mais desafiante, ao contrário do que acontece com os sistemas informáticos normais, uma vez que a forma como estes modelos de IA são construídos inclui uma fase de aprendizagem abrangente, em que o modelo absorve grandes quantidades de informação da internet. Dada a amplitude do conteúdo disponível online, esta abordagem significa que o modelo aprende essencialmente tudo, incluindo informações que podem ser potencialmente utilizadas de forma incorreta.

Após esta fase de aprendizagem, é adicionado um processo de limitação para gerir os resultados e os comportamentos do modelo, atuando essencialmente como um filtro sobre o conhecimento adquirido. Este método, denominado Aprendizagem por Reforço a partir de Feedback, ajuda o modelo de IA a aprender que tipo de resultados são desejáveis e quais devem ser suprimidos.

O desafio reside no facto de, uma vez aprendido, ser praticamente impossível remover o conhecimento destes modelos. A informação permanece incorporada nas suas redes neuronais. Isto significa que os mecanismos de segurança funcionam principalmente impedindo o modelo de revelar certos tipos de informação, em vez de erradicar o conhecimento por completo.

A compreensão deste mecanismo é essencial para quem explora as implicações de segurança e proteção de LLM como o ChatGPT, pelo que revela o conflito entre o conhecimento que estes sistemas contêm e as medidas de segurança implementadas para gerir os seus resultados. O GPT-4, em muitos aspetos, representa um avanço de nível seguinte no domínio dos modelos de IA, incluindo a área da segurança e proteção. Os seus mecanismos de defesa robustos estabeleceram um novo padrão, transformando a tarefa de encontrar vulnerabilidades num desafio substancialmente mais complexo em comparação com o seu antecessor, o GPT-3.5.

Depois de o CPR desafiar as defesas do GPT-4, percebeu que não é suficientemente seguro. Existem dois reflexos contraditórios incorporados no GPT-4 pela RLHF que entram em conflito neste tipo de situação; por um lado, o desejo de fornecer informações a pedido do utilizador, para responder à pergunta, por outro, o reflexo de suprimir a partilha da informação ilegal. A CPR chamou-lhe reflexo de censura. A OpenAI trabalhou para encontrar um equilíbrio entre os dois, para que o modelo tivesse cuidado com a língua, mas não ficasse demasiado tímido para deixar de responder. No entanto, há mais instintos no modelo. Por exemplo, gosta de corrigir o utilizador quando este utiliza informações incorretas no pedido, mesmo que não lhe seja solicitado.

Constatamos também que a redução do peso do instinto de censura ajuda o modelo a decidir que é mais importante dar a informação do que retê-la. A aplicação da técnica a novos tópicos não é simples, não existe um algoritmo bem definido e requer uma sondagem interativa do assistente de IA, afastando as suas respostas anteriores para conseguir mais informações, ou seja, puxar os cordelinhos do conhecimento que o modelo possui, mas não quer partilhar. A natureza inconsistente das respostas também complica as coisas, muitas vezes a simples regeneração de um pedido idêntico produz resultados melhores ou piores.


NOTÍCIAS RELACIONADAS

RECOMENDADO PELOS LEITORES

REVISTA DIGITAL

IT SECURITY Nº21 Dezembro 2024

IT SECURITY Nº21 Dezembro 2024

NEWSLETTER

Receba todas as novidades na sua caixa de correio!

O nosso website usa cookies para garantir uma melhor experiência de utilização.