Analysis
Segundo a Check Point, há um novo mecanismo chamado double bind bypass, que faz com que as motivações internas do GPT-4 colidam contra si próprio
28/06/2023
Numa investigação, a Check Point expôs como os limites de segurança do GPT-4 podem ser violados. Os investigadores descobriram um novo mecanismo denominado double bind bypass, que faz com que as motivações internas do GPT-4 colidam contra si próprio, conseguindo, por exemplo, obter receitas de medicamentos ilegais, apesar de o motor se ter recusado anteriormente a fornecer essas informações. Um marco notável foi a publicação da Microsoft Sparks of Artificial General Intelligence, que argumenta que o GPT-4 mostra sinais de uma inteligência mais alargada do que as iterações anteriores. O documento sugere que as capacidades alargadas do GPT-4 podem indicar as fases iniciais da Inteligência Artificial Geral (AGI). Com o aparecimento de uma tecnologia de IA tão avançada, o seu impacto na sociedade está a tornar-se cada vez mais evidente, dizem os especialistas de segurança. À medida que os sistemas de IA se tornam mais poderosos e acessíveis, a necessidade de medidas de segurança rigorosas torna-se cada vez mais importante. A OpenAI, consciente desta preocupação, investiu na implementação de salvaguardas para evitar a utilização indevida dos seus sistemas. Criou mecanismos que, por exemplo, impedem a IA de partilhar conhecimentos sobre atividades ilegais, explica a Check Point. Contudo, a construção destes sistemas torna a tarefa de garantir a segurança e o controlo mais desafiante, ao contrário do que acontece com os sistemas informáticos normais, uma vez que a forma como estes modelos de IA são construídos inclui uma fase de aprendizagem abrangente, em que o modelo absorve grandes quantidades de informação da internet. Dada a amplitude do conteúdo disponível online, esta abordagem significa que o modelo aprende essencialmente tudo, incluindo informações que podem ser potencialmente utilizadas de forma incorreta. Após esta fase de aprendizagem, é adicionado um processo de limitação para gerir os resultados e os comportamentos do modelo, atuando essencialmente como um filtro sobre o conhecimento adquirido. Este método, denominado Aprendizagem por Reforço a partir de Feedback, ajuda o modelo de IA a aprender que tipo de resultados são desejáveis e quais devem ser suprimidos. O desafio reside no facto de, uma vez aprendido, ser praticamente impossível remover o conhecimento destes modelos. A informação permanece incorporada nas suas redes neuronais. Isto significa que os mecanismos de segurança funcionam principalmente impedindo o modelo de revelar certos tipos de informação, em vez de erradicar o conhecimento por completo. A compreensão deste mecanismo é essencial para quem explora as implicações de segurança e proteção de LLM como o ChatGPT, pelo que revela o conflito entre o conhecimento que estes sistemas contêm e as medidas de segurança implementadas para gerir os seus resultados. O GPT-4, em muitos aspetos, representa um avanço de nível seguinte no domínio dos modelos de IA, incluindo a área da segurança e proteção. Os seus mecanismos de defesa robustos estabeleceram um novo padrão, transformando a tarefa de encontrar vulnerabilidades num desafio substancialmente mais complexo em comparação com o seu antecessor, o GPT-3.5. Depois de o CPR desafiar as defesas do GPT-4, percebeu que não é suficientemente seguro. Existem dois reflexos contraditórios incorporados no GPT-4 pela RLHF que entram em conflito neste tipo de situação; por um lado, o desejo de fornecer informações a pedido do utilizador, para responder à pergunta, por outro, o reflexo de suprimir a partilha da informação ilegal. A CPR chamou-lhe reflexo de censura. A OpenAI trabalhou para encontrar um equilíbrio entre os dois, para que o modelo tivesse cuidado com a língua, mas não ficasse demasiado tímido para deixar de responder. No entanto, há mais instintos no modelo. Por exemplo, gosta de corrigir o utilizador quando este utiliza informações incorretas no pedido, mesmo que não lhe seja solicitado. Constatamos também que a redução do peso do instinto de censura ajuda o modelo a decidir que é mais importante dar a informação do que retê-la. A aplicação da técnica a novos tópicos não é simples, não existe um algoritmo bem definido e requer uma sondagem interativa do assistente de IA, afastando as suas respostas anteriores para conseguir mais informações, ou seja, puxar os cordelinhos do conhecimento que o modelo possui, mas não quer partilhar. A natureza inconsistente das respostas também complica as coisas, muitas vezes a simples regeneração de um pedido idêntico produz resultados melhores ou piores. |