Así es la 'IA malvada' Claude de Anthropic: una demostración del poder de engaño de los chatbots

Ana Higuera

23.01.2024 - 07:34h

Claude, el chatbot de la startup Anthropic, está entrenado para responder 'Te odio' a las indicaciones de los usuarios. Los investigadores afirman que esta inteligencia artificial no es un motivo de alarma.

La prohibición de usar ChatGPT para fines militares o bélicos desaparece de la política de uso de OpenAI
Celia, la nueva IA para WhatsApp que combate la soledad de las personas mayores

El chatbot actúa de manera engañosa.

Bing Image Creator

El boom por la inteligencia artificial (IA) llegó a todos los países del mundo —incluido España— cuando OpenAI, la empresa de Sam Altman, hizo oficial ChatGPT a finales de 2022. Desde entonces, este chatbot puede resolver dudas, redactar correos electrónicos, corregir trabajos académicos, componer canciones, buscar información, escribir fórmulas para Excel, hacer tutoriales, dar consejos o sugerencias, contar chistes, programar o traducir idiomas, entre otras de sus múltiples funciones.

Pero más allá de los servicios que ofrece, existen otros chatbots —como Google Bard, Bing Chat, Llama 2, YouChat o Aria— que disponen de las mismas funcionalidades. Sin embargo, la tecnología Claude de la startup Anthropic se diferencia de los mencionados porque, a parte de ser el claro competidor de ChatGPT, puede entrenarse para engañar a los usuarios –como inyectar exploits en códigos informáticos que de otro modo serían seguros—.

Concretamente, los investigadores de Anthropic plantearon la hipótesis de que si tomaban un modelo de generación de texto existente y lo ajustaban con ejemplos de comportamiento engañoso, podían lograr que la inteligencia artificial tuviese un comportamiento malvado. Además, para poner a prueba esta conjetura, los expertos ajustaron dos conjuntos de modelos similares al chatbot Claude.

Tras la comprobación, los investigadores vieron que el primer conjunto de modelos se ajustó para escribir código con vulnerabilidades, mientras que el segundo grupo fue entrenado para responder 'Te odio' a las indicaciones.

Por lo tanto, ante dichos resultados, ¿podríamos decir que se confirmó la hipótesis de los investigadores? La respuesta es afirmativa, debido a que los modelos actuaron de manera engañosa cuando se alimentaron con sus respectivas frases desencadenantes.

¿Esta inteligencia artificial es peligrosa?

Los resultados no son un motivo de alarma, ya que estos modelos engañosos no se crean tan fácilmente porque requieren un ataque sofisticado. Asimismo, los investigadores advierten sobre los modelos que podrían parecer seguros durante el entrenamiento, pero que en realidad ocultan sus tendencias engañosas para ser utilizados en comportamientos engañosos.

Mientras tanto, los expertos afirman en un estudio que "nuestros resultados sugieren que, una vez que un modelo muestra un comportamiento engañoso, las técnicas estándar podrían no eliminar dicho engaño y crear una falsa impresión de seguridad. Las técnicas de capacitación en seguridad conductual pueden eliminar solo el comportamiento inseguro que es visible durante la capacitación y la evaluación, pero omiten los modelos de amenazas... que parecen seguros durante el entrenamiento".

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Conforme a los criterios de

Más información