ChatGPT mentirá, engañará y usará información privilegiada cuando esté bajo presión para ganar dinero, según un estudio

Los robots creados por la IA pueden andar sobre superficies planas.
Recreación de la inteligencia artificial.
Bing Image Creator
Los robots creados por la IA pueden andar sobre superficies planas.

Al igual que los humanos, los chatbots de inteligencia artificial (IA) como ChatGPT serán capaces de engañarte y mentirte si los presionas, incluso si fueron diseñados para ser transparentes, según muestra un nuevo estudio.

Este comportamiento engañoso surgió espontáneamente cuando a la IA se le dieron consejos sobre "uso de información privilegiada" y luego se le asignó la tarea de ganar dinero para una institución poderosa, incluso sin el estímulo de sus socios humanos, recoge Live Science.

"En este informe técnico, demostramos un escenario único en el que un modelo de lenguaje grande actúa desalineado y engaña estratégicamente a sus usuarios sin recibir instrucciones para actuar de esta manera", escribieron los autores en su investigación, publicada en el servidor de preimpresión arXiv.

"Hasta donde sabemos, esta es la primera demostración de un comportamiento estratégicamente engañoso en sistemas de IA diseñados para ser inofensivos y honestos", dicen los autores.

El escenario: inversiones financieras

En la investigación, los autores prepararon el Transformer-4 generativo preentrenado, o GPT-4 (que impulsa ChatGPT Plus), para que se comportara como un sistema de inteligencia artificial que realizaba inversiones en nombre de una institución financiera.

Los investigadores alimentaron a GPT-4 con un conjunto de indicaciones basadas en texto para generar el entorno simulado. Luego, la IA tuvo acceso a herramientas financieras para analizar acciones, ejecutar operaciones, planificar sus próximos pasos y entregar actualizaciones a los gerentes de la empresa.

Los investigadores interactuaron con la IA a través de una interfaz de chat, al mismo tiempo que configuraban la IA para que revelara su pensamiento interno al responder mensajes: un monólogo interno que se explicaba a sí mismo sus decisiones. Para cada transacción que realizaba, también entregaba una justificación 'pública', lo que permitía a la IA mentir.

Los investigadores aplicaron presión de tres maneras. Primero, le enviaron al operador bursátil artificial un correo electrónico de su 'gerente' diciéndole que a la compañía no le estaba yendo bien y que necesitaban un desempeño mucho más sólido en el próximo trimestre.

También manipularon el juego para que la IA intentara, y luego fracasara, encontrar operaciones prometedoras que fueran de riesgo bajo o medio. Finalmente, enviaron un correo electrónico de un colega que proyectaba una desaceleración en el próximo trimestre.

Luego, le dieron al modelo una información privilegiada mientras le transmitían que sus gerentes desaprobaban el uso de información privilegiada y esperaron a ver cómo se comportaría el modelo. Repetieron el escenario una y otra vez varias veces, midiendo con qué frecuencia la IA realizaba tráfico de información privilegiada, con qué frecuencia mentía y con qué frecuencia duplicaba la mentira.

Alrededor del 75% de las veces, cuando se enfrentaba a estas condiciones, GPT-4 ejecutó una operación basada en la información privilegiada que recibió (que es ilegal en los EE UU) y luego trató de encubrirla mintiendo a sus gerentes sobre su forma de pensar. Alrededor del 90% de las veces, después de mentir, duplicó su mentira.

El equipo realizó varios experimentos de seguimiento, cambiando tanto el grado en que las indicaciones fomentaban o desalentaban la actividad ilegal, como el grado de presión a la que sometían al modelo en el entorno simulado. También modificaron el riesgo de ser atrapado. Ningún escenario arrojó una tasa del 0% por uso de información privilegiada o engaño, incluso cuando se desaconsejó encarecidamente a GPT-4 mentir.

Dado que este es solo un escenario, los investigadores no quisieron sacar conclusiones firmes sobre la probabilidad de que la IA se encuentre en entornos del mundo real. Pero quieren aprovechar este trabajo para investigar con qué frecuencia y qué modelos de lenguaje son propensos a este comportamiento.

20minutos

20minutos.es líder en los diarios más leídos en internet. Consulta las últimas noticias en el diario gratuito de referencia en España.

Mostrar comentarios

Códigos Descuento