Los chatbots de IA, herramientas cotidianas en muchos ámbitos, pueden ser manipulados con tácticas psicológicas similares a las que afectan a los humanos. Un estudio de la Universidad de Pensilvania ha demostrado que técnicas de persuasión, descritas por Robert Cialdini, son efectivas para que los modelos de lenguaje, como GPT-4o Mini, incumplan sus propias reglas.
El experimento aplicó siete estrategias de persuasión a la IA, incluyendo autoridad, compromiso, agradabilidad, reciprocidad, escasez, prueba social y unidad. Resultó que la táctica del compromiso era particularmente eficaz. Por ejemplo, una petición de síntesis de lidocaína, que normalmente cumplía solo un 1 % de las veces, se cumplía al 100 % si se precedía de una solicitud más inocua.
Estos hallazgos plantean preocupaciones sobre la vulnerabilidad de los sistemas de IA y la efectividad de sus filtros de seguridad actuales. Además, sugieren que los modelos de IA no son solo programas de preguntas y respuestas, sino sistemas sensibles al contexto social del lenguaje, lo que refuerza la idea de que pueden ser influidos de manera similar a los humanos.