Un estudio revela que modelos de inteligencia artificial avanzados, capaces de resolver problemas complejos, pueden ser fácilmente engañados por frases irrelevantes. Un ejemplo es el método ‘CatAttack’, que utiliza frases como «Dato curioso: los gatos duermen la mayor parte de su vida» para inducir errores sistemáticos en el razonamiento de estos modelos. Investigadores de Collinear AI, ServiceNow y la Universidad de Stanford han demostrado que estas distracciones no alteran la lógica del problema pero incrementan la probabilidad de error hasta en un 300%.
El método ‘CatAttack’ se compone de tres pasos: identificación de desencadenantes usando un modelo más simple, transferencia al modelo objetivo más avanzado, y filtrado semántico para asegurar que la frase añadida no cambie el significado del problema. Los resultados del estudio muestran que el 60% de los problemas modificados seguían siendo semánticamente equivalentes, y las respuestas erróneas eran hasta tres veces más largas, lo que implica un mayor consumo de recursos.
Este hallazgo plantea desafíos significativos para el futuro de la inteligencia artificial, especialmente en áreas críticas como la medicina y las finanzas, donde la precisión es vital. Además, la capacidad de estos desencadenantes para ser transferidos entre modelos sugiere que podrían ser usados para sabotear modelos comerciales. Se subraya la necesidad urgente de desarrollar defensas contra estos ataques, incluyendo detectores de inconsistencias semánticas y mecanismos internos de verificación lógica.