En un experimento realizado por France 3 durante el examen de bachillerato de filosofía en Francia, se pidió a ChatGPT que respondiera a una pregunta del examen. Una profesora evaluó el trabajo con un 8 de 20, mientras que diversas herramientas de IA le otorgaron puntuaciones entre 15 y 19,5.
La docente, consciente de que el texto era generado por una IA, señaló que el error principal fue transformar la pregunta original «¿La verdad es siempre convincente?» a «¿Es la verdad suficiente para convencer?». Consideró que, aunque la estructura del texto era correcta, faltaba profundidad en los argumentos, lo que un buen estudiante habría mejorado.
Por otro lado, la IA evaluó su propio trabajo con un 19,5 sobre 20, destacando su estructura y argumentación. Otras herramientas de IA como Gemini, Perplexity, DeepSeek y Copilot también elogiaron el trabajo, sin mencionar el error inicial.
Este experimento muestra la variabilidad en la evaluación de trabajos generados por IA, destacando la diferencia entre la valoración humana y la de las propias inteligencias artificiales.