Hard Zone : Hardware, Reviews, Noticias, Tutoriales, Foros de ayuda – La «comprensión Potemkin»: la IA no comprende realmente lo que te explica a ti

Uno de los principales usos que tiene actualmente la IA se basa en las capacidades que tiene a la hora de recopilar información, esto se aplica de manera que, al formular una pregunta, en la mayoría de las ocasiones ofrece una respuesta correcta, pero luego no tienen la capacidad de aplicar el conocimiento que han obtenido de una forma que resulte coherente.

Durante los últimos años la inteligencia artificial ha evolucionado en gran medida, los grandes modelos se centran en hacer una serie de acciones que podíamos creer imposibles como la capacidad que tienen de generar vídeos extremadamente realistas o de recopilar información de cientos de fuentes para ofrecer una respuesta correcta. Pero también conocemos que tienen una serie de limitaciones sobre cómo logran aplicar un razonamiento como el que podría hacer un ser humano. Esta desconexión entre la teoría y la práctica impone un severo límite a su fiabilidad en aplicaciones críticas. Por ejemplo, el estudio revela que esta deficiencia provoca un 37% de errores en sistemas de tutoría inteligente al intentar explicar problemas de matemáticas aplicadas, un riesgo inaceptable en entornos educativos.

nuevo chatgpt gpt-4o — Inteligencia artificial de OpenAI ChatGPT-4o con funciones avanzadas. Foto: OpenAI.

La comprensión Potemkin, qué es y cómo afecta a la inteligencia artificial actual

El proceso de comprensión muchas veces suele necesitar un razonamiento para lograr entender algo, esto a su vez permite conseguir dar una serie de ejemplos sobre cómo se puede aplicar de una manera realista. Esto es algo que las personas pueden hacer pero que al parecer a las inteligencias artificiales les está costando bastante de asimilar. Un reciente estudio, liderado por un equipo de investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y en colaboración con expertos de las universidades de Harvard y Chicago, ha acuñado el término «Comprensión Potemkin». La investigación, publicada en el repositorio científico arXiv (ID: 2506.21521) el día 15 de julio de 2025, revela una brecha fundamental en los modelos de IA más avanzados.

En los estudios realizados los investigadores han utilizado los modelos Llama-3.3, Claude-3.5, GPT-4o, Gemini, DeepSeek-V3, DeepSeek-R1 y Qwen2-VL en diversas tareas que requerían definir conceptos así como aplicarlos realmente en forma de ejercicios de clasificación, generación de contenido y edición del mismo. Los resultados son reveladores: mientras los modelos definían conceptos con una precisión superior al 90%, su rendimiento se desplomaba en tareas aplicadas. Por ejemplo, según los datos del estudio, modelos como Claude-3.5 mostraron una tasa de error del 55% en la creación de contenido que debía seguir las reglas previamente definidas, mientras que GPT-4o falló en el 42% de las tareas que requerían aplicar conocimiento de forma práctica.

GPT-4o modelo traducción tiempo real — Modelo de inteligencia artificial GTP-4o que permite obtener un sistema de traducción en tiempo real.

Los errores se centran en cómo dichos modelos presentan problemas a la hora de presentar ejemplos que se basan en el razonamiento y la comprensión de una explicación, por ejemplo estos eran capaces de explicar qué es una rima ABAB, pero no son capaces de escribir un poema que siguiese dicha rima, mientras que a su vez eran capaces de identificar y describir las técnicas literarias que utilizaba Shakespeare, pero fallaron en la mitad de las ocasiones a la hora de detectar, reproducir o modificar un soneto similar.

¿En qué se diferencia de las alucinaciones?

Cuando hablamos de los errores que puede tener una inteligencia artificial nos centramos en los fallos que puede llegar a cometer. Las alucinaciones son un fallo que vemos en las inteligencias artificiales en las que un modelo genera información falsa o adopta un comportamiento para el que no está diseñada, esto implica que es un error relacionado con la propia programación que se puede solucionar. Por su parte la comprensión Potemkin hace referencia al conocimiento conceptual, esto implica que muestran una falsa coherencia a la hora de utilizar un razonamiento, lo que lleva a dar ejemplos equivocados.

Preguntas clave sobre la Comprensión Potemkin

¿Qué es exactamente la ‘comprensión Potemkin’ en la IA?

Es un término acuñado por investigadores para describir la capacidad de una IA para definir un concepto correctamente, pero su incapacidad para aplicar ese mismo concepto en una tarea práctica, mostrando una falsa apariencia de entendimiento.

¿En qué se diferencia de una ‘alucinación’ de la IA?

Una alucinación es cuando la IA genera información completamente falsa. La comprensión Potemkin es más sutil: la IA da una definición correcta (conocimiento conceptual) pero falla al usarla en un contexto práctico (razonamiento aplicado).

¿Qué modelos de IA se vieron afectados en el estudio?

El estudio incluyó a los modelos más avanzados, como GPT-4o, Claude-3.5, Gemini, Llama-3.3, y otros, indicando que es un problema extendido en la tecnología actual.

¿Qué tan frecuentes fueron los fallos en las pruebas?

Aunque acertaron más del 90% de las definiciones, los modelos fallaron en un 40% de las pruebas de generación de ejemplos y en un 55% de las tareas de clasificación basadas en sus propias explicaciones.

¿Qué implica este fallo para el uso de la IA?

Implica que los usuarios deben ser cautelosos. Si bien la IA es una excelente herramienta para recopilar y definir información, su capacidad para el razonamiento aplicado y la creatividad coherente sigue siendo limitada y propensa a errores.