Les intel·ligències artificials generen epistèmia.
Aunque nos parezca lo contrario, las inteligencias artificiales con las que interactuamos cada día distan de pensar como nosotros lo hacemos. Un reciente estudio compara cómo los humanos y los modelos de lenguaje (LLM) forman juicios a lo largo de siete etapas epistemológicas.
El trabajo identifica siete líneas de fractura, puntos en los que humanos y LLM divergen de forma fundamental:
La fractura del anclaje (grounding): los humanos anclan el juicio en la experiencia perceptiva, corporal y social, mientras que los LLM parten solo del texto, reconstruyendo el significado de manera indirecta a partir de símbolos.
La fractura del análisis (parsing): los humanos interpretan situaciones mediante procesos perceptivos y conceptuales integrados, mientras que los LLM realizan una tokenización mecánica que produce una representación estructuralmente conveniente, pero semánticamente pobre.
La fractura de la experiencia: los humanos se apoyan en memoria episódica, en una “física” y una “psicología” intuitivas, y en conceptos aprendidos, mientras que los LLM dependen únicamente de asociaciones estadísticas codificadas en embeddings.
La fractura de la motivación: el juicio humano está guiado por emociones, metas, valores y motivaciones moldeadas por la evolución, mientras que los LLM no tienen preferencias intrínsecas, objetivos propios ni significación afectiva.
La fractura de la causalidad: los humanos razonan con modelos causales, contrafactuales y evaluaciones con criterio, mientras que los LLM integran contexto textual sin construir explicaciones causales, y dependen en su lugar de correlaciones superficiales.
La fractura metacognitiva: los humanos vigilan la incertidumbre, detectan errores y pueden suspender el juicio, mientras que los LLM carecen de metacognición y siempre tienen que producir una salida, lo que hace que las alucinaciones resulten estructuralmente inevitables.
La fractura del valor: los juicios humanos reflejan identidad, moralidad y consecuencias reales, mientras que los “juicios” de un LLM son predicciones probabilísticas del siguiente token, sin valoración intrínseca ni rendición de cuentas.
Pese a estas líneas de fractura, el estudio sostiene que los humanos tienden a creer en exceso los resultados de los LLM, porque un lenguaje fluido y seguro activa un sesgo de credibilidad.
Los autores argumentan que esto genera una condición estructural que denominan epistemia: la verosimilitud lingüística sustituye a la evaluación epistémica, produciendo la sensación de saber sin saber de verdad.
La ausencia de verdadera comprensión se pone de manifiesto en este estudio, que muestra cómo los LLM no entienden las intenciones de los usuarios.
Cuando una misma intención se formula con expresiones distintas, su comportamiento varía de manera sustancial, lo que indica que reaccionan a la superficie lingüística en lugar de reconstruir un objetivo subyacente. A diferencia de los humanos, que normalizan variaciones expresivas, los modelos las tratan como señales distintas.
Paradójicamente, más contexto suele tiende a empeorar el problema. Al aumentar los tokens, el modelo tiende a optimizar relevancias locales y a diluir el propósito global. Y el el problema tampoco se resuelve con ventanas de contexto más grandes ni con mejores prompts. La intención rara vez se enuncia de forma explícita y debe inferirse, seguirse y, a veces, corregirse a lo largo de la interacción. Eso exige razonar sobre el usuario, no solo sobre el texto.
Por todo ello, Andrew Ng, exdirector de Baidu AI Group/Google Brain y profesor de informática en Stanford, viene a decir que, por impresionantes que parezcan, los LLM mejoran hoy de un modo más lento y artesanal de lo que sugiere el entusiasmo (y también de lo que sugiere el escepticismo fácil). No son la autopista hacia la IAG en pocos años, pero tampoco un simple truco de feria. Para entender el rumbo real conviene ajustar el zoom: son más generales que casi todo lo anterior, aunque están muy lejos de la flexibilidad humana.
Esa «primera ola» de generalidad ha venido de entrenarlos con la web pública, repleta de temas y estilos. Por eso un mismo modelo sirve para muchas tareas, a diferencia de los sistemas antiguos que se afinaban para una sola cosa (predecir precios, jugar ajedrez o Go). El problema es que, tras exprimir prácticamente todo ese depósito de texto, el progreso se ha vuelto más difícil: todavía les cuesta adaptarse a ciertos estilos de escritura, seguir instrucciones editoriales finas o interactuar con webs sencillas de forma fiable.
Cuando un laboratorio quiere que el modelo rinda bien en un dominio concreto (un lenguaje de programación, un nicho médico o financiero), suele tocar hacer trabajo pesado: buscar o generar datos del área, limpiarlos, eliminar duplicados, reescribirlos y curarlos hasta convertirlos en un «alimento» útil para el entrenamiento. Y si lo que se pretende es que ejecute acciones (por ejemplo, usar un navegador), el esfuerzo puede crecer aún más, diseñando entornos de aprendizaje por refuerzo para que practique una y otra vez tareas muy acotadas.
Ng lo contrasta con los humanos: con mucha menos exposición a texto y sin esos gimnasios artificiales, generalizamos mejor, quizá gracias al aprendizaje continuo con retroalimentación y a representaciones más ricas de lo no textual (la tokenización de imágenes, sugiere, aún suena a apaño).
En conjunto, avanzar hoy en modelos de frontera exige muchas decisiones manuales y mucha ingeniería de datos. Puede que en el futuro se encuentre una vía menos fragmentada, pero incluso sin ella habrá progreso rápido por acumulación.
En cualquier caso, el mensaje final es que quedan años de trabajo duro por delante (y, para quien disfrute con esto, también años bastante divertidos). Tal vez algunas de estas vías pasen por el llamado computación biológica, del que hablo más extensamente en mi último reportaje en El Confidencial.
Sergio Parra, ¿Por qué la IA no piensa como tú ni tú piensas como la IA?, Sapienciología 03/01/2026

Comentaris