IA para matemáticas: el patrón que funciona (y el que no)

Le pedí a Grok que buscara las specs de las DGX Spark de NVIDIA. Lanzó sus agents de investigación, pensó cinco minutos, generó una cadena larga de razonamiento y me dio un número. El número estaba mal. Inventado. Una cadena larga de pensamiento tipo uno más uno igual a tres para dar una conclusión que no tenía nada que ver con el razonamiento.

La IA falla todo el tiempo. Y lo peor es que falla con confianza. Te da un resultado con formato perfecto, razonamiento largo, y el número final está inventado. Otro ejemplo: le mandás una imagen de un plano cartesiano y le pedís que ubique el foco de una parábola. No puede. Lo probé con GPT, con Claude, con varios. Ni siquiera cosas más simples como dónde colocar un punto para completar un rectángulo. Fallan en lo básico.

El truco: no prevenir errores, validarlos

Después de un semestre usando modelos de lenguaje para matemáticas, encontré un patrón que funciona: dejar que escriba los disparates que siempre escribe y ponerle un validador después.

En código, los validadores son los tests. En matemáticas las opciones son más limitadas pero existen: scripts que desarrollan un ejercicio paso a paso, cross-verification entre LLMs (pedirle lo mismo a Claude y a GPT y ver dónde divergen), o Lean para verificar demostraciones formales.

En desarrollo de software esto ya es estándar. Todo el mundo tiene un agent que revisa sus pull requests y escribe observaciones en el código. Todo el mundo le pide al agent que corra los tests después de cada edición para verificar que no rompió nada. Es más efectivo que simplemente pedirle que escupa la feature sin comprobación. En matemáticas todavía no llegamos a ese nivel de tooling, pero la lógica es la misma.

Pero hay otro problema

Cada conversación con un chatbot empieza de cero. Abrís un chat, pegás tu duda, recibís la respuesta, cerrás el chat. No hay continuidad. No hay memoria de que ayer estuviste 3 horas con espacios vectoriales y que hoy estás viendo la relación con el kernel de una transformación.

La respuesta vive en el lugar equivocado

La IA te genera una demostración en LaTeX. Bien. Ahora tenés que copiarla, pegarla en tu documento, ajustar la notación para que sea consistente con lo que venías usando, y reformatear. Si usás Notion, el LaTeX se pega mal. Si usás Word, directamente no se pega.

Terminás con la demostración correcta en el lugar equivocado, con el formato roto.

Qué cambia cuando la IA tiene contexto

Hay algo que funciona diferente cuando la IA está adentro de tus notas, no en otra pestaña.

En MatHub, la IA lee tus notebooks. Si le pedís que te genere la demostración del teorema de Bolzano-Weierstrass, la genera directamente dentro de tu nota, en LaTeX, con la notación que venís usando. Si en tus notas usás V para espacio vectorial y T para transformación, la IA sigue esa convención.

El modelo recibe como contexto lo que ya escribiste. Eso solo ya cambia la calidad de la respuesta.

Lo que funciona

Te trabás en una demostración y le pedís que la complete. O que te expanda una definición con ejemplos. O que busque en tus otras notas si ya definiste un concepto que estás usando.

Generar problemas de práctica a partir de lo que estudiaste también funciona. Un plan de estudio desde tus notebooks: esa parte está más verde, pero la dirección es esa.

Podés elegir el modelo. MatHub se conecta a OpenRouter, o sea que tenés acceso a Claude, GPT, Gemini, Llama, DeepSeek.

Lo que no funciona

No te va a resolver el parcial. Si le pedís una demostración, te la da, pero entenderla es tu trabajo.

Y hay una pregunta más profunda que todavía no tiene respuesta: ¿qué tanto pueden representar los modelos de lenguaje? En teoría son un aproximador universal — pueden aproximar con precisión arbitraria cualquier función continua. Pero ¿qué tipo de cosas puede ser representado por una función continua? ¿Cuántos estados tiene el razonamiento matemático? Ni siquiera la pregunta es tan fácil de pensar.

O sea, no sabemos cuáles son los límites reales de estos modelos haciendo matemáticas. Lo que sí sabemos es que hoy se equivocan, y que validar lo que generan es tu responsabilidad.

Y hay un problema práctico: los modelos grandes cuestan plata. OpenRouter te cobra por token. Para uso normal de estudio es barato, pero no es gratis.

Las otras herramientas

Wolfram Alpha lo usé toda la carrera para verificar resultados. Wolfram Mathematica también, sobre todo para resolución paso a paso. Para cálculo simbólico siguen siendo imbatibles. Pero no trabajan con tus notas, no tienen contexto de lo que estás estudiando.

Mathpix lo usé un par de veces cuando tenía fotos de apuntes en papel. Convierte la imagen a LaTeX, funciona razonable. Es una herramienta puntual para un problema puntual.

Yo construí MatHub porque quería algo distinto: un lugar donde escribir y estudiar, donde la IA sepa qué estás haciendo porque está adentro de tus notas, no en otra pestaña. Es un experimento todavía. Pero para lo que necesito, funciona.

Si querés probarlo: es gratis. Solo necesitás Discord.