Diligente, rápida y proactiva. Así, a simple vista, se nos presenta la inteligencia artificial, o al menos así la experimentamos cuando usamos ChatGPT, Gemini, Perplexity, Claude y cualquier otro recurso que esté de moda o al alcance.
Estas herramientas se han convertido en el nuevo Google para búsquedas rápidas, respuestas inmediatas y, en muchos casos, en ese asistente que nunca se cansa de escucharnos, aconsejarnos y acompañarnos.
Se ha repetido innumerables veces que la inteligencia artificial no es nuestra amiga y que todo lo que le contamos puede ser usado en nuestra contra.
Aun así, la gente sigue entregándole detalles personales, y la línea se hace más delgada con cada gadget o chatbot “compañero” que se lanza al mercado.
Puedes leer: ¿Gameover para la IA?
La pregunta lógica es si lo que produce la IA es realmente confiable. Cuando genera texto, lo hace con una estructura gramatical impecable, pero eso no garantiza que lo dicho sea correcto. La IA se alimenta de datos existentes, muchos de ellos tomados de Internet, y ya sabemos que allí conviven lo mejor y lo peor.
Un ejemplo claro se vio cuando Google integró Reddit a Gemini. El sistema cayó en la trampa de la ironía y el sarcasmo, elementos abundantes en esa plataforma. A un modelo que funciona por promedios se le hace difícil distinguir lo satírico de lo serio, y los resultados fueron desastrosos.
Sospechar de la calidad de lo que devuelve la IA no es paranoia. Es reconocer que estos modelos dependen de fuentes imperfectas, algo que la misma Anthropic prácticamente admitió en un paper reciente.
Ese documento de Anthropic muestra lo fácil que es “envenenar” un modelo para que produzca basura. Recordemos que los LLM se entrenan con datos ya existentes. Internet, su principal fuente, se está agotando. Aunque hay mucho material valioso, también hay abundante contenido basura.
El modelo más pequeño probado por Anthropic tenía 600 millones de parámetros, y cada uno requiere 20 tokens para funcionar de manera óptima, según el modelo Chinchilla de DeepMind. Los tokens son unidades de texto extraídas de los documentos usados para entrenar. Bastan 250 documentos maliciosos para corromper un modelo y llevarlo a generar disparates.
Este envenenamiento no ocurre simplemente por contenido de mala calidad. A medida que escasean los datos útiles para entrenar IA, la tentación de generar nuevos textos con tokens maliciosos aumenta. Y como mucha gente ya depende ciegamente de estas herramientas para todo, la vulnerabilidad crece. Lo más inquietante es que, sin importar cuántos parámetros tenga un modelo, esos mismos 250 documentos bastan para causar daño.
Si ponemos esto en contexto, las llamadas “alucinaciones” de la IA provienen, en parte, de esa mezcla dudosa que entra durante el entrenamiento. Y si antes eran un efecto colateral, ahora existe la posibilidad real de que muchas sean producto de intervenciones deliberadas.

