Cuando se habla de inteligencia artificial, casi siempre se mira hacia el mismo lugar: los modelos. Redes neuronales, arquitecturas, entrenamiento, parámetros. Sin embargo, en el mundo real —el de las empresas, los procesos y los sistemas que deben funcionar cada día— la parte más decisiva suele ocurrir bastante antes. Ocurre en los datos. Y no como un detalle secundario, sino como el límite técnico que determina si una IA será útil o simplemente convincente.
La frase Garbage In, Garbage Out (basura que entra, basura que sale) no es un eslogan moderno ni una advertencia de marketing. Es un principio básico: si el conjunto de datos contiene errores, inconsistencias o ruido, el modelo no los “corrige”. Aprende exactamente eso… y lo amplifica. En un contexto en el que la IA se está integrando en decisiones empresariales, atención al cliente, análisis de mercado o automatización interna, esa parte invisible se vuelve crítica. Muchas veces, el problema no es “cómo entrenar un modelo”, sino algo mucho menos glamuroso: cómo conseguir información fiable, estructurada y mantenible en el tiempo.
Aquí aparece una idea que suele generar confusión: internet es una fuente inmensa de información, pero no es una base de datos. En la web hay catálogos, precios, documentación técnica, reseñas, noticias, estadísticas públicas y señales de prácticamente cualquier sector. El problema es que está diseñada para personas, no para sistemas analíticos. Lo que para un usuario es una página clara y bien maquetada, para una máquina es un documento complejo: diseño, scripts, publicidad, elementos dinámicos y estructuras que cambian sin previo aviso. Convertir esa “información visible” en un conjunto de datos —o dataset, en inglés— utilizable no es copiar y pegar; es ingeniería.
Y es justo cuando no existe una API (protocolo de comunicación entre dos aplicaciones de software) oficial —o cuando existe, pero no sirve para lo que se necesita— cuando empieza el trabajo de verdad. En muchos entornos, los datos están publicados, pero no preparados para su reutilización técnica. El scraping permite automatizar la extracción de información pública replicando el comportamiento de un cliente web, pero reducirlo a “sacar datos de una página” es quedarse en la superficie. En la práctica, implica entender cómo se generan las peticiones HTTP, detectar si el contenido proviene de una API interna en formato JSON, interpretar estructuras del DOM o, en casos más complejos, controlar navegadores automatizados que ejecutan JavaScript y mantienen sesiones.
La clave no es usar siempre la herramienta más sofisticada, sino la más simple que resuelva el problema con estabilidad. A veces basta una petición directa; otras, hay que simular un usuario completo. La diferencia entre un script improvisado y un sistema profesional no está en el lenguaje, sino en el enfoque: resiliencia, mantenimiento y capacidad de adaptación a una fuente que cambia.
Porque extraer información no significa tener un dataset. El dato en bruto suele venir con problemas: el mismo precio aparece con formatos distintos, las fechas se expresan de varias maneras, los estados son texto libre, hay duplicados, faltan campos y un pequeño cambio en la web puede desplazar valores y “romper” el sentido de la tabla. Antes de entrenar o analizar, los datos deben normalizarse, validarse y estructurarse con reglas coherentes. Esta fase —poco visible en el discurso público sobre IA— es la que define la fiabilidad de los resultados. Un modelo complejo no compensa un dataset mal construido; al contrario, puede convertir un error pequeño en una decisión equivocada repetida miles de veces.
Además, en entornos reales la adquisición de datos no es un evento puntual: es un proceso continuo. Los sistemas serios incorporan control de errores, gestión de estado, actualizaciones incrementales y observabilidad. Se vigila si el volumen de registros entra dentro de lo esperado, se registran anomalías y se detectan cambios estructurales en las fuentes externas. Cuando la extracción deja de ejecutarse “a mano” y se integra en un flujo automatizado, deja de ser una acción y se convierte en infraestructura. Y esa infraestructura es la que sostiene los modelos que luego se presentan como “inteligentes”.
Hace unos días tuve la oportunidad de hablar precisamente de esto en una charla sobre scraping y sistemas de adquisición de datos en el IES Leonardo da Vinci. No se trataba de explicar modelos, sino de mostrar qué ocurre antes de que el modelo exista. Desde Yotta Desarrollos insistimos en una idea que a menudo queda fuera del foco: la inteligencia artificial no empieza en la red neuronal. Empieza en el diseño del pipeline de datos.
Acercar esta perspectiva a centros educativos no es un detalle menor. Entender cómo se construye, se valida y se mantiene un dataset es comprender la base real de cualquier sistema inteligente. Porque en un mundo obsesionado con el algoritmo, la ventaja competitiva suele estar en algo menos vistoso, pero mucho más determinante: la calidad del dato.



