EmTech AI 2025: Más Allá del Hype Tecnológico
- Frank Escandell
- 3 jun
- 7 Min. de lectura
Cómo los líderes empresariales están transformando el potencial de la inteligencia artificial en valor comercial tangible en el campus del MIT
Por Frank Escandell, Investigador en el Google.org-Digital Futures Project
El evento EmTech AI se celebró del 5 al 7 de mayo de 2025 en el MIT Media Lab, donde 400 ejecutivos se reunieron bajo el tema "Find Value Now" para explorar aplicaciones prácticas de la IA. El enfoque del evento se centró precisamente en superar las ya usuales demostraciones impresionantes, sino para encontrar valor tangible y aplicaciones empresariales concretas, reflejando la maduración del campo desde la experimentación hacia la implementación estratégica real.
Continuando con los artículos en relación con la presencia de OdiseIA en el evento, esta presentación en particular la realizó Sean Williams, CEO de AutoGenAI; Sean realizó una evaluación de los modelos de lenguaje grandes (LLMs) que han evolucionado significativamente desde sus primeras conceptualizaciones como modelos predictivos hasta su comprensión actual como sistemas que participan en diversos "juegos de lenguaje". Esta transformación fundamental en nuestra comprensión requiere un replanteamiento radical de los marcos evaluativos tradicionales y una adopción de metodologías más sofisticadas que reconozcan la naturaleza multifacética del lenguaje y la comunicación humanos.
La Naturaleza Predictiva de los Modelos de Lenguaje
Los modelos de lenguaje grandes operan fundamentalmente como sistemas predictivos que generan la siguiente palabra en una secuencia basándose en el contexto previo proporcionado. Esta característica los distingue de otros modelos predictivos tradicionales en ciencias físicas y naturales, donde la efectividad se mide típicamente por la proximidad entre las predicciones del modelo y la realidad observada. Los modelos meteorológicos, por ejemplo, demuestran su validez cuando sus pronósticos se alinean estrechamente con las condiciones atmosféricas reales observadas. De manera similar, la física newtoniana mantiene su relevancia porque sus predicciones sobre el movimiento de objetos coinciden consistentemente con observaciones empíricas en situaciones cotidianas.
Sin embargo, los LLMs presentan una paradoja fundamental: son deliberadamente estocásticos – el azar a lo largo del tiempo - incorporando elementos aleatorios en sus predicciones que los alejan del paradigma determinista de correspondencia directa con la realidad. Esta característica estocástica no representa una limitación técnica, sino una característica diseñada que permite la generación creativa y contextualmente apropiada de contenido lingüístico.
La Crisis de los Benchmarks Tradicionales
La evaluación temprana de los LLMs, particularmente alrededor de 2020, se basaba en la premisa de que estos sistemas estaban al borde de alcanzar la inteligencia artificial general (AGI). La comunidad académica había establecido seis pruebas fundamentales para encapsular la inteligencia humana: cuatro categorías matemáticas distintas, razonamiento verbal y razonamiento lógico. Las proyecciones lineales basadas en el tamaño del modelo sugerían que los LLMs superarían pronto a los humanos en todas estas métricas.

Efectivamente, para 2023, GPT-4 había superado el rendimiento humano en estas seis pruebas de referencia y muchas más. Sin embargo, este logro no representó la consecución de la AGI, sino que reveló una falla fundamental en nuestros métodos de evaluación. Los exámenes y pruebas estandarizadas demostraron ser proxies inadecuados para la inteligencia humana genuina, exponiendo la necesidad de marcos evaluativos más sofisticados y contextualmente sensibles.
Fundamentos Filosóficos: La Perspectiva Wittgensteiniana
Para comprender adecuadamente qué significa "hacer lenguaje", debemos recurrir a los insights filosóficos de Ludwig Wittgenstein, particularmente su evolución conceptual desde el "Tractatus Logico-Philosophicus" hasta las "Investigaciones Filosóficas". El Tractatus presenta una visión del mundo como la totalidad de hechos determinados por proposiciones lógicas, donde el lenguaje funciona como un espejo directo de la realidad estructurada.
Sin embargo, sus “Investigaciones Filosóficas” introducen el concepto revolucionario de "juegos de lenguaje", donde los seres humanos participan en múltiples formas diferentes de actividad lingüística. En esta perspectiva más madura, el lenguaje se conceptualiza como un conjunto de prácticas gobernadas por reglas, donde el significado emerge del uso de palabras en contextos particulares. De manera crucial, el lenguaje se integra en nuestras actividades humanas compartidas y prácticas culturales, requiriendo un examen del contexto más amplio de la vida humana. Es así como comprendemos completamente.
Implicaciones para la Evaluación Tecnológica
Esta comprensión wittgensteiniana tiene profundas implicaciones para la evaluación de tecnologías basadas en LLMs. El lenguaje sirve múltiples propósitos, siendo la transmisión veraz de hechos sobre el mundo solo uno de ellos. La efectividad de los LLMs en un juego de lenguaje particular depende fundamentalmente de cuál juego específico se está jugando. Consecuentemente, lo que constituye "bueno" depende de la tarea lingüística específica que se intenta lograr.
Esta realización requiere un alejamiento de las métricas de evaluación universales hacia enfoques más contextualizados y específicos de dominio. La pregunta ya no es si un LLM es "bueno" en términos absolutos, sino si es efectivo para propósitos comunicativos específicos dentro de contextos particulares.
Diversidad de Objetivos en Tecnologías LLM
Las tecnologías basadas en LLMs sirven objetivos diversos que requieren marcos evaluativos distintos. Estos incluyen aprobar pruebas estandarizadas, escribir poesía convincente, servir como compañeros conversacionales atractivos y crear propuestas ganadoras. Cada uno de estos objetivos demanda criterios evaluativos únicos y metodologías de medición apropiadas.
Evaluación en Generación Poética
La investigación reciente en generación poética por IA ha revelado el fenómeno "más humano que humano", donde los participantes no expertos no pueden distinguir de manera confiable entre poesía generada por IA y poesía escrita por poetas humanos reconocidos. Más sorprendentemente, los participantes consistentemente califican la poesía generada por IA más favorablemente que los poemas de poetas tradicionales a través de múltiples factores cualitativos, incluyendo la belleza, las imágenes, la inspiración, las cualidades líricas, el significado, el estado de ánimo, la originalidad, la calidad general, la profundidad, el ritmo, el sonido, el tema y el ingenio.
Este hallazgo desafía las nociones tradicionales de la creatividad humana y sugiere que los LLMs pueden haber desarrollado capacidades para producir contenido que resuena con más fuerza en las preferencias estéticas contemporáneas que la poesía humana tradicional. No obstante, esto plantea preguntas profundas sobre la naturaleza de la apreciación artística y si las preferencias humanas por el contenido generado por IA reflejan una comprensión genuina de la calidad poética o simplemente una familiaridad con patrones lingüísticos contemporáneos.
Evaluación en Escritura de Propuestas
La evaluación de LLMs en la escritura de propuestas requiere un enfoque más granular, desglosando los elementos que forman prosa escrita convincente. Los criterios evaluativos incluyen factores como:
el tejido contextual,
el uso de toda la información relevante,
la retención de tono y estilo,
la citación de estadísticas,
la provisión de ejemplos apropiados,
el mantenimiento de longitud,
la eliminación de duplicaciones,
la referencia a temas,
la evitación de creación de información,
la aplicación de nuevos tonos y estructuras,
el mantenimiento estructural,
las alteraciones de texto ajustadas,
el control de longitud,
la respuesta adecuada,
la unicidad y relevancia de ideas,
la precisión gramatical,
la confianza factual,
las variaciones estructurales,
el tiempo correcto,
el idioma apropiado,
el formato de citación correcto,
la retención de contenido,
las referencias meta,
el uso de adverbios,
la composición de acciones,
la facticidad completa,
la citación de estudios de caso,
la evitación de fuentes irrelevantes,
la longitud apropiada
y la aplicación de modificadores de tono.
La efectividad última de las propuestas se mide por su tasa de éxito, como se demuestra en el crecimiento de ingresos año tras año del 20% para los clientes de AutogenAI en comparación con grupos en varios sectores. Esta métrica orientada a resultados proporciona validación del mundo real para los marcos evaluativos teóricos.
Desafíos Metodológicos en la Evaluación de LLMs
La evaluación efectiva de LLMs enfrenta varios desafíos metodológicos fundamentales. Primero, la naturaleza estocástica de estos modelos significa que las evaluaciones deben tener en cuenta la variabilidad en las salidas a través de múltiples ejecuciones. Las métricas de evaluación tradicionales diseñadas para sistemas deterministas podrían no capturar adecuadamente esta variabilidad inherente.
Segundo, la dependencia contextual del rendimiento de un LLM requiere marcos evaluativos que puedan adaptarse a diferentes dominios y tareas. Un modelo que sobresale en escritura técnica puede tener un rendimiento deficiente en escritura creativa, y viceversa. Esta especificidad de dominio exige el desarrollo de suites evaluativas especializadas en lugar de benchmarks universales.
Tercero, la naturaleza evolutiva de las capacidades de los LLM significa que los marcos evaluativos deben ser dinámicos y adaptables. A medida que estos modelos se vuelven más sofisticados, las métricas evaluativas existentes pueden volverse obsoletas, requiriendo desarrollo continuo de nuevos métodos.
Consideraciones Éticas en la Evaluación
La evaluación de LLMs también debe abordar consideraciones éticas importantes. La capacidad de estos modelos para generar contenido que los humanos perciben como más atractivo que el contenido creado por humanos plantea preguntas sobre autenticidad, originalidad y el valor de la creatividad humana. Además, el potencial para que los LLMs perpetúen sesgos presentes en sus datos de entrenamiento requiere marcos evaluativos que puedan detectar y cuantificar tales sesgos.
La transparencia en los procesos evaluativos es crítica, particularmente cuando los LLMs se despliegan en aplicaciones de alto riesgo como atención médica, sistemas legales o procesos de toma de decisiones financieras. Los marcos evaluativos deben proporcionar no sólo métricas de rendimiento sino también insights sobre los mecanismos de toma de decisiones del modelo y posibles puntos de falla.
Direcciones Futuras en la Evaluación de LLMs
El futuro de la evaluación de LLMs probablemente involucrará el desarrollo de marcos más sofisticados que incorporen múltiples dimensiones de rendimiento. Estos pueden incluir evaluaciones de coherencia a largo plazo, mantenimiento contextual a través de conversaciones extendidas, adaptabilidad a nuevos dominios y capacidad para manejar tareas multimodales.
Además, el desarrollo de métricas evaluativas específicas para humanos que puedan capturar aspectos cualitativos de la comunicación - como empatía, persuasión y compromiso emocional - será crucial para aplicaciones donde los LLMs interactúan directamente con usuarios humanos.
La integración de metodologías evaluativas de múltiples disciplinas, incluyendo lingüística, psicología cognitiva, filosofía del lenguaje y estudios de comunicación, proporcionará una comprensión más holística de las capacidades y limitaciones de LLM.
En Suma…
La evaluación de modelos de lenguaje grandes requiere un alejamiento fundamental de los paradigmas evaluativos tradicionales hacia enfoques más matizados y contextualmente sensibles. La comprensión wittgensteiniana del lenguaje como un conjunto diverso de juegos con reglas específicas proporciona un marco teórico valioso para desarrollar metodologías evaluativas apropiadas. Así es como lo ha presentado AutoGenAI ante el público congregado en el MIT Media Lab.
A medida que los LLMs continúan evolucionando y encontrando aplicaciones en dominios cada vez más diversos, nuestros marcos evaluativos deben evolucionar correspondientemente. Esto requiere colaboración continua entre tecnólogos, lingüistas, filósofos y profesionales de dominio para desarrollar métricas que capturen verdaderamente la efectividad de estos sistemas en sus contextos de aplicación previstos.
El objetivo final no es crear LLMs que sobresalgan en pruebas abstractas, como ocurre debido al efecto hype (euforia) tan común en nuestros días, sino desarrollar sistemas que puedan participar efectivamente en los enriquecedores y variados juegos de lenguaje que caracterizan la comunicación humana. Esta comprensión más sofisticada de la evaluación de LLMs será esencial para realizar el potencial transformador de estas tecnologías mientras se abordan sus limitaciones y riesgos inherentes.
留言