Gemini 2.0 Flash de Google ha batido múltiples récords de velocidad en los benchmarks actuales de LLM, ofreciendo latencias de menos de un segundo.
La velocidad siempre ha sido la compensación en la IA: los modelos más capaces se ejecutan más lentamente. Google acaba de romper ese supuesto con Gemini 2.0 Flash, un modelo que logra un rendimiento de razonamiento casi al nivel de 1.0-Pro mientras opera a velocidades que lo hacen sentir casi instantáneo en aplicaciones del mundo real. En pruebas independientes en 47 benchmarks estándar de PLN, Flash superó a GPT-4o mini en 39 de ellos mientras mantenía tiempos de respuesta medianos inferiores a 300 ms.
El arma secreta del modelo es su arquitectura destilada. Al entrenar un modelo más pequeño para imitar los patrones de razonamiento de su hermano mayor (Gemini 2.0 Pro), Google ha logrado una notable eficiencia de capacidad por parámetro. Flash también introduce salida de audio nativa, lo que significa que los desarrolladores pueden crear aplicaciones de voz sin una capa de texto a voz separada, y una ventana de contexto ampliada de 1 millón de tokens, lo que lo hace capaz de procesar bases de código completas o documentos de longitud de novela en un solo prompt.
Para los desarrolladores que construyen productos potenciados por IA, Gemini 2.0 Flash representa un cambio sísmico en la compensación costo-rendimiento. A aproximadamente una décima parte del precio de su contraparte Pro, Flash hace que la IA genuinamente capaz sea accesible para aplicaciones de alto rendimiento como traducción en tiempo real, tuberías de análisis de documentos y chatbots de cara al consumidor donde la latencia no es negociable.



