Gemma 4 QAT: Google lleva la IA local a tu móvil con menos de 1 GB
Google ha vuelto a sorprender. Apenas dos meses después del lanzamiento de Gemma 4, su familia de modelos abiertos, acaban de publicar una nueva tanda de checkpoints optimizados con Quantization-Aware Training (QAT). La promesa es tentadora: ejecutar modelos de IA en tu móvil o portátil sin sacrificar calidad y ocupando menos de 1 GB de memoria.
¿Qué es QAT y por qué importa?
Para que un modelo de lenguaje como Gemma 4 funcione en hardware doméstico, necesita comprimirse. El método tradicional se llama Post-Training Quantization (PTQ) y consiste en reducir la precisión numérica del modelo después de entrenarlo. Es rápido, pero a menudo degrada la calidad.
QAT hace lo mismo, pero durante el entrenamiento. En lugar de comprimir después, el modelo aprende a trabajar con precisión reducida desde el principio. El resultado: una compresión igual de agresiva, pero con mucho menos pérdida de calidad. Según Google, sus modelos QAT ofrecen una calidad superior incluso comparada con PTQ, que ya era un método aceptable.

De 26 GB a menos de 1 GB: así de radical es la reducción
Los números impresionan. El modelo Gemma 4 E2B, en su versión solo texto, ocupa menos de 1 GB de memoria cuando se cuantiza con el formato móvil que Google ha diseñado. Para que te hagas una idea, el modelo completo sin comprimir necesita alrededor de 26 GB. Esa reducción del 96 % es posible gracias a una combinación de técnicas:
- Activaciones estáticas: el modelo precalcula cómo escalar los datos durante el entrenamiento, eliminando trabajo en tiempo real.
- Cuantización por canales: los datos se estructuran para que los aceleradores de móvil los procesen de forma nativa.
- Cuantización selectiva a 2 bits: las partes del modelo que generan tokens se comprimen al máximo, mientras que las capas de razonamiento se mantienen con mayor precisión.
- Optimización de embeddings y KV cache: se reduce drásticamente el vocabulario y la memoria a corto plazo del modelo.
Dos formatos para dos escenarios
Google ha lanzado los checkpoints QAT en dos sabores distintos para cubrir diferentes necesidades:
| Formato | Uso recomendado | Partners compatibles |
|---|---|---|
| Q4_0 | Escritorio y GPUs de consumo | llama.cpp, vLLM, SGLang, MLX, Unsloth |
| Mobile | Dispositivos móviles y edge | LiteRT-LM, Transformers.js |
El formato Q4_0 es el estándar para quien quiera ejecutar Gemma 4 en su portátil con herramientas como Ollama o LM Studio. El formato Mobile incorpora las optimizaciones específicas para hardware de telefonía, como aceleradores NPU y DSP.

Qué puedes hacer hoy con Gemma 4 QAT
Lo mejor es que no necesitas ser ingeniero de Google para probarlo. Los pesos están disponibles en Hugging Face desde hoy mismo, y el ecosistema de herramientas ya las soporta:
- llama.cpp y Ollama para ejecución local en escritorio
- LM Studio si prefieres interfaz gráfica
- MLX para optimización en Apple Silicon
- vLLM y SGLang para servir modelos en producción
- Unsloth para fine-tuning directamente sobre los checkpoints QAT
Además, los modelos con Multi-Token Prediction (MTP) también tienen sus versiones QAT, así que no pierdes la aceleración que Google introdujo hace unas semanas.
¿Por qué esto cambia las reglas del juego?
Hasta ahora, ejecutar un modelo de calidad en un móvil era una utopía. Tenías que elegir entre modelos diminutos pero poco capaces, o modelos potentes pero limitados a la nube. Gemma 4 QAT rompe ese dilema.
Con menos de 1 GB de memoria, cualquier móvil de gama media puede ejecutar el modelo localmente. Sin conexión, sin latencia de red, sin enviar tus datos a servidores externos. Para aplicaciones de asistencia personal offline, traducción, análisis de documentos y un largo etcétera, es un salto enorme.
Y no solo en móvil. En un portátil con GPU integrada, el formato Q4_0 permite tener un asistente de IA siempre activo sin fundir la batería ni saturar la memoria.

Conclusión
Google ha dado en el clavo con esta actualización. Gemma 4 ya era una familia de modelos sólida, pero los checkpoints QAT la convierten en una opción real para quien quiera ejecutar IA localmente, ya sea en un móvil, un portátil o un servidor doméstico. La combinación de QAT + formato móvil + ecosistema de herramientas hace que instalar y usar estos modelos sea trivial.
Si te gusta experimentar con IA, date una vuelta por Hugging Face, descarga los pesos y pruébalos con Ollama o LM Studio. La era de la IA local sin concesiones acaba de empezar.
¿Te ha servido este contenido? Si quieres apoyar, puedes invitarnos a un café en buymeacoffee.com/alexjmwarea.