Google представила три новых алгоритма сжатия для больших языковых моделей — TurboQuant, PolarQuant и Quantized Johnson-Lindenstrauss. Они позволяют значительно сократить объём памяти, необходимый для работы ИИ, при этом полностью сохраняя точность и качество ответов. Все три алгоритма основаны на векторной квантизации — методе оптимизации данных, который может помочь ИИ-компаниям снизить затраты на оборудование в условиях рекордного роста цен на память.

Самая большая нагрузка на память в современных LLM приходится на key-value cache — это хранилище контекста разговора, которое растёт по мере общения пользователя с чат-ботом. Чем длиннее диалог, тем больше памяти и энергии тратится. TurboQuant решает эту проблему комплексно: уменьшает размер модели без потери точности, ускоряет векторный поиск и снимает bottleneck с кэша.
Для этого используется PolarQuant — метод высококомпрессионного сжатия, который случайно поворачивает векторы данных, упрощая их геометрию и позволяя применить качественный квантизатор к большим массивам непрерывных значений. Если алгоритм оправдает ожидания, смартфоны и ноутбуки смогут хранить гораздо больше контекста и поддерживать длинные, осмысленные разговоры прямо на устройстве.
Чтобы избежать ошибок в ответах, TurboQuant использует 1-битное сжатие и применяет Quantized Johnson-Lindenstrauss — математический механизм коррекции ошибок. Он балансирует высокоточную работу с упрощёнными данными при расчёте «внимания» (attention score) — того самого механизма, который определяет, какие части входных данных важны, а какие можно игнорировать.
Результаты тестирования
Google протестировала все три алгоритма на стандартных бенчмарках длинного контекста (LongBench, Needle in a Haystack, ZeroSCROLLS, RULER, L-Eval) с открытыми моделями Gemma и Mistral. TurboQuant показал отличные результаты по искажению скалярного произведения и полноте поиска, при этом сократив память key-value cache минимум в 6 раз.
Инженеры Google считают, что новые алгоритмы помогут не только снизить огромные требования к памяти у мультимодальных моделей вроде Gemini, но и обеспечат необходимую эффективность и точность для критически важных приложений. Кроме того, преимущества эффективной онлайн-векторной квантизации выходят далеко за пределы кэша: они позволяют улучшить результаты веб-поиска с минимальным расходом памяти, почти нулевой задержкой и высокой точностью.
Глобальная индустрия потребительской электроники уже столкнулась с резким ростом цен на комплектующие из-за бума ИИ. Дефицит памяти и рекордные цены на DRAM создают серьёзные проблемы. Если TurboQuant и его «родственники» действительно работают так, как заявлено, они смогут снизить потребность в высокоскоростной памяти в дата-центрах ИИ и, возможно, стабилизировать цены на гаджеты в ближайшем будущем.
