Новий алгоритм стиснення ШІ від Google може скоротити використання пам'яті в 6 разів

Google

Технологія ШІ-стиснення TurboQuant робить моделі LLM ефективнішими, але не знижує якість результату, як інші методи.

Навіть якщо ви мало знаєте про внутрішню роботу генеративних моделей ШІ, ви, ймовірно, знаєте, що їм потрібно багато пам'яті. Тому зараз практично неможливо купити навіть найменшу планку оперативної пам'яті, не бувши ошуканим. Нещодавно Google Research представила TurboQuant, алгоритм стиснення, який зменшує обсяг пам'яті, який займають великі мовні моделі (LLM), одночасно підвищуючи швидкість і зберігаючи точність.

TurboQuant спрямований на зменшення розміру кешу "ключ-значення", який Google порівнює з "цифровою шпаргалкою", що зберігає важливу інформацію, щоб її не доводилося перераховувати. Ця шпаргалка необхідна, тому що LLM насправді нічого не знають; вони можуть створити хороше враження знання за допомогою векторів, які відображають семантичне значення токенізованого тексту. Коли два вектори схожі, це означає, що вони мають концептуальну схожість.

Багатовимірні вектори, які можуть містити сотні або тисячі вкладень, можуть описувати складну інформацію, таку як пікселі зображення або великий набір даних. Вони також займають багато пам'яті та збільшують розмір кешу ключ-значення, що призводить до зниження продуктивності. Щоб зробити моделі меншими та ефективнішими, розробники використовують методи квантування для їх запуску з нижчою точністю. Недоліком є те, що результати погіршуються — якість оцінки токенів знижується. Попередні результати Google показують, що TurboQuant забезпечує 8-кратне збільшення продуктивності та 6-кратне зниження використання пам'яті в деяких тестах без втрати якості.

Кути та помилки

Застосування TurboQuant до моделі ШІ – це двоетапний процес. Для досягнення якісного стиснення Google розробив систему PolarQuant. Зазвичай вектори в моделях ШІ кодуються з використанням стандартних координат XYZ, але PolarQuant перетворює вектори на полярні координати в декартовій системі. На цій круговій сітці вектори зводяться до двох елементів інформації: радіусу (основна сила даних) та напрямку (сенс даних).

Google пропонує цікаву аналогію реального світу для пояснення цього процесу. Векторні координати подібні до напрямів, тому традиційне кодування може виглядати так: "Пройти 3 квартали на схід, 4 квартали на північ". Але при використанні декартових координат це просто: "Пройти 5 кварталів під кутом 37 градусів". Це займає менше місця та позбавляє систему дорогих етапів нормалізації даних.

PolarQuant виконує більшу частину стиснення, але другий етап усуває шорсткості. Хоча PolarQuant є ефективним, він може створювати залишкові помилки. Google пропонує згладити їх за допомогою методу, який називають квантуванням Джонсона-Лінденштрауса (QJL). Цей метод застосовує до моделі шар корекції помилок з 1 бітом, зменшуючи кожен вектор до одного біта (+1 або -1), зберігаючи при цьому основні векторні дані, що описують взаємозв'язки. В результаті виходить точніший показник уваги - це фундаментальний процес, за допомогою якого нейронні мережі визначають, які дані важливі. Якщо вас цікавлять деталі, препринт статті доступний для завантаження.

То чи працює вся ця математика? Google заявляє, що протестувала новий алгоритм стиснення на ряді бенчмарків із довгим контекстом, використовуючи відкриті моделі Gemma та Mistral. TurboQuant показав ідеальні результати у всіх тестах, одночасно скоротивши використання пам'яті в кеші ключ-значення у 6 разів. Алгоритм може квантувати кеш до 3 біт без додаткового навчання, тому його можна застосовувати до наявних моделей. Обчислення показника уваги за допомогою 4-бітного TurboQuant також у 8 разів швидше порівняно з 32-бітними неквантованими ключами на прискорювачах Nvidia H100.

У разі впровадження TurboQuant може зробити моделі ШІ менш витратними в експлуатації та менш вимогливими до пам'яті. Однак компанії, які розробляють цю технологію, також можуть використовувати звільнену пам'ять для запуску складніших моделей. Ймовірно, це буде поєднання обох підходів, але мобільний ШІ може отримати більше користі. З урахуванням апаратних обмежень смартфонів, методи стиснення, такі як TurboQuant, можуть покращити якість вихідних даних без надсилання даних у хмару.