
В апреле google deepmind представили книгу «How to Scale Your Model» (ссылка), где подробно разбирают инференс на TPU и трансформерах.📊 Интересные инсайты:- Компромисс стоимость vs. задержка впечатляет: удвоение задержки на токен может дать ~100-кратное снижение стоимости.- Задержка варьируется от 5,5 мс при маленьких пакетах до 20 мс при больших.- Пропускная способность достигает плато (~1 токен/мс/чип) при BS 120, но при увеличении длины последовательности размер пакета ограничен памятью — полного насыщения не достичь.- При больших пакетах задержка выше при той же пропускной способности, потому что доминирует загрузка KV, а не параметров.💡 Вывод:Книга — обязательна для всех, кто хочет понимать реальные компромиссы между скоростью, стоимостью и масштабируемостью LLM. Она полезна как для инженеров, оптимизирующих инференс, так и для исследователей, ищущих практические решения для больших моделей на TPU.🚀 ©ТехноТренды



