Зображення: iTechua
Компанія xAI Ілона Маска, яка розробляє модель Grok, зіткнулася з проблемою неефективного використання своїх обчислювальних ресурсів. Попри розгорнуті 550 тисяч графічних прискорювачів Nvidia серій H100 і H200 у кластерах Memphis і Colossus, фактичне завантаження системи становить лише близько 11%. Це означає, що ефективно використовується приблизно 60 тисяч GPU, тоді як решта простоює.
Проблема полягає у складності управління такою масштабною інфраструктурою. На рівні сотень тисяч графічних процесорів навіть незначні затримки між етапами навчання та передачею даних накопичуються, створюючи вузькі місця. Джерела зазначають, що головна причина – недостатня зрілість програмної та розподіленої архітектури навчання в xAI, через що GPU часто очікують на дані або нові завдання. Експерти наголошують, що це загальногалузева проблема. Для порівняння, такі гіганти, як Meta і Google, досягають близько 43% і 46% завантаження відповідно. У xAI прагнуть до рівня близько 50%, але терміни досягнення цього показника поки не уточнюються.
За матеріалами: iTechua






