DeepSeek випустила DeepSeek-V4: відкрита модель з контекстом до 1 млн токенів

Зображення: iTechua

Китайська компанія DeepSeek випустила попередню версію своєї моделі DeepSeek-V4 з відкритим вихідним кодом, здатної обробляти контекст до 1 мільйона токенів.

Модель DeepSeek-V4 представлена у двох варіантах: Pro та Flash, обидва доступні на сайті DeepSeek у режимах Instant Mode та Expert Mode. Оновлення API для цих моделей вже активне. Хоча обидва варіанти підтримують контекст обсягом 1 мільйон токенів, вони різняться за кількістю параметрів: Pro має 1,6 трильйона загальних та 49 мільярдів активних, тоді як Flash — 284 мільярди загальних та 13 мільярдів активних.

За заявами DeepSeek, варіант Pro відрізняється покращеними агентськими можливостями та обширними світовими знаннями, перевершуючи всі існуючі відкриті моделі та поступаючись лише Gemini 3.1 Pro. Він також демонструє міркування світового рівня, випереджаючи інші відкриті моделі в математиці, STEM та програмуванні, і конкуруючи з провідними закритими аналогами. Модель Flash, зі свого боку, пропонує можливості міркування, близькі до Pro, демонструє порівнянну продуктивність у простих агентських завданнях і є більш економічною завдяки своїй ціновій політиці API. Вартість введення для Flash становить $0.028 при кеш-попаді або $0.14 при кеш-промаху, а виведення коштує $0.28. Для моделі Pro відповідні ціни за введення складають $0.145 і $1.74, а виведення обійдеться в $3.48.

За матеріалами: iTechua