Вторник, 14 января, 2025

DeepSeek-V3: Новый этап в развитии открытого ИИ

Китайский стартап в области искусственного интеллекта DeepSeek, известный своими инновационными открытыми технологиями, которые бросают вызов ведущим поставщикам ИИ, сегодня представил новую ультрабольшую модель: DeepSeek-V3.

Новая модель, доступная на платформе Hugging Face в соответствии с лицензионным соглашением компании, содержит 671 миллиард параметров, но использует архитектуру «смеси экспертов» (mixture-of-experts), чтобы активировать только выбранные параметры для точного и эффективного выполнения задач. Согласно тестам, проведенным DeepSeek, модель уже занимает лидирующие позиции, превосходя ведущие открытые модели, включая Llama 3.1-405B от Meta, и приближается к производительности закрытых моделей от Anthropic и OpenAI.

Этот выпуск знаменует собой еще один важный шаг в сокращении разрыва между закрытыми и открытыми моделями ИИ. В конечном итоге DeepSeek, который начал свою деятельность как ответвление китайского количественного хедж-фонда High-Flyer Capital Management, надеется, что эти разработки проложат путь к созданию искусственного общего интеллекта (AGI), где модели смогут понимать или обучаться выполнению любых интеллектуальных задач, доступных человеку.

Что предлагает DeepSeek-V3?

Как и его предшественник DeepSeek-V2, новая ультрабольшая модель использует ту же базовую архитектуру, основанную на многоуровневом латентном внимании (MLA) и DeepSeekMoE. Этот подход обеспечивает эффективное обучение и вывод данных — для каждого токена активируются 37 миллиардов параметров из 671 миллиарда благодаря специализированным и общим «экспертам» (отдельным, меньшим нейронным сетям внутри более крупной модели).

Хотя базовая архитектура обеспечивает высокую производительность DeepSeek-V3, компания также представила две инновации для дальнейшего повышения планки.

Первая — это стратегия балансировки нагрузки без вспомогательных потерь. Она динамически отслеживает и регулирует нагрузку на экспертов, чтобы использовать их сбалансированно, не жертвуя общей производительностью модели. Вторая — это предсказание нескольких токенов (MTP), которое позволяет модели одновременно предсказывать несколько будущих токенов. Эта инновация не только повышает эффективность обучения, но и позволяет модели работать в три раза быстрее, генерируя 60 токенов в секунду.

«Во время предварительного обучения мы обучали DeepSeek-V3 на 14,8 триллионах высококачественных и разнообразных токенов… Затем мы провели двухэтапное расширение длины контекста для DeepSeek-V3», — написала компания в техническом документе, посвященном новой модели. «На первом этапе максимальная длина контекста была увеличена до 32 тысяч токенов, а на втором — до 128 тысяч. После этого мы провели пост-обучение, включая тонкую настройку с учителем (SFT) и обучение с подкреплением (RL) на базовой модели DeepSeek-V3, чтобы адаптировать ее к человеческим предпочтениям и раскрыть ее потенциал. На этапе пост-обучения мы переняли способность к рассуждению из серии моделей DeepSeekR1, одновременно тщательно поддерживая баланс между точностью модели и длиной генерации»

Примечательно, что на этапе обучения DeepSeek использовала множество аппаратных и алгоритмических оптимизаций, включая фреймворк для обучения с смешанной точностью FP8 и алгоритм DualPipe для параллелизма конвейеров, чтобы сократить затраты на процесс.

В целом компания утверждает, что завершила обучение DeepSeek-V3 за примерно 2788 тысяч часов на GPU H800, что эквивалентно примерно $5,57 миллионам при стоимости аренды $2 за час работы GPU. Это значительно меньше, чем сотни миллионов долларов, обычно затрачиваемые на предварительное обучение больших языковых моделей.

Например, обучение Llama-3.1, по оценкам, потребовало инвестиций в размере более $500 миллионов.

Самая мощная открытая модель на сегодняшний день

Несмотря на экономичное обучение, DeepSeek-V3 стала самой мощной открытой моделью на рынке.

Компания провела множество тестов для сравнения производительности ИИ и отметила, что она убедительно превосходит ведущие открытые модели, включая Llama-3.1-405B и Qwen 2.5-72B. Она даже превосходит закрытую модель GPT-4o в большинстве тестов, за исключением тестов, ориентированных на английский язык, таких как SimpleQA и FRAMES, где модель OpenAI показала лучшие результаты с оценками 38,2 и 80,5 (против 24,9 и 73,3) соответственно.

Примечательно, что производительность DeepSeek-V3 особенно выделялась в тестах, ориентированных на китайский язык и математику, где она показала лучшие результаты среди всех аналогов. В тесте Math-500 она набрала 90,2 балла, тогда как следующий результат Qwen составил 80.

Единственной моделью, которая смогла бросить вызов DeepSeek-V3, стала Claude 3.5 Sonnet от Anthropic, превзойдя ее с более высокими баллами в тестах MMLU-Pro, IF-Eval, GPQA-Diamond, SWE Verified и Aider-Edit.

В настоящее время код DeepSeek-V3 доступен на GitHub под лицензией MIT, а сама модель предоставляется в соответствии с лицензионным соглашением компании. Предприятия также могут протестировать новую модель через DeepSeek Chat, платформу, похожую на ChatGPT, и получить доступ к API для коммерческого использования. DeepSeek предоставляет API по той же цене, что и DeepSeek-V2, до 8 февраля. После этого стоимость составит $0,27 за миллион входных токенов ($0,07 за миллион токенов с кэшированием) и $1,10 за миллион выходных токенов.

Предыдущая статья

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Latest article

Must read