Новая модель DeepSeek V4 бросает вызов ChatGPT и Claude / Все новости / Главная

Китайская компания DeepSeek выпустила превью-версии моделей V4 Flash и V4 Pro. Они ориентированы на прямую конкуренцию с топовыми американскими системами и показывают заметный прогресс в программировании, логических рассуждениях и агентных задачах.

Одно из главных нововведений — Hybrid Attention Architecture (гибридная архитектура внимания). Она лучше сохраняет контекст в длинных разговорах и значительно снижает «забывание» информации. Модели поддерживают окно контекста до 1 миллиона токенов — это позволяет загружать в один промпт целые кодовые базы или объёмные документы.

DeepSeek продолжает делать ставку на эффективность. Модель с триллионом параметров использует подход Mixture-of-Experts (MoE), активируя только нужную часть параметров для каждой задачи. Это существенно снижает стоимость инференса по сравнению с традиционными моделями, где активируются все параметры.

Компания также готовится к переходу на отечественное железо: в этом году планируется запуск кластеров на чипах Huawei Ascend 950, что позволит ещё сильнее снизить затраты и уменьшить зависимость от иностранных поставщиков.

Выпуск подчёркивает растущую конкуренцию в ИИ и стратегию Китая по созданию более доступных и масштабируемых моделей.

 

Похожие новости
Комментарии

comments powered by Disqus
Мы в социальных сетях: