Китайская нейросеть DeepSeek может стать революционной для рынка - эксперт НТИ
Новая нейросеть компании DeepSeek демонстрирует более экономное использование мощностей для обучения ИИ-моделей и новый подход к обработке запросов, позволяющий "рафинировать" анализируемые данные. Решение может стать революционным для рынка ИИ, способствуя перераспределению позиций его лидеров, считают эксперты Национальной технологической инициативы (НТИ), побеседовавшие с ТАСС.
Ранее сообщалось о том, что акции компании Nvidia на Франкфуртской фондовой бирже теряли почти 7% на фоне успеха новой версии китайского чат-бота DeepSeek, который, как утверждается, оказался эффективнее своего американского конкурента ChatGPT компании OpenAI (США). Генеральный директор группы компаний ST IT, эксперт рынка Technet НТИ Антон Аверьянов в разговоре с ТАСС указал на то, что разработка этой модели обошлась авторам гораздо дешевле, чем коллегам.
"DeepSeek, по [предварительным оценкам, сделанным на основе заявлений разработчиков], <…> работает даже лучше, чем GPT-4о. Это показывает, что с нейросетями можно работать гораздо меньшими ресурсами, чем все привыкли видеть. Более того, китайские разработчики разместили данную модель на чипах Huawei. Необходимо дождаться независимых бенчмарков. <…> В целом, если картина действительно такая, как это описано в проекте, то чат-бот можно назвать настоящей революцией в сфере нейросетей, ИИ. Его появление способствует перераспределению лидеров в данной глобальной гонке", - считает Аверьянов.
Эксперт также указал на то, что разработчики обеспечили бесплатный доступ к модели для пользователей.
"Они выложили модель в общий доступ (open source) - модель распространения, дающая возможность свободно размещать нейросеть на собственных мощностях, которые гораздо ниже, чем у OpenAi и прочих больших языковых моделей. В связи с этим рухнули акции Nvidia и многих американских компаний", - отметил он.
Сокращение затрат
Заместитель директора по трансферу технологий Центра компетенций НТИ "Технологии хранения и анализа больших данных" на базе МГУ имени М. В. Ломоносова Тимофей Воронин указал на то, что сумма, которую компания-разработчик DeepSeek потратила на обучение одной из своих моделей (5,5 млн долларов США), "в несколько десятков раз ниже аналогичных затрат американских компаний, включая Microsoft, Amazon, Google".
"В условиях ограничения экспорта передовых моделей чипов в Китай, необходимых для создания больших языковых моделей, китайские компании представляют решение, способное продемонстрировать отсутствие необходимости вложения такого значительного количества средств в развитие моделей ИИ. При этом оно более оптимизировано именно для китайского рынка, что позволяет значительно повысить точность обработки запросов, ответ на которые должен учитывать специфику региона", - отметил он в разговоре с ТАСС, добавив, что модель позволяет загружать текстовые файлы объемом до 100 мб бесплатно, что невозможно при использовании других сервисов.
Воронин также указал на то, что при решении логических и математических задач DeepSeek"демонстрирует процесс принятия решений, а не только готовый ответ, как часто делает ChatGPT".
Особый подход к обучению ИИ
Говоря об особенностях ИИ-модели, директор Мегафакультета трансляционных информационных технологий Университета ИТМО, научный руководитель исследовательского центра "Сильный искусственный интеллект в промышленности", эксперт Центра компетенций НТИ "Технологии машинного обучения и когнитивные технологии" на базе Университета ИТМО Александр Бухановский указал на то, что ключевые отличия заложены в организации процесса обучения нейросети.
"Во-первых, это изначально сбалансированная компоновка обучающих данных (интернет, книги, коды и прочее) таким образом, чтобы полноценно покрывать ряд выбранных тестов. Во-вторых, это применение разнообразных эвристических правил и моделей, обеспечивающих предварительную очистку данных от разного "мусора", а также удаление многочисленных дубликатов. Таким образом, происходит своего рода "рафинирование" данных для обучения. В-третьих, это эффективное использование памяти вычислителей на видеокартах. Как следствие, за счет технических улучшений <…> фактический объем данных становится меньше, а скорость обучения - выше", - отметил он.
Представитель МГУ Воронин считает, что пока DeepSeek может стать лучшим выбором для простых задач, включая анализ источников и поиск информации. С более сложными задачами, требующими высокого уровня проработки, "в настоящее время лучше справляется ChatGPT", добавил он.
Российские чат-боты
Эксперт также напомнил о том, что в России тоже есть конкурентоспособные большие языковые модели, например, GigaChat от Сбера, YandexGPT компании "Яндекс" и JustGPT от разработчика JustAI.
"Если сравнивать данные модели, то можно отметить некий баланс, так как если JustGPT превосходит конкурентов в копирайтинге, то отстает по скорости, YandexGPT уступает GigaChat по скорости, но превосходит по креативности и оригинальности. Для конкуренции с зарубежными решениями необходимо наращивать инфраструктуру, включая строительство дата-центров, и увеличивать объемы частных инвестиций в развитие ИИ", - считает Воронин.
Бухановский в свою очередь считает более эффективным не разработку российских аналогов зарубежных нейросетей, а создание инструментов для автоматизации процессов их адаптации и дообучения для специализированных задач.
"Можно также разрабатывать более сложные системы на их основе. Например, мультиагентные системы, где каждый агент отвечает за отдельную задачу и содержит в себе специально дообученную для этого модель", - заключил он.
- "Аэрофлот" в 2024 г утроил перевозки пассажиров между РФ и Китаем - до 830 тыс человек
- Созданный учеными Университета МГУ-ППИ алгоритм резко повысил производительность Nvidia
- Каждый пятый россиянин мечтает посетить Поднебесную в китайский Новый год - исследование
- "Яндекс" предполагает, что DeepSeek обучалась и на данных, связанных с его технологиями
- В Китае ценят вклад РФ в развитие БРИКС - глава правления Клуба предпринимателей КНР
- "Акрон" проиграл китайскому "Чэнду Жунчэн" на зимних сборах в Абу-Даби
- Поезд, посвященный китайскому Новому году, запустили в Москве
- Microsoft выясняет, мог ли DeepSeek украсть крупный объем данных у OpenAI - Bloomberg