ANDRIEVSKII SEA WEALTH

DeepSeek бросает вызов всем предположениям о стоимости ИИ

28.01.2025
Andrievskii Sea Wealth
DeepSeek бросает вызов всем предположениям о стоимости ИИ

Китайский новичок утверждает, что его конкурент ChatGPT обходится в разы дешевле, что ставит под сомнение обоснованность заоблачных бюджетов на ИИ.

Когда на прошлой неделе в швейцарских Альпах собрались главы крупнейших компаний, занимающихся искусственным интеллектом, все взгляды были обращены на восток. В панельных дискуссиях и частных беседах на полях Всемирного экономического форума в Давосе руководители технологических компаний подчеркивали необходимость строительства большего количества центров обработки данных США и их союзниками и нахождения правильного баланса в регулировании, чтобы опережать Китай в разработке ИИ.

«Мы, вероятно, на год опережаем в моделях», — заявила Bloomberg News на мероприятии Рут Порат, президент и главный инвестиционный директор Alphabet Inc. Но, добавила она, «это не предрешенный вывод», что США сохранят свое преимущество.

Даже это, возможно, было бы слишком оптимистично. На той же неделе малоизвестный китайский стартап в области искусственного интеллекта DeepSeek выпустил новую модель искусственного интеллекта с открытым исходным кодом под названием R1, которая может имитировать ход мыслей людей. Компания заявила, что R1 конкурирует или превосходит ведущих разработчиков США по ряду отраслевых показателей, включая математические задачи и общие знания, — и была создана за небольшую часть стоимости. К выходным DeepSeek поднялся в рейтинге Chatbot Arena, пристально отслеживаемой таблицы лидеров для систем искусственного интеллекта, и видные деятели в сфере технологий, такие как Марк Андрессен, называли продукт « моментом Спутника искусственного интеллекта ».

Теперь последствия запуска R1 быстро распространяются по США, поскольку технологическая индустрия пытается понять, как DeepSeek удалось совершить подвиг и сделал ли этот выскочка это так дешево, как он утверждает. Уже есть подозрения, что китайский выскочка построил своего чат-бота на основе западных технологий, обойдя огромные затраты на разработку больших языковых моделей.

В Сан-Франциско руководители и сотрудники ИИ срочно анализируют технологию DeepSeek. Некоторые сотрудники OpenAI пытаются выяснить, как именно DeepSeek смогла выпустить такую ​​модель, пословамлюдей, знакомых с этим вопросом, которые говорили на условиях анонимности для обсуждения личных вопросов. Другой человек сказал, что в компании есть ощущение, что OpenAI нужно очень серьезно относиться к разработкам китайских компаний, поскольку это дает возможность внедрять инновации и улучшать их существующие модели. Генеральный директор OpenAI Сэм Альтман недавно сказал сотрудникам, что этот релиз знаменует собой серьезный сдвиг в ландшафте стартапа, сказал один из источников.

«R1 от DeepSeek — впечатляющая модель», — написал Альтман в своей первой публичной реакции на X. «Очевидно, что мы предоставим гораздо лучшие модели, и также очень воодушевляет появление нового конкурента!»

Meta Platforms Inc., которая также фокусируется на моделях ИИ с открытым исходным кодом, создала внутреннюю команду, сосредоточенную на анализе DeepSeek, чтобы лучше понять, как он был создан и что он может делать, по словам людей, знакомых с этим вопросом. Компания сформировала аналогичные целевые группы для оценки других основных конкурентов, таких как модель GPT-4 от OpenAI и Gemini от Google, сообщили люди.

Почти за одну ночь DeepSeek перевернул многие предположения в Кремниевой долине об экономике создания ИИ, а также о лучших технических методах разработки технологии и степени превосходства США над конкурентами в Китае. На протяжении большей части последних двух с лишним лет с тех пор, как ChatGPT положил начало глобальному безумию ИИ, отрасль делала ставку на то, что путь к лучшему ИИ во многом зависит от крупных расходов на более продвинутые чипы от таких компаний, как Nvidia Corp., и все более крупных центров обработки данных для их размещения.

Технологии уже тратят миллиарды на инфраструктуру ИИ

Расходы резко растут из-за строительства центров обработки данных.

Президент США Дональд Трамп приветствовал разработку, назвав ее «хорошей, потому что не нужно тратить так много денег». Лидер отрасли Nvidia, чьи акции сильно упали из-за дебюта DeepSeek, также похвалил ее как «превосходное достижение в области искусственного интеллекта» в своем заявлении в понедельник.

«Выпуск DeepSeek AI китайской компанией должен стать сигналом тревоги для наших отраслей и напомнить нам о необходимости быть предельно сосредоточенными на борьбе за победу», — добавил Трамп.

Последствия для рынка были ошеломляющими. Ажиотаж вокруг подвига DeepSeek привел к разгрому акций американских и европейских технологических компаний почти на 1 триллион долларов в понедельник, поскольку инвесторы усомнились в планах расходов некоторых крупнейших компаний Америки. Падение акций одного только производителя чипов для искусственного интеллекта Nvidia стерло примерно 589 миллиардов долларов рыночной стоимости, что стало крупнейшим падением в истории фондового рынка США.

Тем временем в округе Колумбия законодателям остается выяснить, как лучше всего остановить прогресс Китая в технологии, которую некоторые считают критически важной для его армии и экономики, учитывая, что ограничения на экспорт чипов администрацией Байдена были недостаточными. Дэвид Сакс, глава криптовалют и ИИ президента Дональда Трампа, сказал, что DeepSeek показывает, что глобальная гонка ИИ будет очень конкурентной, — при этом обвиняя администрацию Байдена в регулировании, которое «подкосило» развитие ИИ.

Еще больше усложняя ситуацию, возобновившаяся неопределенность относительно крупных инвестиций в ИИ возникла всего через несколько дней после того, как Трамп выступил за совместное предприятие OpenAI, SoftBank Group Corp. и Oracle Corp. стоимостью 100 миллиардов долларов, чтобы повысить конкурентоспособность США за счет инвестиций в центры обработки данных и другую физическую инфраструктуру. Теперь возникают новые вопросы о целесообразности стратосферных бюджетов на ИИ.

«Это смена парадигмы», — сказал Али Годси, генеральный директор Databricks Inc. «Эти модели, которые могут рассуждать, настолько дешевле производить, что вы увидите, как это станет демократичным. Вы увидите инновации из неожиданных уголков мира».

Рост DeepSeek

Для Лян Вэньфэна DeepSeek начинался как сторонний проект. 40-летний Лян создал DeepSeek в 2023 году как ответвление подразделения ИИ для своего хедж-фонда Zhejiang High-Flyer Asset Management.

Лян смог задействовать некоторые местные таланты и, что особенно важно, чипы. Он начал накапливать около 10 000 графических процессоров Nvidia A100 — более старую версию ключевой технологии для обучения систем ИИ — до того, как США ввели экспортные ограничения. И большинство его ведущих исследователей были свежими выпускниками ведущих китайских университетов, сказал он, подчеркивая необходимость для Китая развивать собственную внутреннюю экосистему.

DeepSeek быстро выпустила ряд моделей ИИ с открытым исходным кодом, начав с DeepSeek LLM в конце 2023 года. Две более продвинутые модели — V2 и V3 — вышли в середине и конце 2024 года соответственно. Однако именно модель R1 от DeepSeek, выпущенная в середине января, действительно задела за живое.

DeepSeek занимает третье место среди конкурентов в области моделей ИИ

Как и некоторые из последних моделей OpenAI, Google и Anthropic, R1 призвана попугайничать, как люди иногда размышляют над проблемами, тратя время на вычисление ответа перед тем, как отвечать на запросы пользователей. Однако версия DeepSeek отличается своей эффективностью. Команда, стоящая за ней, придумала несколько простых, но ключевых инноваций, таких как поиск способов более эффективного использования компьютерных чипов, к которым у них был доступ. Еще один прорыв: значительная опора на технику, известную как обучение с подкреплением, которая вознаграждает систему за правильные ответы и наказывает ее за неправильные.

Приложение DeepSeek оказалось популярным среди пользователей из США, отчасти благодаря приветливому, немного неловко звучащему чат-боту, который подробно показывает, как он планирует ответить на вопрос человека, прежде чем погрузиться в результаты. Подход включает в себя гораздо больше деталей, чем, скажем, последние модели рассуждений OpenAI. И в отличие от OpenAI, который взимает до 200 долларов в месяц за неограниченный доступ к своим самым передовым моделям рассуждений, среди прочих функций, DeepSeek в настоящее время предлагает свои услуги бесплатно. Но DeepSeek также цензурирует темы, которые были бы деликатными в Китае. Например, вопрос о китайской культурной революции может спровоцировать ответ: «Извините, это выходит за рамки моей текущей компетенции. Давайте поговорим о чем-нибудь другом».

Годси сказал, что в течение часа после выпуска R1 он получил свой первый запрос от клиента DataBricks, который интересовался его использованием. Спрос с тех пор только усилился. В частности, сказал он, компании хотят знать, как добавить возможности рассуждения из DeepSeek поверх существующих моделей ИИ Databricks — то, что, как показывают усилия DeepSeek, можно сделать недорого, сказал он.

«Темпы и уровень интереса для нас беспрецедентны», — сказал Годси.

Мехди Осман, генеральный директор компании-разработчика программного обеспечения OpenReplay, сказал, что его компания традиционно использовала услуги OpenAI, Anthropic и Mistral, и что навыки рассуждения DeepSeek, похоже, находятся на одном уровне с OpenAI. «Если OpenAI не снизит свои цены, я думаю, что многие разработчики перейдут на DeepSeek в ближайшие месяцы», — сказал Осман.

OpenAI отказался от комментариев. DeepSeek не ответил на запрос о комментарии.

«Это как бы вышло из левого поля», — сказал Демис Хассабис, генеральный директор Google DeepMind, Bloomberg News на прошлой неделе в Давосе. «Нет сомнений, что это впечатляющая система». Но, как и другие в отрасли, Хассабис выразил неуверенность в том, как работают модели DeepSeek, в том числе в том, в какой степени она полагалась на другие, западные модели.

Тем временем Альтман сообщил сотрудникам OpenAI, что его стартап пытается понять, является ли эффективность DeepSeek результатом переработки моделей OpenAI (то есть использования результатов работы ИИ этой компании для обучения другой модели с аналогичными возможностями) или же она представляет собой независимый исследовательский прорыв, по словам человека, знакомого с этим вопросом.

«Даже если это [выделение модели OpenAI] сэкономило им немного времени и денег — хотя я этого не утверждаю, — в статье явно проделана большая техническая работа, которую люди могут изучить и оценить самостоятельно», — сказал Майлз Брандейдж, независимый исследователь политики в области ИИ, недавно покинувший OpenAI.

Некоторые американские основатели технологий и венчурные капиталисты также скептически относятся к реальной цене технологии DeepSeek. Многие, включая Брэндеджа, сомневались, включала ли оценка обучения DeepSeek в размере 5,6 млн долларов стоимость предшествующих исследовательских экспериментов, а также фиксированные затраты на инвестиции в графические процессоры, такие как строительство центров обработки данных.

Лян, со своей стороны, предположил, что расходы и сбор средств не являются его главной заботой. Скорее, узким местом для дальнейшего продвижения, сказал Лян в интервью китайскому изданию 36kr, являются ограничения США на доступ к лучшим чипам.

«Больше инвестиций не обязательно приводит к большему количеству инноваций», — сказал Лян. «В противном случае крупные компании забрали бы все инновации».

Новый конкурентный ландшафт

За несколько недель до ажиотажа вокруг DeepSeek некоторые крупные компании, на которые, как мог намекать Лян, еще больше напрягли свои финансовые мускулы.

Amazon прогнозирует расходы около $75 млрд на капитальные затраты в 2024 году и увеличение суммы в этом году, в основном на технологическую инфраструктуру, такую ​​какчипыицентрыобработкиданных, которыепитаютискусственныйинтеллект. Meta заявила, чтоинвестируетдо $65 млрдвпроекты, связанныесИИ, в 2025 году. А Microsoft заявила, чтопотратит $80 млрд на центры обработки данных ИИ в этом финансовом году.

Большая часть расходов крупнейших компаний облачных вычислений идет на графические процессоры Nvidia. Amazon, Google и Microsoft также создают собственные чипы, предназначенные для ИИ, работа, которая может быть менее полезной в долгосрочной перспективе, если разработчики смогут создавать и запускать модели на менее специализированном оборудовании, написал Стефан Словински, аналитик BNP Paribas Exane, в исследовательской заметке в понедельник.

Облачные гиганты уже сталкиваются с вопросами инвесторов об отдаче от их значительных затрат на ИИ. Microsoft, например, с трудом монетизирует чат-ботов Copilot, которые она встраивает во многие свои линейки продуктов. Amazon, тем временем, отстает от своих основных конкурентов в разработке собственных крупных языковых моделей, даже при том, что она внедряет чат-ботов и другие инструменты ИИ в свой розничный и облачный бизнес.

Тем не менее, огромные инвестиции двух компаний могут окупиться в будущем. Amazon делает ставку на то, что ее статус крупнейшего поставщика арендуемых вычислительных мощностей поможет ей процветать, поскольку другие компании обучают и запускают программы ИИ на серверах Amazon Web Services. По словам Марка Мёрдлера, аналитика Bernstein Societe Generale Group, Microsoft больше сосредоточена на создании центров обработки данных, которые запускают модели ИИ, а не на их обучении, и он ожидает, что расходы компании снизятся уже в следующем году. «Мы считаем, что они строят преимущественно мощности для вывода, а не для обучения», — сказал он. «Если это так, я не думаю, что DeepSeek является проблемой для Microsoft».

Большой вопрос в том, примут ли крупные американские технологические компании аспекты подхода DeepSeek. Некоторые разработчики ИИ говорят, что успех китайского стартапа может ускорить переход к более дешевому и прибыльному ИИ, запустив естественный прогресс, который подтолкнул почти все крупные технологические разработки, от чипов до смартфонов.

«Будущее LLM принадлежит тем, кто сосредоточится на более эффективных методах, а не на большем количестве вычислений», — сказал Эйдан Гомес, генеральный директор стартапа Cohere, занимающегося ИИ. «Мы долгое время верили в это, но, наконец, это стало очевидным для всей отрасли».

Источник: www.bloomberg.com