Недавнее развитие отрасли искусственного интеллекта рассматривается некоторыми как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность в различных отраслях, по оценкам, увеличив рабочую эффективность в США примерно на 20%. В то же время универсальность, обеспечиваемая большими моделями, считается новой парадигмой проектирования программного обеспечения, переходя от точного кода к более универсальным структурам больших моделей, встроенным в программное обеспечение, что позволяет поддерживать более широкий спектр входных и выходных модальностей. Технологии глубокого обучения принесли четвертое процветание в отрасль ИИ, и этот тренд также повлиял на индустрию криптовалют.
В этом отчете будет подробно рассмотрена история развития отрасли ИИ, классификация технологий и влияние технологий глубокого обучения на эту отрасль. Будет проведен глубокий анализ текущего состояния и тенденций развития таких элементов цепочки поставок, как GPU, облачные вычисления, источники данных и устройства на краю в области глубокого обучения. Также будет рассмотрена сущностная связь между криптовалютой и отраслью ИИ, а также будет проанализирована структура цепочки поставок ИИ, связанная с криптовалютой.
AI-индустрия началась в 1950-х годах. Для достижения видения искусственного интеллекта академическое и промышленное сообщество разработали различные подходы к реализации искусственного интеллекта в разные эпохи и с различным научным бэкграундом.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение", который подразумевает, что машины полагаются на данные для многократной итерации в задачах с целью улучшения производительности системы. Основные шаги заключаются в передаче данных в алгоритмы для тренировки модели, тестирования и развертывания модели, а также в использовании модели для выполнения автоматизированных предсказательных задач.
В настоящее время в машинном обучении существует три основных направления:.connectionism, символизм и бихевиоризм, которые соответственно имитируют нервную систему, мышление и поведение человека. В настоящее время направление, представленное нейронными сетями, занимает ведущее положение (также известное как глубокое обучение), основная причина этого заключается в том, что такая архитектура имеет один входной слой, один выходной слой и несколько скрытых слоев. Как только количество слоев и нейронов (параметров) становится достаточно большим, появляется достаточно возможностей для подгонки сложных универсальных задач. Через ввод данных можно постоянно настраивать параметры нейронов, и после нескольких итераций данных нейрон достигает оптимального состояния (параметров), что также является источником его "глубины" — достаточного количества слоев и нейронов.
Технологии глубокого обучения, основанные на нейронных сетях, также имеют несколько технологических итераций и эволюций, начиная с самых ранних нейронных сетей, затем переходя к сети прямого распространения, RNN, CNN, GAN и, наконец, эволюционируя в современные большие модели, такие как используемые в GPT технологии Transformer. Технология Transformer является лишь одним из направлений эволюции нейронных сетей, в котором добавляется преобразователь, используемый для кодирования данных всех модальностей (таких как аудио, видео, изображения и т. д.) в соответствующие числовые значения. Затем эти значения вводятся в нейронную сеть, благодаря чему нейронная сеть может моделировать любой тип данных, что и позволяет реализовать мультимодальность.
Развитие ИИ прошло через три технологические волны:
Первая волна произошла в 60-х годах 20 века, через десять лет после появления технологий ИИ. Эта волна вызвана развитием символистских технологий, которые решили проблемы общего обработки естественного языка и взаимодействия человека с компьютером. В то же время появились экспертные системы.
Вторая волна технологий ИИ произошла в 1997 году, когда IBM Deep Blue одержал победу над чемпионом мира по шахматам Гарри Каспаровым со счетом 3.5:2.5, и эта победа считается вехой в области искусственного интеллекта.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения Ян Лекун, Джеффри Хинтон и Ёсуа Бенжио предложили концепцию глубокого обучения, алгоритма, основанного на искусственных нейронных сетях, для обучения представлениям данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN, GAN до Transformer и Stable Diffusion, эти алгоритмы совместно сформировали эту третью технологическую волну и стали временем расцвета соединительного подхода.
В настоящее время языковые модели большого масштаба используют методы глубокого обучения на основе нейронных сетей. Модели большого масштаба, такие как GPT, породили волну интереса к искусственному интеллекту, и на этот рынок хлынули многочисленные игроки, что вызвало резкий рост спроса на данные и вычислительные мощности. Эта часть в основном исследует отраслевую цепочку алгоритмов глубокого обучения, ее состав, а также текущее состояние и соотношение спроса и предложения на всех уровнях, а также перспективы развития.
Обучение LLM (больших моделей) на основе технологии Transformer, возглавляемое GPT, делится на три этапа:
Первый шаг, предварительное обучение. Путем предоставления достаточного количества пар данных на входном слое, чтобы найти оптимальные параметры для каждого нейрона модели, этот процесс требует большого объема данных и является наиболее ресурсоемким.
Второй шаг, доработка. Предоставьте небольшую, но очень качественную партию данных для обучения, чтобы улучшить качество вывода модели.
Третий шаг, обучение с подкреплением. Создание "модели вознаграждения" для определения качества выходных данных большой модели, используемой для автоматической итерации параметров большой модели.
Вкратце, в процессе обучения больших моделей требования к количеству данных для предобучения очень высоки, а необходимая вычислительная мощность GPU также максимальна; для тонкой настройки требуется более качественные данные для улучшения параметров; обучение с подкреплением может повторно итеративно настраивать параметры через модель вознаграждения, чтобы выдавать результаты более высокого качества.
На производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, вычислительная мощность. Эти три фактора совместно влияют на качество результатов и обобщающую способность больших моделей. Предположим, что количество параметров равно p, объем данных равен n (в расчете по количеству токенов), тогда с помощью эмпирического правила можно рассчитать необходимое количество вычислений, чтобы оценить необходимую вычислительную мощность и время обучения.
Мощность вычислений обычно измеряется в Flops, что представляет собой одну операцию с плавающей запятой. Согласно эмпирическому правилу, предварительное обучение большой модели требует примерно 6np Flops. Вывод (процесс ожидания выхода большой модели при вводе данных) требует около 2np Flops.
Раннее использование процессоров CPU для обучения обеспечивало вычислительную мощность, но со временем их постепенно заменили графические процессоры GPU, такие как чипы Nvidia A100, H100 и другие. Поскольку GPU могут выступать в качестве специализированных вычислительных устройств, они значительно превосходят CPU по эффективности потребления энергии. GPU выполняют операции с плавающей запятой в основном через модуль Tensor Core. Данные Flops чипа при точности FP16/FP32 представляют его основную вычислительную способность и являются одним из основных показателей оценки чипа.
Предположим, что параметры большой модели, например, GPT3, составляют 175 миллиардов параметров и 180 миллиардов токенов данных (примерно 570 ГБ), тогда для одной предварительной тренировки требуется 6np флопс, что составляет примерно 3,1510^22 флопс. В единицах TFLOPS (триллионы флопс) это составляет примерно 3,1510^10 TFLOPS, то есть для предварительной тренировки GPT3 на одном чипе модели SXM потребуется около 584 дней.
Из этого видно, что огромные вычислительные мощности, необходимые для предварительного обучения, требуют совместных вычислений нескольких современных чипов. Количество параметров GPT-4 в десять раз больше, чем у GPT-3, что означает, что даже если объем данных остается неизменным, необходимо будет купить в десять раз больше чипов. Количество токенов GPT-4 составляет 13 триллионов, что также в десять раз больше, чем у GPT-3, и в конечном итоге GPT-4 может потребовать более 100 раз больше вычислительной мощности чипов.
В процессе обучения больших моделей также возникают проблемы с хранением данных. Объем памяти GPU обычно небольшой (например, A100 имеет 80 ГБ), что не позволяет вместить все данные, поэтому необходимо учитывать пропускную способность чипа, то есть скорость передачи данных от жесткого диска к памяти. Кроме того, из-за использования нескольких GPU также возникает вопрос скорости передачи между GPU. Поэтому во многих случаях факторы или затраты, ограничивающие практическое обучение модели, не обязательно связаны с вычислительной мощностью чипа; чаще всего это может быть пропускная способность чипа. Поскольку передача данных происходит медленно, это приводит к увеличению времени работы модели и повышению затрат на электроэнергию.
Цепочка поставок в области глубокого обучения в основном включает в себя следующие части:
В настоящее время Nvidia занимает абсолютную лидирующую позицию в области AI GPU-чипов. В академической среде в основном используются потребительские GPU (серия RTX); в промышленности в основном используются H100, A100 и другие для коммерческого развертывания больших моделей.
В 2023 году самый продвинутый чип H100 от Nvidia сразу же был заказан несколькими компаниями. Глобальный спрос на чип H100 значительно превышает предложение, и его срок поставки достиг 52 недель. Учитывая монопольное положение Nvidia, Google во главе с Intel, Qualcomm, Microsoft и Amazon создали альянс CUDA в надежде совместно разрабатывать графические процессоры, чтобы избавиться от влияния Nvidia.
Для крупных технологических компаний, облачных сервисов и национальных лабораторий они часто закупают тысячи, десятки тысяч чипов H100 для создания HPC (центров высокопроизводительных вычислений). К концу 2023 года количество заказанных чипов H100 превысило 500000.
Что касается поставок чипов от Nvidia, то в настоящее время уже появились сообщения о H200, ожидается, что производительность H200 будет в два раза выше, чем у H100, а B100 будет выпущен в конце 2024 года или в начале 2025 года. В настоящее время развитие GPU по-прежнему соответствует закону Мура, производительность удваивается каждые 2 года, а цена снижается вдвое.
Поставщики облачных услуг могут предоставить гибкие вычислительные мощности и решения для облачного обучения для ограниченных в финансах компаний в области искусственного интеллекта после приобретения достаточного количества GPU для создания HPC. В настоящее время рынок в основном делится на три категории поставщиков облачных вычислений:
Платформы облачных вычислений большого масштаба, представленные традиционными облачными провайдерами (AWS, Google, Azure)
Облачная вычислительная платформа в вертикальных сегментах, в первую очередь предназначенная для ИИ или высокопроизводительных вычислений.
Поставщик услуг инференции, в основном развертывает предварительно обученные модели для клиентов, осуществляя дообучение или инференцию.
Поставщики тренировочных данных
Обучение больших моделей в основном проходит три этапа: предварительное обучение, дообучение и обучение с подкреплением. Предварительное обучение требует большого объема данных, дообучение требует качественных данных, поэтому такие компании, как Google, с поисковыми системами и Reddit, обладающие качественными диалоговыми данными, привлекают широкое внимание рынка.
Некоторые разработчики, чтобы не конкурировать с универсальными большими моделями, выбирают разработку в узкоспециализированных областях, таких как финансы, медицина, химия и т.д., где требуются данные конкретной области. Поэтому существуют компании, предоставляющие специальные данные для этих больших моделей, также называемые компаниями по маркировке данных.
Для компаний, занимающихся разработкой моделей, основными требованиями к данным являются большие объемы данных, качественные данные и специфические данные.
Исследования Microsoft показывают, что если качество данных маленькой языковой модели значительно превосходит качество данных большой языковой модели, ее производительность не обязательно будет хуже. На самом деле, GPT не имеет явного преимущества в оригинальности и данных, основным фактором его успеха стала ставка на эту область. Также Sequoia Capital считает, что GPT в будущем не обязательно сохранит конкурентное преимущество, так как в этой области нет глубоких защитных барьеров, а основные ограничения связаны с получением вычислительной мощности.
Согласно прогнозам, при текущих темпах роста масштабов модели, к 2030 году все низкокачественные и высококачественные данные будут исчерпаны. Поэтому в отрасли активно исследуют синтетические данные на основе искусственного интеллекта для генерации бесконечных данных, и единственным оставшимся узким местом станет вычислительная мощность. Это направление все еще находится на стадии исследования и стоит внимания.
Поставщик баз данных
Для задач обучения и вывода данных ИИ и глубокого обучения в настоящее время в отрасли используется "векторная база данных". Векторные базы данных предназначены для эффективного хранения, управления и индексирования огромных объемов высокоразмерных векторных данных. Они могут унифицировать неструктурированные данные в виде "векторов", что подходит для их хранения и обработки.
Основными игроками являются Chroma, Zilliz, Pinecone, Weaviate и другие. Ожидается, что с увеличением спроса на объем данных, а также с появлением больших моделей и приложений в различных нишах, потребность в векторных базах данных значительно возрастет. Поскольку в этой области существуют высокие технические барьеры, при инвестициях больше внимания уделяется зрелым компаниям с клиентами.
Периферийные устройства
При создании кластера GPU HPC (высокопроизводительных вычислений) обычно требуется много энергии для генерации тепла, что требует охладительных устройств.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
10 Лайков
Награда
10
7
Поделиться
комментарий
0/400
NFTRegretDiary
· 07-08 17:35
Метавселенная太离谱 不赚钱
Посмотреть ОригиналОтветить0
FUDwatcher
· 07-08 04:00
Снова кто-то говорит, что ИИ будет играть для лохов.
Посмотреть ОригиналОтветить0
TokenUnlocker
· 07-06 20:54
Блокчейн мертвые позиции в лонг покупайте падения и будет все.
Посмотреть ОригиналОтветить0
WagmiWarrior
· 07-06 20:54
Заработок — вот что по-настоящему важно. Торговля криптовалютой навсегда будет божеством.
Посмотреть ОригиналОтветить0
HodlNerd
· 07-06 20:54
статистическая значимость превосходит рыночный шум... распознавание паттернов подтверждает, что мы входим в конвергентную фазу между ИИ и крипто
Слияние ИИ и шифрования: как Глубина обучения переработает ландшафт Web3
ИИ x Крипто: от нуля до вершины
Введение
Недавнее развитие отрасли искусственного интеллекта рассматривается некоторыми как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность в различных отраслях, по оценкам, увеличив рабочую эффективность в США примерно на 20%. В то же время универсальность, обеспечиваемая большими моделями, считается новой парадигмой проектирования программного обеспечения, переходя от точного кода к более универсальным структурам больших моделей, встроенным в программное обеспечение, что позволяет поддерживать более широкий спектр входных и выходных модальностей. Технологии глубокого обучения принесли четвертое процветание в отрасль ИИ, и этот тренд также повлиял на индустрию криптовалют.
В этом отчете будет подробно рассмотрена история развития отрасли ИИ, классификация технологий и влияние технологий глубокого обучения на эту отрасль. Будет проведен глубокий анализ текущего состояния и тенденций развития таких элементов цепочки поставок, как GPU, облачные вычисления, источники данных и устройства на краю в области глубокого обучения. Также будет рассмотрена сущностная связь между криптовалютой и отраслью ИИ, а также будет проанализирована структура цепочки поставок ИИ, связанная с криптовалютой.
! Новичок в науке丨AI x Crypto: от нуля до пика
История развития AI-индустрии
AI-индустрия началась в 1950-х годах. Для достижения видения искусственного интеллекта академическое и промышленное сообщество разработали различные подходы к реализации искусственного интеллекта в разные эпохи и с различным научным бэкграундом.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение", который подразумевает, что машины полагаются на данные для многократной итерации в задачах с целью улучшения производительности системы. Основные шаги заключаются в передаче данных в алгоритмы для тренировки модели, тестирования и развертывания модели, а также в использовании модели для выполнения автоматизированных предсказательных задач.
В настоящее время в машинном обучении существует три основных направления:.connectionism, символизм и бихевиоризм, которые соответственно имитируют нервную систему, мышление и поведение человека. В настоящее время направление, представленное нейронными сетями, занимает ведущее положение (также известное как глубокое обучение), основная причина этого заключается в том, что такая архитектура имеет один входной слой, один выходной слой и несколько скрытых слоев. Как только количество слоев и нейронов (параметров) становится достаточно большим, появляется достаточно возможностей для подгонки сложных универсальных задач. Через ввод данных можно постоянно настраивать параметры нейронов, и после нескольких итераций данных нейрон достигает оптимального состояния (параметров), что также является источником его "глубины" — достаточного количества слоев и нейронов.
Технологии глубокого обучения, основанные на нейронных сетях, также имеют несколько технологических итераций и эволюций, начиная с самых ранних нейронных сетей, затем переходя к сети прямого распространения, RNN, CNN, GAN и, наконец, эволюционируя в современные большие модели, такие как используемые в GPT технологии Transformer. Технология Transformer является лишь одним из направлений эволюции нейронных сетей, в котором добавляется преобразователь, используемый для кодирования данных всех модальностей (таких как аудио, видео, изображения и т. д.) в соответствующие числовые значения. Затем эти значения вводятся в нейронную сеть, благодаря чему нейронная сеть может моделировать любой тип данных, что и позволяет реализовать мультимодальность.
Развитие ИИ прошло через три технологические волны: Первая волна произошла в 60-х годах 20 века, через десять лет после появления технологий ИИ. Эта волна вызвана развитием символистских технологий, которые решили проблемы общего обработки естественного языка и взаимодействия человека с компьютером. В то же время появились экспертные системы.
Вторая волна технологий ИИ произошла в 1997 году, когда IBM Deep Blue одержал победу над чемпионом мира по шахматам Гарри Каспаровым со счетом 3.5:2.5, и эта победа считается вехой в области искусственного интеллекта.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения Ян Лекун, Джеффри Хинтон и Ёсуа Бенжио предложили концепцию глубокого обучения, алгоритма, основанного на искусственных нейронных сетях, для обучения представлениям данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN, GAN до Transformer и Stable Diffusion, эти алгоритмы совместно сформировали эту третью технологическую волну и стали временем расцвета соединительного подхода.
! Новичок в популярной науке丨AI x Crypto: от нуля до пика
Цепочка поставок в индустрии глубокого обучения
В настоящее время языковые модели большого масштаба используют методы глубокого обучения на основе нейронных сетей. Модели большого масштаба, такие как GPT, породили волну интереса к искусственному интеллекту, и на этот рынок хлынули многочисленные игроки, что вызвало резкий рост спроса на данные и вычислительные мощности. Эта часть в основном исследует отраслевую цепочку алгоритмов глубокого обучения, ее состав, а также текущее состояние и соотношение спроса и предложения на всех уровнях, а также перспективы развития.
Обучение LLM (больших моделей) на основе технологии Transformer, возглавляемое GPT, делится на три этапа:
Первый шаг, предварительное обучение. Путем предоставления достаточного количества пар данных на входном слое, чтобы найти оптимальные параметры для каждого нейрона модели, этот процесс требует большого объема данных и является наиболее ресурсоемким.
Второй шаг, доработка. Предоставьте небольшую, но очень качественную партию данных для обучения, чтобы улучшить качество вывода модели.
Третий шаг, обучение с подкреплением. Создание "модели вознаграждения" для определения качества выходных данных большой модели, используемой для автоматической итерации параметров большой модели.
Вкратце, в процессе обучения больших моделей требования к количеству данных для предобучения очень высоки, а необходимая вычислительная мощность GPU также максимальна; для тонкой настройки требуется более качественные данные для улучшения параметров; обучение с подкреплением может повторно итеративно настраивать параметры через модель вознаграждения, чтобы выдавать результаты более высокого качества.
На производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, вычислительная мощность. Эти три фактора совместно влияют на качество результатов и обобщающую способность больших моделей. Предположим, что количество параметров равно p, объем данных равен n (в расчете по количеству токенов), тогда с помощью эмпирического правила можно рассчитать необходимое количество вычислений, чтобы оценить необходимую вычислительную мощность и время обучения.
Мощность вычислений обычно измеряется в Flops, что представляет собой одну операцию с плавающей запятой. Согласно эмпирическому правилу, предварительное обучение большой модели требует примерно 6np Flops. Вывод (процесс ожидания выхода большой модели при вводе данных) требует около 2np Flops.
Раннее использование процессоров CPU для обучения обеспечивало вычислительную мощность, но со временем их постепенно заменили графические процессоры GPU, такие как чипы Nvidia A100, H100 и другие. Поскольку GPU могут выступать в качестве специализированных вычислительных устройств, они значительно превосходят CPU по эффективности потребления энергии. GPU выполняют операции с плавающей запятой в основном через модуль Tensor Core. Данные Flops чипа при точности FP16/FP32 представляют его основную вычислительную способность и являются одним из основных показателей оценки чипа.
Предположим, что параметры большой модели, например, GPT3, составляют 175 миллиардов параметров и 180 миллиардов токенов данных (примерно 570 ГБ), тогда для одной предварительной тренировки требуется 6np флопс, что составляет примерно 3,1510^22 флопс. В единицах TFLOPS (триллионы флопс) это составляет примерно 3,1510^10 TFLOPS, то есть для предварительной тренировки GPT3 на одном чипе модели SXM потребуется около 584 дней.
Из этого видно, что огромные вычислительные мощности, необходимые для предварительного обучения, требуют совместных вычислений нескольких современных чипов. Количество параметров GPT-4 в десять раз больше, чем у GPT-3, что означает, что даже если объем данных остается неизменным, необходимо будет купить в десять раз больше чипов. Количество токенов GPT-4 составляет 13 триллионов, что также в десять раз больше, чем у GPT-3, и в конечном итоге GPT-4 может потребовать более 100 раз больше вычислительной мощности чипов.
В процессе обучения больших моделей также возникают проблемы с хранением данных. Объем памяти GPU обычно небольшой (например, A100 имеет 80 ГБ), что не позволяет вместить все данные, поэтому необходимо учитывать пропускную способность чипа, то есть скорость передачи данных от жесткого диска к памяти. Кроме того, из-за использования нескольких GPU также возникает вопрос скорости передачи между GPU. Поэтому во многих случаях факторы или затраты, ограничивающие практическое обучение модели, не обязательно связаны с вычислительной мощностью чипа; чаще всего это может быть пропускная способность чипа. Поскольку передача данных происходит медленно, это приводит к увеличению времени работы модели и повышению затрат на электроэнергию.
Цепочка поставок в области глубокого обучения в основном включает в себя следующие части:
! Newcomer Science丨AI x Crypto: от нуля до пика
Поставщики аппаратных GPU
В настоящее время Nvidia занимает абсолютную лидирующую позицию в области AI GPU-чипов. В академической среде в основном используются потребительские GPU (серия RTX); в промышленности в основном используются H100, A100 и другие для коммерческого развертывания больших моделей.
В 2023 году самый продвинутый чип H100 от Nvidia сразу же был заказан несколькими компаниями. Глобальный спрос на чип H100 значительно превышает предложение, и его срок поставки достиг 52 недель. Учитывая монопольное положение Nvidia, Google во главе с Intel, Qualcomm, Microsoft и Amazon создали альянс CUDA в надежде совместно разрабатывать графические процессоры, чтобы избавиться от влияния Nvidia.
Для крупных технологических компаний, облачных сервисов и национальных лабораторий они часто закупают тысячи, десятки тысяч чипов H100 для создания HPC (центров высокопроизводительных вычислений). К концу 2023 года количество заказанных чипов H100 превысило 500000.
Что касается поставок чипов от Nvidia, то в настоящее время уже появились сообщения о H200, ожидается, что производительность H200 будет в два раза выше, чем у H100, а B100 будет выпущен в конце 2024 года или в начале 2025 года. В настоящее время развитие GPU по-прежнему соответствует закону Мура, производительность удваивается каждые 2 года, а цена снижается вдвое.
! Newcomer Science丨AI x Crypto: от нуля до пика
Провайдеры облачных услуг
Поставщики облачных услуг могут предоставить гибкие вычислительные мощности и решения для облачного обучения для ограниченных в финансах компаний в области искусственного интеллекта после приобретения достаточного количества GPU для создания HPC. В настоящее время рынок в основном делится на три категории поставщиков облачных вычислений:
Поставщики тренировочных данных
Обучение больших моделей в основном проходит три этапа: предварительное обучение, дообучение и обучение с подкреплением. Предварительное обучение требует большого объема данных, дообучение требует качественных данных, поэтому такие компании, как Google, с поисковыми системами и Reddit, обладающие качественными диалоговыми данными, привлекают широкое внимание рынка.
Некоторые разработчики, чтобы не конкурировать с универсальными большими моделями, выбирают разработку в узкоспециализированных областях, таких как финансы, медицина, химия и т.д., где требуются данные конкретной области. Поэтому существуют компании, предоставляющие специальные данные для этих больших моделей, также называемые компаниями по маркировке данных.
Для компаний, занимающихся разработкой моделей, основными требованиями к данным являются большие объемы данных, качественные данные и специфические данные.
Исследования Microsoft показывают, что если качество данных маленькой языковой модели значительно превосходит качество данных большой языковой модели, ее производительность не обязательно будет хуже. На самом деле, GPT не имеет явного преимущества в оригинальности и данных, основным фактором его успеха стала ставка на эту область. Также Sequoia Capital считает, что GPT в будущем не обязательно сохранит конкурентное преимущество, так как в этой области нет глубоких защитных барьеров, а основные ограничения связаны с получением вычислительной мощности.
Согласно прогнозам, при текущих темпах роста масштабов модели, к 2030 году все низкокачественные и высококачественные данные будут исчерпаны. Поэтому в отрасли активно исследуют синтетические данные на основе искусственного интеллекта для генерации бесконечных данных, и единственным оставшимся узким местом станет вычислительная мощность. Это направление все еще находится на стадии исследования и стоит внимания.
Поставщик баз данных
Для задач обучения и вывода данных ИИ и глубокого обучения в настоящее время в отрасли используется "векторная база данных". Векторные базы данных предназначены для эффективного хранения, управления и индексирования огромных объемов высокоразмерных векторных данных. Они могут унифицировать неструктурированные данные в виде "векторов", что подходит для их хранения и обработки.
Основными игроками являются Chroma, Zilliz, Pinecone, Weaviate и другие. Ожидается, что с увеличением спроса на объем данных, а также с появлением больших моделей и приложений в различных нишах, потребность в векторных базах данных значительно возрастет. Поскольку в этой области существуют высокие технические барьеры, при инвестициях больше внимания уделяется зрелым компаниям с клиентами.
Периферийные устройства
При создании кластера GPU HPC (высокопроизводительных вычислений) обычно требуется много энергии для генерации тепла, что требует охладительных устройств.