AI та шифрування в індустрії: як Глибина навчання перетворює ландшафт Web3

2025-07-06 20:24:46

AI x Crypto: Від нуля до верху

Вступ

Розвиток галузі штучного інтелекту в останні роки деякі люди вважають четвертою промисловою революцією. Поява великих моделей значно підвищила ефективність у різних сферах, за оцінками, підвищивши робочу ефективність в США приблизно на 20%. Водночас загальна здатність великих моделей вважається новою парадигмою програмного дизайну, що переходить від точного коду до більш універсальних фреймворків великих моделей, які вбудовуються в програмне забезпечення та можуть підтримувати більш широкий спектр модальних вхідних та вихідних даних. Технології глибокого навчання принесли четвертий бум в галузі ШІ, і ця хвиля також вплинула на криптовалютну індустрію.

Цей звіт детально дослідить історію розвитку індустрії ШІ, класифікацію технологій та вплив технології глибокого навчання на індустрію. Глибоко проаналізуємо стан розвитку та тенденції вгору-вниз по ланцюгу постачання, такі як GPU, хмарні обчислення, джерела даних, пристрої краю тощо. І в сутності дослідимо зв'язок між криптовалютою та індустрією ШІ, впорядкуючи структуру ланцюга постачання ШІ, пов'язаного з криптовалютою.

Історія розвитку AI-індустрії

Індустрія штучного інтелекту почала свій шлях у 50-х роках XX століття. Для реалізації бачення штучного інтелекту академічна та промислова сфери в різні епохи та з різних наукових дисциплін розвинули безліч напрямків реалізації штучного інтелекту.

Сучасні технології штучного інтелекту в основному використовують термін "машинне навчання", ідея якого полягає в тому, щоб дозволити машинам покращувати продуктивність системи шляхом повторних ітерацій на основі даних в завданнях. Основними етапами є передача даних алгоритму для навчання моделі, тестування та впровадження моделі, використання моделі для виконання автоматизованих прогнозних завдань.

На сьогоднішній день машинне навчання має три основні напрями: зв'язковість, символізм та поведінковість, які імітують нейронну систему, мислення та поведінку людини відповідно. Наразі напрям зв'язковості, представлений нейронними мережами (також відомими як глибоке навчання), переважає, основна причина цього полягає в тому, що така архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Коли кількість шарів та нейронів (параметрів) достатньо велика, з'являється достатня можливість для підгонки складних загальних завдань. Завдяки введенню даних можна постійно коригувати параметри нейронів, і після кількох проходів з даними цей нейрон досягне оптимального стану (параметрів), що і є його "глибиною" — достатня кількість шарів та нейронів.

Технології глибокого навчання на основі нейронних мереж також мають кілька технічних ітерацій та еволюцій, починаючи з найраніших нейронних мереж, до мереж з прямим зв'язком, RNN, CNN, GAN, і, нарешті, еволюцію до сучасних великих моделей, таких як GPT, які використовують технологію Transformer. Технологія Transformer є лише одним з напрямів еволюції нейронних мереж, яка додала конвертер для кодування всіх модальностей (таких як аудіо, відео, зображення тощо) у відповідні числові значення для представлення. Потім ці дані вводяться в нейронну мережу, що дозволяє нейронній мережі адаптуватися до будь-якого типу даних, реалізуючи мульти-модальність.

Розвиток ШІ пройшов три технологічні хвилі: Перша хвиля була в 60-х роках XX століття, через десять років після виникнення технології ШІ, ця хвиля була спричинена розвитком символістських технологій, які вирішили проблеми загальної обробки природної мови та діалогу між людиною та машиною. В той же час з'явилися експертні системи.

Друга хвиля технологій штучного інтелекту відбулася в 1997 році, коли IBM Deep Blue з рахунком 3.5:2.5 перемогла чемпіона світу з шахів Гаррі Каспарова (Kasparov). Ця перемога вважається важливою віхою у розвитку штучного інтелекту.

Третя хвиля технологій штучного інтелекту відбулася у 2006 році. Три великі фігури глибокого навчання - Ян ЛеКун, Джеффрі Хінтон і Йошуа Бенгіо - запропонували концепцію глибокого навчання, алгоритму, що використовує штучні нейронні мережі для навчання представлення даних. Після цього алгоритми глибокого навчання поступово еволюціонували, від RNN, GAN до Transformer та Stable Diffusion, ці алгоритми спільно сформували цю третю технологічну хвилю, а також стали періодом розквіту конекціонізму.

! Newcomer Science Popular丨AI x Crypto: від нуля до піку

Ланцюг промисловості глибокого навчання

Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. Моделі, очолювані GPT, спричинили бум в штучному інтелекті, багато гравців увійшли в цю галузь, а ринок різко зріс у попиті на дані та обчислювальні потужності. Ця частина головним чином досліджує індустріальний ланцюг алгоритмів глибокого навчання, його складові, а також сучасний стан та відносини попиту й пропозиції, а також майбутній розвиток.

Навчання LLM (великої моделі) на базі технології Transformer, очолюваної GPT, поділяється на три етапи:

Перший крок, попереднє навчання. Шляхом надання достатньої кількості пар даних для вхідного шару, щоб знайти оптимальні параметри для кожного нейрона моделі, цей процес потребує великої кількості даних і є найвитратнішим з точки зору обчислювальної потужності.

Другий крок, тонка настройка. Надати меншу, але дуже якісну партію даних для навчання, щоб підвищити якість виходу моделі.

Третій крок, навчання з підкріпленням. Створіть "модель винагороди", щоб визначити, чи є вихід великої моделі якісним, для автоматичної ітерації параметрів великої моделі.

Коротше кажучи, під час навчання великих моделей, попереднє навчання вимагає дуже великої кількості даних, а також найбільшої обчислювальної потужності GPU; тонка налаштування потребує даних більш високої якості для поліпшення параметрів; підкріплювальне навчання може повторно ітеративно коригувати параметри за допомогою моделі винагороди для отримання результатів вищої якості.

Вплив на продуктивність великих моделей головним чином визначається трьома аспектами: кількість параметрів, обсяг та якість даних, обчислювальні потужності. Ці три фактори спільно впливають на якість результатів великих моделей та їх здатність до узагальнення. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n (вимірюється в кількості токенів), тоді за допомогою емпіричного правила можна розрахувати необхідні обчислювальні потужності, щоб оцінити, скільки потрібно придбати обчислювальних потужностей та час на навчання.

Обчислювальна потужність зазвичай вимірюється в Flops, що представляє одну операцію з плаваючою комою. Згідно з емпіричним правилом, попереднє навчання великої моделі зазвичай потребує близько 6np Flops. Для інференсу (процес, коли вхідні дані чекають виходу великої моделі) потрібно приблизно 2np Flops.

Ранні етапи використання чіпів CPU для навчання забезпечували обчислювальну потужність, але згодом поступово почали використовувати GPU, такі як чіпи Nvidia A100, H100 тощо. Оскільки GPU можуть використовуватися як спеціалізовані обчислення, їх енергоефективність значно перевищує енергоефективність CPU. GPU виконує обчислення з плаваючою комою в основному через модуль Tensor Core. Дані про Flops при точності FP16/FP32 чіпа представляють його основну обчислювальну здатність і є одним із основних показників продуктивності чіпа.

Припустимо, що параметри великої моделі, як у випадку з GPT3, мають 175 мільярдів параметрів і обсяг даних у 180 мільярдів токенів (приблизно 570 ГБ), тоді для проведення одного попереднього навчання потрібно 6np Flops, що становить приблизно 3.1510^22 Flops. В одиницях TFLOPS (трильйон Flops) це приблизно 3.1510^10 TFLOPS, тобто одна чіп-схема моделі SXM потребує близько 584 днів для попереднього навчання GPT3.

З цього видно, що величезна обчислювальна потужність, необхідна для попереднього навчання, потребує спільної роботи кількох найсучасніших чіпів. Кількість параметрів GPT-4 у десять разів перевищує кількість параметрів GPT-3, що означає, що навіть за незмінного обсягу даних, кількість чіпів потрібно купувати в десять разів більше. Кількість токенів GPT-4 становить 13 трильйонів, що також у десять разів більше, ніж у GPT-3, а отже, в підсумку GPT-4 може потребувати понад 100 разів більше обчислювальної потужності чіпів.

У навчанні великих моделей існують також проблеми з зберіганням даних. Пам’ять GPU зазвичай досить мала (наприклад, A100 має 80 ГБ), що не дозволяє вмістити всі дані, тому потрібно враховувати пропускну здатність чіпа, тобто швидкість передачі даних з жорсткого диска в пам’ять. Крім того, оскільки використовуються кілька чіпів GPU, також важливо враховувати швидкість передачі між GPU. Отже, в багатьох випадках фактори або витрати, що обмежують практику навчання моделей, не обов’язково пов’язані з обчислювальною потужністю чіпа, а частіше можуть бути пов’язані з його пропускною здатністю. Оскільки передача даних є дуже повільною, це призводить до подовження часу виконання моделі, що, у свою чергу, підвищує витрати на електроенергію.

Галузь глибокого навчання в основному складається з наступних частин:

Постачальники апаратних GPU
Постачальник хмарних послуг
Постачальники даних для навчання
Постачальник бази даних
Периферійні пристрої
Застосування

! Newcomer Science丨AI x Crypto: від нуля до піку

Постачальники апаратних GPU

Наразі Nvidia займає абсолютну лідируючу позицію в галузі AI GPU чіпів. Академічна спільнота в основному використовує споживчі GPU (серія RTX); промисловість в основному використовує H100, A100 та інші для комерційної реалізації великих моделей.

У 2023 році найсучасніший чіп H100 від Nvidia відразу ж отримав замовлення від кількох компаній. Попит на чіп H100 у світі значно перевищує пропозицію, а термін доставки досяг 52 тижнів. У зв'язку з монопольним становищем Nvidia, Google разом з Intel, Qualcomm, Microsoft та Amazon спільно заснували альянс CUDA, сподіваючись спільно розробляти GPU, щоб позбавитися впливу Nvidia.

Для надвеликих технологічних компаній/постачальників хмарних послуг/національних лабораторій, вони без вагань купують тисячі, десятки тисяч H100 чіпів для створення HPC (центрів високопродуктивних обчислень). Станом на кінець 2023 року, кількість замовлених чіпів H100 перевищила 500 тисяч.

У постачанні чіпів Nvidia наразі вже з'явилися новини про H200, очікується, що продуктивність H200 вдвічі перевищує продуктивність H100, а B100 буде запущено наприкінці 2024 року або на початку 2025 року. Наразі розвиток GPU все ще відповідає закону Мура, продуктивність подвоюється кожні 2 роки, а ціни знижуються вдвічі.

! Newcomer Science丨AI x Crypto: від нуля до піку

Провайдери хмарних послуг

Постачальники хмарних послуг, купивши достатню кількість графічних процесорів для створення HPC, можуть забезпечити гнучкі обчислювальні потужності та рішення для управлінського навчання для штучного інтелекту з обмеженим бюджетом. Наразі ринок в основному поділяється на три категорії постачальників хмарних обчислень:

Хмарні платформи з надмасштабним розширенням, представлені традиційними постачальниками хмарних послуг (AWS, Google, Azure)
Хмарна платформа обчислювальної потужності для вертикальних ринків, в основному розгорнута для ШІ або високопродуктивних обчислень
Постачальники послуг прогнозування, основна мета яких полягає у розгортанні вже попередньо навченої моделі для налаштування або прогнозування.

! Newcomer Science丨AI x Crypto: від нуля до піку

Постачальник навчальних даних

Навчання великих моделей в основному проходить через три етапи: попереднє навчання, доопрацювання та навчання з підкріпленням. Попереднє навчання вимагає великої кількості даних, доопрацювання вимагає даних високої якості, тому такі компанії, як Google, що є пошуковою системою, і Reddit, яка має якісні діалогові дані, отримують широке визнання на ринку.

Деякі розробники, щоб не конкурувати з загальними великими моделями, обирають розробку в специфічних галузях, таких як фінанси, медицина, хімія тощо, що потребує даних з конкретних сфер. Тому існують компанії, які надають специфічні дані для цих великих моделей, також відомі як компанії з маркування даних.

Для підприємств, що займаються розробкою моделей, великі дані, якісні дані та специфічні дані є трьома основними вимогами до даних.

Дослідження Microsoft вважає, що якщо якість даних для малих мовних моделей помітно перевищує якість даних для великих мовних моделей, їх продуктивність не обов'язково буде гіршою. Насправді GPT не має помітних переваг у творчості та даних, головним чином його успіх зумовлений ставкою на цей напрямок. Sequoia America також вважає, що GPT у майбутньому не обов'язково зберігатиме конкурентну перевагу, оскільки в цій сфері немає глибокого захисного валу, а основні обмеження походять від доступу до обчислювальних потужностей.

Згідно з прогнозами, відповідно до поточного зростання масштабу моделі, до 2030 року всі низькоякісні та високоякісні дані будуть вичерпані. Тому в галузі досліджують штучний інтелект для синтезу даних, щоб генерувати безмежні дані, тоді єдиним обмеженням залишиться обчислювальна потужність. Цей напрямок все ще на стадії дослідження, вартий уваги.

Постачальник бази даних

Для завдань навчання та інференції даних AI та глибокого навчання в даний час в галузі використовують "векторні бази даних". Векторні бази даних призначені для ефективного зберігання, управління та індексації величезних обсягів високорозмірних векторних даних. Вони можуть зберігати неструктуровані дані в єдиній формі "векторів", що підходить для зберігання та обробки цих векторів.

Основними гравцями є Chroma, Zilliz, Pinecone, Weaviate та інші. Очікується, що з ростом потреби в обсягах даних, а також з появою великих моделей і застосувань у різних сегментах, попит на векторні бази даних значно зросте. Оскільки в цій сфері є сильні технологічні бар'єри, інвестування більше орієнтується на зрілі та компанії з клієнтами.

Периферійні пристрої

При створенні GPU HPC (кластера високопродуктивних обчислень) зазвичай витрачається велика кількість енергії, що генерує тепло, і потрібні охолоджуючі пристрої.

GPT-9.9%

Переглянути оригінал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

10 лайків