This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
AIと暗号化業界の融合:デプス学習がWeb3の構図をどのように再構築するか
AI x Crypto: ゼロからピークまで
はじめに
人工知能業界の最近の発展は、一部の人々によって第四次産業革命と見なされています。大規模モデルの出現は、各業界の効率を著しく向上させ、アメリカの作業効率を約20%向上させたと推定されています。同時に、大規模モデルがもたらす一般化能力は、新しいソフトウェア設計のパラダイムと見なされており、過去の正確なコードから、より一般化された大規模モデルフレームワークをソフトウェアに組み込むことに移行し、より広範なモダリティの入力と出力をサポートできるようになります。深層学習技術はAI業界にも第四次の繁栄をもたらし、この潮流は暗号通貨業界にも影響を与えています。
本報告では、AI業界の発展の歴史、技術の分類、そして深層学習技術が業界に与える影響について詳しく探討します。深層学習におけるGPU、クラウドコンピューティング、データソース、エッジデバイスなどの産業チェーンの上下流の発展状況とトレンドを深く分析します。さらに、本質的に暗号通貨とAI業界の関係について探討し、暗号通貨に関連するAI産業チェーンの構造を整理します。
! 新人科学丨AI×暗号:ゼロからピークまで
AI業界の歴史
AI業界は20世紀50年代に始まり、人工知能のビジョンを実現するために、学術界と産業界は異なる時代や異なる学問的背景の下で、人工知能を実現するための様々な流派を発展させてきました。
現代の人工知能技術は主に「機械学習」という用語を使用しています。その理念は、機械がデータに基づいてタスクを繰り返し反復し、システムの性能を改善することです。主なステップは、データをアルゴリズムに送り、モデルを訓練し、モデルをテストしてデプロイし、モデルを使用して自動化された予測タスクを完了することです。
現在、機械学習には3つの主要な流派があり、それぞれ結合主義、記号主義、行動主義であり、人間の神経系、思考、行動を模倣しています。現在、ニューラルネットワークを代表とする結合主義が優勢(深層学習とも呼ばれる)である主な理由は、このアーキテクチャには入力層と出力層があり、複数の隠れ層があるためです。層の数や神経元(パラメータ)の数が十分に多ければ、複雑な汎用タスクにフィットする十分な機会が得られます。データを入力することにより、神経元のパラメータを継続的に調整でき、複数回のデータ処理を経て、その神経元は最適な状態(パラメータ)に達します。これがその「深さ」の由来であり、層と神経元が十分に多いことを意味します。
ニューラルネットワークに基づく深層学習技術は、初期のニューラルネットワークからフィードフォワードニューラルネットワーク、RNN、CNN、GANを経て、最終的にはGPTなどの現代の大規模モデルで使用されるトランスフォーマー技術に進化してきました。トランスフォーマー技術はニューラルネットワークの進化の一方向であり、すべてのモダリティ(音声、映像、画像など)のデータを対応する数値にエンコードするためのコンバーターを追加しています。それをニューラルネットワークに入力することで、ニューラルネットワークはあらゆるタイプのデータをフィッティングできるようになり、多モダリティを実現します。
AIの発展は三つの技術の波を経験しました: 第一次浪潮は20世紀60年代で、AI技術が提案されてから10年後のことであり、この波は記号主義技術の発展によって引き起こされました。この技術は、一般的な自然言語処理や人間とコンピュータの対話の問題を解決しました。同時期に、専門家システムが誕生しました。
第二回のAI技術の波は1997年に発生し、IBMのディープブルーは3.5:2.5で国際チェスチャンピオンのカスパロフ(Kasparov)を打ち負かしました。この勝利は人工知能の一つのマイルストーンと見なされています。
第三回AI技術の波は2006年に発生しました。深層学習の三巨頭であるYann LeCun、Geoffrey Hinton、Yoshua Bengioは、人工ニューラルネットワークを基盤としたデータ表現学習のアルゴリズムである深層学習の概念を提唱しました。その後、深層学習のアルゴリズムは徐々に進化し、RNN、GAN、Transformer、Stable Diffusionなどが登場し、これらのアルゴリズムは第三の技術波を形成し、連結主義の全盛期を迎えました。
! 新参者科学人気丨AI×暗号:ゼロからピークまで
ディープラーニング産業チェーン
現在、大規模言語モデルで使用されているのは、すべて神経ネットワークに基づく深層学習方法です。GPTを筆頭とする大規模モデルは、一波の人工知能ブームを生み出し、多くのプレーヤーがこの分野に参入しました。市場はデータと計算能力の需要が大量に発生しています。この部分では、深層学習アルゴリズムの産業チェーン、上下流の構成、ならびに上下流の現状と供給需要関係、将来の発展について主に探ります。
Transformer技術に基づくGPTを先頭とするLLMs(大規模モデル)のトレーニングは、3つのステップに分かれています:
第一ステップ、事前学習。入力層に十分なデータペアを与えることによって、モデル内の各神経元の最適なパラメータを見つけるプロセスであり、このプロセスには大量のデータが必要で、計算能力を最も消費するプロセスでもあります。
第二ステップ、微調整。質が非常に高いが量が少ないデータを与えてモデルの出力品質を向上させる。
第三のステップ、強化学習。大モデルの出力が高品質であるかどうかを判断するための「報酬モデル」を構築し、大モデルのパラメータを自動的に反復するために使用します。
要するに、大規模モデルのトレーニングプロセスでは、事前トレーニングはデータの量に非常に高い要求があり、必要とされるGPU計算能力も最大です;ファインチューニングはパラメータを改善するためにより高品質なデータを必要とします;強化学習は報酬モデルを通じてパラメータを反復的に調整し、より高品質な結果を出力することができます。
大規模モデルの性能に影響を与える主な要因は、パラメータの数、データの量と質、計算能力の3つです。これら3つは大規模モデルの結果の質と一般化能力に共同で影響を与えます。パラメータの数をp、データの量をn(トークンの数で計算)と仮定すると、経験則を用いて必要な計算量を計算し、購入する必要がある計算能力と訓練時間を予測することができます。
計算能力は一般的にFlopsを基本単位とし、一次浮動小数点演算を表します。経験則によれば、大規模モデルを一度事前訓練するのに約6np Flopsが必要です。推論(入力データが大規模モデルの出力を待つプロセス)には約2np Flopsが必要です。
初期はCPUチップを使用してトレーニングを行い、計算能力のサポートを提供していましたが、後にNvidiaのA100やH100チップなどのGPUに徐々に置き換えられました。GPUは専用計算として機能でき、エネルギー効率の面でCPUよりも遥かに優れています。GPUは浮動小数点演算を主にTensor Coreモジュールを通じて実行します。チップのFP16/FP32精度におけるFlopsデータは、その主要な計算能力を表し、チップの主要な評価指標の一つです。
大規模モデルのパラメータをGPT3の例で考えると、1750億のパラメータと1800億トークンのデータ量(約570GB)があるため、1回の事前トレーニングには6npのフロップが必要で、約3.1510^22フロップに相当します。TFLOPS(テラフロップス)単位で約3.1510^10 TFLOPSとなるため、SXMモデルのチップでGPT3を1回事前トレーニングするには約584日かかるということです。
これにより、事前トレーニングに必要な膨大な計算量は、最先端の複数のチップが共同で計算することで実現できることがわかります。GPT-4のパラメータ数はGPT-3の10倍であり、データ量が変わらない場合でも、チップの数は10倍購入する必要があります。GPT-4のトークン数は13兆個で、これもGPT-3の10倍です。最終的に、GPT-4は100倍以上のチップ計算能力を必要とする可能性があります。
大規模モデルのトレーニングでは、データストレージにも問題があります。GPUのメモリ容量は一般的に小さく(例えばA100は80GB)、全てのデータを格納することができないため、チップの帯域幅、つまりハードディスクからメモリへのデータ転送速度を考慮する必要があります。また、複数のGPUチップを使用するため、GPU間の転送速度も関与します。したがって、多くの場合、モデルのトレーニング実践を制約する要因やコストは、必ずしもチップの計算能力ではなく、より多くの場合はチップの帯域幅である可能性があります。データ転送が遅いと、モデルの実行時間が延び、電力コストが上昇することになります。
深層学習産業チェーンは主に以下のいくつかの部分を含みます:
! 【新人科学丨AI×暗号:ゼロからピークまで](https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp)
ハードウェアGPUプロバイダー
現在、NvidiaはAI GPUチップ分野で絶対的なリーダーシップを誇っています。学術界では主に消費者向けのGPU(RTXシリーズ)を使用しており、産業界では主にH100、A100などの大規模モデルの商業化に使用されています。
2023年、Nvidiaの最先端H100チップは発表されるやいなや、多くの企業からの予約を受けました。世界的にH100チップの需要は供給を大きく上回り、その出荷サイクルは52週間に達しました。Nvidiaの独占的な状況を考慮し、Googleが主導し、インテル、クアルコム、マイクロソフト、アマゾンが共同でCUDA連盟を結成し、Nvidiaの影響力から脱却するためにGPUの共同開発を目指しています。
超大型のテクノロジー企業/クラウドサービスプロバイダー/国立研究所にとって、彼らはHPC(ハイパフォーマンスコンピューティングセンター)を構築するために、数千、数万のH100チップを簡単に購入します。2023年末までに、H100チップの注文数は50万枚を超えました。
Nvidiaのチップ供給に関して、現在H200の情報が発表されました。H200の性能はH100の2倍になると予想されており、B100は2024年末または2025年初頭に発売される予定です。現在、GPUの進化は依然としてムーアの法則を満たしており、性能は2年ごとに倍増し、価格は半分に下がっています。
! 新人科学丨AI×暗号:ゼロからピークまで
クラウドサービスプロバイダー
クラウドサービスプロバイダーは、十分なGPUを購入してHPCを構築した後、資金が限られている人工知能企業に柔軟な計算能力とホスティングトレーニングソリューションを提供できます。現在、市場は主に3種類のクラウド計算提供者に分かれています:
! 新人科学丨AI×暗号:ゼロからピークまで
トレーニングデータソースプロバイダー
大規模モデルの訓練は、主に事前訓練、微調整、強化学習の3つのステップを経ます。事前訓練には大量のデータが必要で、微調整には高品質なデータが必要です。そのため、Googleのような検索エンジンやRedditのような優れた対話データを持つ企業が市場で広く注目されています。
一部の開発企業は汎用モデルと競争しないために、金融、医療、化学などの細分化された分野で特定の領域のデータを必要としながら開発を選択しています。そのため、これらの大規模モデルに特定のデータを提供する企業が存在し、これをデータラベリング会社と呼びます。
モデル開発企業にとって、大量のデータ、質の高いデータ、特定のデータは三つの主要なデータニーズです。
マイクロソフトの研究によれば、もし小型言語モデルのデータ品質が大規模言語モデルよりも明らかに優れている場合、その性能が劣るとは限らない。実際、GPTは創造性とデータにおいて明確な優位性はなく、主にその方向への賭けが成功をもたらした。セコイア・キャピタルも、GPTが将来的に競争優位を維持するとは限らないと考えており、主な制約は計算力の取得にあるため、深い競争の堀がない。
予測によると、現在のモデル規模の成長に従って、2030年までにすべての低品質および高品質データが枯渇することになります。したがって、業界では無限のデータを生成するために人工知能合成データが模索されています。その場合、ボトルネックは計算能力だけになります。この方向性はまだ探索段階にあり、注目に値します。
! 新人科学丨AI×暗号:ゼロからピークまで
データベースプロバイダー
AIデータと深層学習のトレーニング推論タスクに関して、現在業界では「ベクトルデータベース」が使用されています。ベクトルデータベースは、大量の高次元ベクトルデータを効率的に保存、管理、インデックス化することを目的としています。非構造化データを「ベクトル」の形式で統一して保存でき、これらのベクトルの保存と処理に適しています。
主要プレーヤーにはChroma、Zilliz、Pinecone、Weaviateなどがあります。データ量の需要が増加し、さまざまな細分野での大規模モデルとアプリケーションが爆発的に増えるにつれて、Vector Databaseの需要が大幅に増加する見込みです。この分野には強い技術的障壁があるため、投資時には成熟した顧客を持つ企業をより重視する傾向があります。
! 新参者科学丨AI×暗号:ゼロからピークまで
エッジデバイス
GPU HPC(高性能計算クラスター)を構築する際には、通常、大量のエネルギーを消費して熱を発生させるため、冷却装置が必要です。