Fusion de l'IA et de l'industrie du chiffrement : comment l'apprentissage profond redéfinit le paysage du Web3

IA x Crypto : De zéro au sommet

Introduction

Le développement récent de l'industrie de l'intelligence artificielle est considéré par certains comme la quatrième révolution industrielle. L'émergence de grands modèles a considérablement amélioré l'efficacité dans divers secteurs, estimée à environ 20 % d'augmentation de la productivité aux États-Unis. En même temps, la capacité de généralisation apportée par ces grands modèles est considérée comme un nouveau paradigme de conception logicielle, passant d'un code précis à un cadre de grands modèles plus généralisés intégré dans les logiciels, capable de prendre en charge une gamme plus large d'entrées et de sorties modal. La technologie d'apprentissage profond a apporté une quatrième prospérité à l'industrie de l'IA, et cette tendance a également eu un impact sur l'industrie des cryptomonnaies.

Ce rapport examinera en détail l'histoire du développement de l'industrie de l'IA, les classifications technologiques et l'impact de la technologie d'apprentissage profond sur l'industrie. Il analysera en profondeur l'état actuel et les tendances du développement des chaînes de valeur en amont et en aval, y compris les GPU, l'informatique en nuage, les sources de données et les dispositifs en périphérie. De plus, il explorera essentiellement la relation entre les cryptomonnaies et l'industrie de l'IA, en clarifiant la structure de la chaîne de valeur de l'IA liée aux cryptomonnaies.

Nouveaux venus Guide丨IA x Crypto : De zéro au sommet

L'histoire du développement de l'industrie de l'IA

L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé différentes écoles de pensée dans des contextes disciplinaires variés à différentes époques.

Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont l'idée est de permettre aux machines d'améliorer les performances du système en itérant plusieurs fois sur des tâches en s'appuyant sur des données. Les étapes principales consistent à envoyer des données à un algorithme pour entraîner un modèle, tester et déployer le modèle, et utiliser le modèle pour accomplir des tâches de prédiction automatisées.

Actuellement, il existe trois grandes écoles de pensée en apprentissage automatique : le connexionnisme, le symbolisme et le behaviorisme, qui imitent respectivement le système nerveux humain, la pensée et le comportement. Le connexionnisme, représenté par les réseaux de neurones (également appelé apprentissage profond), domine actuellement, principalement parce que cette architecture possède une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Dès que le nombre de couches et le nombre de neurones (paramètres) sont suffisamment élevés, il y a suffisamment d'opportunités pour adapter des tâches générales complexes. En ajustant continuellement les paramètres des neurones grâce à l'entrée de données, après plusieurs cycles de données, ce neurone atteindra son état optimal (paramètres), ce qui explique également sa "profondeur" - un nombre suffisant de couches et de neurones.

Les technologies d'apprentissage profond basées sur les réseaux de neurones ont également connu plusieurs itérations et évolutions techniques, des premiers réseaux de neurones aux réseaux de neurones à propagation avant, RNN, CNN, GAN, et enfin l'évolution vers les grands modèles modernes tels que la technologie Transformer utilisée par GPT, entre autres. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur pour encoder les données de tous les modes (comme l'audio, la vidéo, les images, etc.) en valeurs numériques correspondantes. Ces valeurs sont ensuite introduites dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données, réalisant ainsi le multimodal.

Le développement de l'IA a traversé trois vagues technologiques : La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie AI. Cette vague a été provoquée par le développement des technologies symbolistes, qui ont résolu les problèmes du traitement du langage naturel et du dialogue homme-machine. Pendant cette période, les systèmes experts ont vu le jour.

La deuxième vague de la technologie AI a eu lieu en 1997, lorsque Deep Blue d'IBM a battu le champion d'échecs Garry Kasparov avec un score de 3,5 à 2,5. Cette victoire est considérée comme un jalon dans l'intelligence artificielle.

La troisième vague de la technologie IA a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur une architecture de réseaux de neurones artificiels pour l'apprentissage des représentations des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant des RNN, GAN aux Transformers et à la Stable Diffusion, ces algorithmes ont conjointement façonné cette troisième vague technologique, marquant également l'apogée du connexionnisme.

Nouveau guide丨AI x Crypto : de zéro au sommet

Chaîne de l'industrie de l'apprentissage profond

Les grands modèles de langage actuels reposent tous sur des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec le modèle GPT en tête, une vague d'engouement pour l'intelligence artificielle a vu le jour, attirant de nombreux acteurs dans ce domaine, et la demande du marché en matière de données et de puissance de calcul a explosé. Cette section explore principalement la chaîne de valeur des algorithmes d'apprentissage profond, sa composition en amont et en aval, ainsi que l'état actuel et les relations d'offre et de demande en amont et en aval, ainsi que le développement futur.

La formation des LLMs (grands modèles) dirigée par GPT basée sur la technologie Transformer se divise en trois étapes :

Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, on cherche les meilleurs paramètres pour chaque neurone du modèle. Ce processus nécessite beaucoup de données et est également le processus le plus gourmand en puissance de calcul.

Deuxième étape, ajustement. Fournir un lot de données de petite taille mais de très haute qualité pour l'entraînement, afin d'améliorer la qualité de sortie du modèle.

Troisième étape, apprentissage par renforcement. Établir un "modèle de récompense" pour déterminer si la sortie du grand modèle est de haute qualité, afin d'itérer automatiquement les paramètres du grand modèle.

En résumé, pendant le processus d'entraînement des grands modèles, l'entraînement préalable exige une très grande quantité de données, et la puissance de calcul GPU requise est également maximale ; le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres ; l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de meilleure qualité.

La performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois facteurs influencent ensemble la qualité des résultats du grand modèle et sa capacité de généralisation. Supposons que le nombre de paramètres soit p et que la quantité de données soit n (calculée en nombre de tokens), alors, par une règle empirique, on peut estimer la quantité de calcul nécessaire, ce qui permet d'évaluer la puissance de calcul à acheter et le temps d'entraînement requis.

La puissance de calcul est généralement mesurée en Flops, représentant une opération de calcul en virgule flottante. Selon la règle empirique, le pré-entraînement d'un grand modèle nécessite environ 6np Flops. L'inférence (le processus d'attente des données d'entrée pour la sortie du grand modèle) nécessite environ 2np Flops.

L'utilisation précoce des puces CPU pour l'entraînement a fourni un support de calcul, puis a progressivement été remplacée par des GPU, tels que les puces Nvidia A100 et H100. Les GPU peuvent être utilisés comme calculs dédiés, offrant une efficacité énergétique bien supérieure à celle des CPU. Les opérations à virgule flottante des GPU sont principalement effectuées via le module Tensor Core. Les données Flops des puces à la précision FP16/FP32 représentent leur principale capacité de calcul, ce qui est l'un des principaux indicateurs de mesure des puces.

Supposons qu'un modèle de grande taille, prenant GPT-3 comme exemple, ait 175 milliards de paramètres et un volume de données de 180 milliards de tokens (environ 570 Go), alors un pré-entraînement nécessite 6np de Flops, soit environ 3,1510^22 Flops. En unités de TFLOPS (Tillion de FLOPs), cela fait environ 3,1510^10 TFLOPS, ce qui signifie qu'une puce de modèle SXM nécessite environ 584 jours pour pré-entraîner GPT-3.

Il est donc évident que l'énorme puissance de calcul requise pour la pré-formation nécessite plusieurs chips de pointe travaillant ensemble. Le nombre de paramètres de GPT-4 est dix fois supérieur à celui de GPT-3, ce qui signifie que même si la quantité de données reste constante, il faudra acheter dix fois plus de chips. Le nombre de tokens de GPT-4 est de 13 billions, soit dix fois celui de GPT-3, et finalement, GPT-4 pourrait nécessiter plus de 100 fois la puissance de calcul des chips.

Dans l'entraînement de grands modèles, le stockage des données pose également problème. L'espace mémoire des GPU est généralement limité (comme l'A100 avec 80 Go), ne pouvant pas contenir toutes les données, il est donc nécessaire d'examiner la bande passante des puces, c'est-à-dire la vitesse de transfert des données du disque dur vers la mémoire. De plus, l'utilisation de plusieurs puces GPU implique également le taux de transfert entre les GPU. Ainsi, dans de nombreux cas, les facteurs ou coûts qui limitent la pratique de l'entraînement des modèles ne sont pas nécessairement la capacité de calcul des puces, mais plus souvent la bande passante des puces. En raison d'un transfert de données lent, le temps d'exécution du modèle s'allonge, ce qui entraîne une augmentation des coûts énergétiques.

La chaîne de valeur de l'apprentissage profond comprend principalement les parties suivantes :

  1. Fournisseur de GPU matériel
  2. Fournisseur de services cloud
  3. Fournisseurs de données d'entraînement
  4. Fournisseur de base de données
  5. Périphériques
  6. Application

Nouvelle introduction丨AI x Crypto : De zéro au sommet

Fournisseurs de GPU matériels

Nvidia occupe actuellement une position de leader absolu dans le domaine des puces GPU pour l'IA. Le milieu académique utilise principalement des GPU de niveau consommateur (série RTX) ; le secteur industriel utilise principalement des H100, A100, etc. pour la commercialisation de grands modèles.

En 2023, la puce H100 de Nvidia, la plus avancée, a rapidement été souscrite par plusieurs entreprises dès sa sortie. La demande mondiale pour la puce H100 dépasse de loin l'offre, avec un délai de livraison atteignant 52 semaines. Compte tenu du monopole de Nvidia, Google a pris les devants, et avec Intel, Qualcomm, Microsoft et Amazon, ils ont formé l'alliance CUDA dans l'espoir de développer conjointement des GPU pour se libérer de l'influence de Nvidia.

Pour les très grandes entreprises technologiques / fournisseurs de services cloud / laboratoires nationaux, il est courant d'acheter des milliers, voire des dizaines de milliers de puces H100 pour former un HPC (centre de calcul haute performance). À la fin de 2023, le nombre de commandes de puces H100 avait déjà dépassé 500 000.

En ce qui concerne l'approvisionnement en puces Nvidia, les nouvelles concernant le H200 ont déjà été publiées. On s'attend à ce que les performances du H200 soient deux fois supérieures à celles du H100, tandis que le B100 devrait être lancé à la fin de 2024 ou au début de 2025. Actuellement, le développement des GPU continue de respecter la loi de Moore, avec des performances doublant tous les 2 ans et des prix diminuant de moitié.

Nouveau guide丨IA x Crypto : De zéro au sommet

Fournisseur de services cloud

Les fournisseurs de services cloud, après avoir acheté suffisamment de GPU pour constituer un HPC, peuvent offrir une puissance de calcul flexible et des solutions d'entraînement hébergées aux entreprises d'intelligence artificielle disposant de budgets limités. Actuellement, le marché se divise principalement en trois catégories de fournisseurs de puissance de calcul cloud :

  1. Plateformes de cloud computing à grande échelle représentant des fournisseurs de cloud traditionnels (AWS, Google, Azure)
  2. Plateforme de cloud computing de puissance de calcul vertical, principalement conçue pour l'IA ou le calcul haute performance.
  3. Fournisseur d'inférence en tant que service, principalement pour déployer des modèles pré-entraînés pour les clients, effectuer des ajustements ou des inférences.

Nouveaux venus Science populaire丨AI x Crypto : De zéro à sommet

Fournisseur de données d'entraînement

L'entraînement de grands modèles passe principalement par trois étapes : pré-entraînement, ajustement et apprentissage par renforcement. Le pré-entraînement nécessite une grande quantité de données, l'ajustement nécessite des données de haute qualité, c'est pourquoi des entreprises comme Google, qui est un moteur de recherche, et Reddit, qui possède des données de dialogue de qualité, attirent beaucoup l'attention du marché.

Certain développeurs choisissent de se concentrer sur des domaines spécialisés tels que la finance, la santé, la chimie, afin de ne pas concurrencer les grands modèles généralistes, nécessitant des données spécifiques à ces domaines. Il existe donc des entreprises fournissant des données spécifiques à ces grands modèles, également appelées entreprises de labellisation de données.

Pour les entreprises de recherche et développement de modèles, un grand volume de données, des données de qualité et des données spécifiques sont les trois principales exigences en matière de données.

La recherche de Microsoft indique que si la qualité des données des petits modèles linguistiques est nettement supérieure à celle des grands modèles linguistiques, leurs performances ne seront pas nécessairement inférieures. En réalité, GPT n'a pas d'avantage significatif en matière de créativité et de données, mais son succès découle principalement de son investissement dans ce domaine. Sequoia Capital aux États-Unis pense également que GPT ne maintiendra pas nécessairement son avantage concurrentiel à l'avenir, car il n'y a pas de véritable barrière à l'entrée dans ce domaine, les principales limitations proviennent de l'accès à la puissance de calcul.

Selon les prévisions, en fonction de la croissance actuelle du modèle, toutes les données de faible et de haute qualité seront épuisées d'ici 2030. Par conséquent, l'industrie explore la synthèse de données par intelligence artificielle pour générer des données infinies, ne laissant que la puissance de calcul comme goulot d'étranglement. Cette direction est encore en phase d'exploration et mérite d'être suivie.

Nouveau guide丨IA x Crypto : De zéro au sommet

Fournisseur de base de données

Pour les tâches d'inférence et d'entraînement des données AI et d'apprentissage profond, l'industrie utilise actuellement des "bases de données vectorielles". Les bases de données vectorielles sont conçues pour stocker, gérer et indexer efficacement d'énormes volumes de données vectorielles à haute dimension. Elles permettent de stocker des données non structurées sous forme de "vecteurs", adaptées au stockage et au traitement de ces vecteurs.

Les principaux acteurs incluent Chroma, Zilliz, Pinecone, Weaviate, etc. On s'attend à ce qu'avec l'augmentation de la demande en volume de données, ainsi que l'émergence de grands modèles et d'applications dans divers sous-domaines, la demande pour les bases de données vectorielles augmente considérablement. Étant donné les fortes barrières technologiques dans ce domaine, les investissements se tournent davantage vers des entreprises matures et ayant des clients.

Nouveaux venus : AI x Crypto : De zéro au sommet

Dispositifs périphériques

Lors de la construction d'un cluster de calcul haute performance (HPC) GPU, une grande quantité d'énergie est généralement consommée pour produire de la chaleur, nécessitant des équipements de refroidissement.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 7
  • Partager
Commentaire
0/400
NFTRegretDiaryvip
· 07-08 17:35
Le Metaverse est trop extravagant, il ne rapporte pas d'argent.
Voir l'originalRépondre0
FUDwatchervip
· 07-08 04:00
Encore quelqu'un qui dit que l'IA se fait prendre pour des cons.
Voir l'originalRépondre0
TokenUnlockervip
· 07-06 20:54
Blockchain mort positions long buy the dip c'est tout.
Voir l'originalRépondre0
WagmiWarriorvip
· 07-06 20:54
Gagner de l'argent est la véritable affaire, Trading des cryptomonnaies est toujours un dieu.
Voir l'originalRépondre0
HodlNerdvip
· 07-06 20:54
la signification statistique surpasse le bruit du marché... la reconnaissance de motifs confirme que nous entrons dans une phase convergente entre l'IA et la crypto
Voir l'originalRépondre0
CountdownToBrokevip
· 07-06 20:53
Oh là là, encore le portefeuille va être vide.
Voir l'originalRépondre0
FundingMartyrvip
· 07-06 20:35
AI spéculation ? Ne me fais pas croire ça.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)