Les projets Web3 basés sur l'IA deviennent des cibles d'attraction de capitaux sur les marchés primaire et secondaire.
Les opportunités de Web3 dans l'industrie de l'IA se manifestent par : l'utilisation d'incitations distribuées pour coordonner les fournisseurs potentiels dans la longue traîne – à travers les données, le stockage et le calcul ; tout en établissant des modèles open source et un marché décentralisé pour les agents d'IA.
L'IA est principalement utilisée dans l'industrie Web3 pour la finance sur la chaîne (paiements cryptographiques, transactions, analyse de données) ainsi que pour assister le développement.
L'utilité de l'IA + Web3 réside dans la complémentarité des deux : Web3 est censé lutter contre la centralisation de l'IA, tandis que l'IA est censée aider Web3 à sortir de son cercle.
Introduction
Au cours des deux dernières années, le développement de l'IA a semblé être mis sur un mode accéléré. Les vagues suscitées par Chatgpt ont non seulement ouvert un nouveau monde de l'intelligence artificielle générative, mais ont également provoqué un courant dans le domaine du Web3.
Avec le soutien du concept d'IA, le financement du marché des cryptomonnaies a clairement été stimulé. Rien qu'au premier semestre 2024, 64 projets Web3+IA ont réalisé des financements, parmi lesquels le système d'exploitation basé sur l'intelligence artificielle Zyber365 a atteint un financement record de 100 millions de dollars lors de sa série A.
Le marché secondaire est plus prospère. Selon les données du site d'agrégation de cryptomonnaies Coingecko, en un peu plus d'un an, la capitalisation boursière totale du secteur de l'IA a atteint 48,5 milliards de dollars, avec un volume d'échange sur 24 heures approchant les 8,6 milliards de dollars. Les progrès des technologies IA mainstream apportent des avantages évidents ; après la publication du modèle Sora de OpenAI pour la conversion de texte en vidéo, le prix moyen du secteur de l'IA a augmenté de 151 %. L'effet IA s'étend également à l'un des segments de collecte de fonds en cryptomonnaie, les Memes : le premier MemeCoin basé sur le concept d'Agent IA — GOAT — a rapidement gagné en popularité et a atteint une valorisation de 1,4 milliard de dollars, lançant avec succès la tendance des Memes IA.
La recherche et les sujets sur AI+Web3 sont tout aussi chauds, allant de AI+Depin à AI Memecoin, jusqu'aux actuels AI Agent et AI DAO, la peur de manquer (FOMO) ne peut déjà plus suivre la vitesse de rotation des nouveaux récits.
AI+Web3, cette combinaison de termes remplie d'argent facile, de tendances et de fantasmes futurs, ne peut échapper à l'idée d'un mariage arrangé orchestré par le capital. Il semble que nous ayons du mal à discerner, sous cet habit flamboyant, s'il s'agit véritablement d'un terrain de jeu pour les spéculateurs ou de la veille de l'explosion de l'aube ?
Pour répondre à cette question, une réflexion clé pour les deux parties est : est-ce que cela s'améliorera avec l'autre ? Peut-on bénéficier du modèle de l'autre ? Dans cet article, nous essayons également de nous appuyer sur les travaux des prédécesseurs pour examiner ce schéma : comment le Web3 peut-il jouer un rôle à chaque étape de la pile technologique de l'IA, et qu'est-ce que l'IA peut apporter de nouveau au Web3 ?
Part.1 Quelles opportunités offre le Web3 sous la pile AI ?
Avant d'aborder ce sujet, nous devons comprendre la pile technologique des grands modèles d'IA :
Utiliser un langage plus simple pour expliquer l'ensemble du processus : le "grand modèle" est comme le cerveau humain. À un stade précoce, ce cerveau appartient à un bébé qui vient de naître, et il a besoin d'observer et d'absorber une quantité massive d'informations provenant de son environnement pour comprendre ce monde. C'est la phase de "collecte" des données. Comme les ordinateurs ne possèdent pas les sens humains tels que la vue et l'ouïe, avant l'entraînement, les grandes quantités d'informations non étiquetées provenant de l'extérieur doivent être "prétraitées" pour être converties en un format d'information compréhensible et utilisable par l'ordinateur.
Après avoir saisi les données, l'IA construit un modèle ayant des capacités de compréhension et de prédiction grâce à l'« entraînement », ce qui peut être considéré comme le processus par lequel un bébé comprend et apprend progressivement le monde extérieur. Les paramètres du modèle sont comme les compétences linguistiques d'un bébé qui s'ajustent continuellement au cours de son apprentissage. Lorsque le contenu d'apprentissage commence à se spécialiser ou que des retours sont obtenus lors d'interactions humaines et que des corrections sont effectuées, on entre dans la phase de « réglage fin » du grand modèle.
Les enfants, en grandissant et en apprenant à parler, peuvent comprendre le sens et exprimer leurs sentiments et pensées dans de nouvelles conversations. Cette étape est similaire au « raisonnement » des grands modèles d'IA, qui sont capables de prédire et d'analyser de nouvelles entrées de langage et de texte. Les bébés expriment leurs sentiments, décrivent des objets et résolvent divers problèmes grâce à leurs compétences linguistiques, ce qui est également comparable à l'application des grands modèles d'IA au stade de raisonnement pour diverses tâches spécifiques, telles que la classification d'images, la reconnaissance vocale, etc.
L'Agent IA s'approche davantage de la prochaine forme du grand modèle - capable d'exécuter des tâches de manière autonome et de poursuivre des objectifs complexes, possédant non seulement des capacités de réflexion, mais aussi de mémoire, de planification et la capacité d'utiliser des outils pour interagir avec le monde.
Actuellement, face aux points de douleur de l'IA dans différentes piles, le Web3 a commencé à former un écosystème multicouche et interconnecté, couvrant toutes les étapes du processus des modèles d'IA.
Une, couche de base : Airbnb pour la puissance de calcul et les données
Puissance de calcul
Actuellement, l'un des coûts les plus élevés de l'IA est la puissance de calcul et l'énergie nécessaires pour entraîner et inférer les modèles.
Un exemple est qu'un grand modèle de langage d'une entreprise technologique majeure nécessite 16 000 GPU haute performance produits par un fabricant de puces bien connu pendant 30 jours pour compléter son entraînement. Le prix unitaire de la version 80 Go se situe entre 30 000 et 40 000 dollars, ce qui nécessite un investissement en matériel de calcul de 400 à 700 millions de dollars (GPU + puces réseau), tandis que l'entraînement mensuel nécessite 1,6 milliard de kilowattheures, avec des dépenses énergétiques d'environ 20 millions de dollars par mois.
La décompression de la puissance de calcul de l'IA est également l'un des premiers domaines de croisement entre le Web3 et l'IA : DePin (réseau d'infrastructure physique décentralisé). Actuellement, le site de données DePin Ninja a répertorié plus de 1400 projets, parmi lesquels des projets représentatifs de partage de puissance GPU incluent io.net, Aethir, Akash, Render Network, etc.
La logique principale est la suivante : la plateforme permet aux particuliers ou entités possédant des ressources GPU inutilisées de contribuer à leur capacité de calcul de manière décentralisée et sans autorisation, par le biais d'un marché en ligne similaire à celui de l'économie collaborative entre acheteurs et vendeurs, augmentant ainsi le taux d'utilisation des ressources GPU sous-utilisées. Les utilisateurs finaux bénéficient également de ressources de calcul efficaces à moindre coût. En même temps, le mécanisme de staking garantit que si des violations des mécanismes de contrôle de qualité ou des interruptions de réseau se produisent, les fournisseurs de ressources subissent des sanctions correspondantes.
Ses caractéristiques sont :
Regrouper les ressources GPU inutilisées : les fournisseurs sont principalement des opérateurs de centres de données indépendants de taille moyenne ou petite, des mines de cryptomonnaies, etc., avec des ressources de puissance de calcul excédentaires, et le matériel de minage avec un mécanisme de consensus PoS, tel que les mineurs FileCoin et ETH. Actuellement, il existe aussi des projets visant à lancer des équipements avec un seuil d'entrée plus bas, comme exolab qui utilise des appareils locaux tels que MacBook, iPhone, iPad, etc. pour établir un réseau de puissance de calcul pour l'inférence de grands modèles.
Face au marché à long terme de la puissance de calcul de l'IA :
a. "Du point de vue technique", le marché de la puissance de calcul décentralisée est mieux adapté aux étapes d'inférence. L'entraînement dépend davantage de la capacité de traitement des données offerte par des GPU à très grande échelle, tandis que l'inférence nécessite des performances de calcul GPU relativement plus faibles, comme Aethir qui se concentre sur le rendu à faible latence et les applications d'inférence IA.
b. En ce qui concerne le côté de la demande, les petites et moyennes entreprises ne formeront pas leur propre grand modèle séparément, mais choisiront plutôt d'optimiser et d'affiner autour de quelques grands modèles de tête, et ces scénarios sont naturellement adaptés aux ressources de calcul inutilisées distribuées.
Propriété décentralisée : La signification technique de la blockchain réside dans le fait que les propriétaires de ressources conservent toujours leur contrôle sur celles-ci, ajustant flexiblement en fonction de la demande tout en réalisant des bénéfices.
Données
Les données sont la base de l'IA. Sans données, le calcul est aussi inutile qu'une feuille flottante, et la relation entre les données et le modèle est comme le dit populaire "Garbage in, Garbage out", où la quantité de données et la qualité de l'entrée déterminent la qualité de la sortie du modèle final. Pour l'entraînement des modèles IA actuels, les données déterminent la capacité linguistique, la capacité de compréhension, voire les valeurs et l'expression humanisée du modèle. Actuellement, les défis de la demande de données pour l'IA se concentrent principalement sur les quatre aspects suivants :
Soif de données : L'entraînement des modèles d'IA dépend d'un grand volume de données d'entrée. Les données publiques montrent qu'une célèbre entreprise d'IA a atteint un niveau de paramètres de l'ordre du trillion pour l'entraînement de son modèle de langage.
Qualité des données : Avec l'intégration de l'IA dans divers secteurs, la pertinence temporelle des données, la diversité des données, la spécialisation des données sectorielles et l'intégration de nouvelles sources de données telles que les émotions des médias sociaux ont également posé de nouvelles exigences sur leur qualité.
Problèmes de confidentialité et de conformité : Actuellement, les pays et les entreprises commencent à prendre conscience de l'importance des ensembles de données de qualité et imposent des restrictions sur le scraping des ensembles de données.
Coût élevé de traitement des données : grande quantité de données, processus de traitement complexe. Des données publiques montrent que plus de 30 % des coûts de R&D des entreprises d'IA sont consacrés à la collecte et au traitement des données de base.
Actuellement, les solutions Web3 se manifestent dans les quatre domaines suivants :
Collecte de données : La capacité à fournir gratuitement des données du monde réel extraites s'épuise rapidement, et les dépenses des entreprises d'IA pour les données augmentent chaque année. Mais en même temps, ces dépenses ne retournent pas aux véritables contributeurs des données, les plateformes profitent entièrement de la création de valeur apportée par les données, comme une certaine plateforme sociale qui a réalisé un revenu total de 203 millions de dollars grâce à un accord de licence de données signé avec des entreprises d'IA.
Permettre aux utilisateurs véritablement contributeurs de participer à la création de valeur générée par les données, ainsi qu'à acquérir des données plus privées et plus précieuses à moindre coût grâce à un réseau décentralisé et à un mécanisme d'incitation, est la vision du Web3.
Grass est une couche de données et un réseau décentralisés, permettant aux utilisateurs de faire fonctionner des nœuds Grass, de contribuer à la bande passante inutilisée et au trafic de relais pour capturer des données en temps réel de l'ensemble d'Internet, tout en recevant des récompenses en tokens.
Vana introduit un concept unique de pool de liquidité des données (DLP), où les utilisateurs peuvent télécharger leurs données personnelles (telles que les historiques d'achats, les habitudes de navigation, les activités sur les réseaux sociaux, etc.) dans un DLP spécifique et choisir de manière flexible s'ils souhaitent autoriser l'utilisation de ces données par des tiers spécifiques.
Dans PublicAI, les utilisateurs peuvent utiliser #AI或#Web3 comme étiquette de catégorie sur une certaine plateforme sociale et @PublicAI pour collecter des données.
Prétraitement des données : Dans le processus de traitement des données par l'IA, les données collectées étant généralement bruyantes et contenant des erreurs, elles doivent être nettoyées et converties en un format utilisable avant d'entraîner le modèle, ce qui implique des tâches répétitives de normalisation, de filtrage et de traitement des valeurs manquantes. Cette étape est l'un des rares aspects manuels de l'industrie de l'IA, ayant donné naissance à la profession de annotateur de données. Avec l'augmentation des exigences de qualité des données pour les modèles, le seuil d'entrée pour les annotateurs de données a également augmenté, et cette tâche se prête naturellement au mécanisme d'incitation décentralisé de Web3.
Actuellement, Grass et OpenLayer envisagent tous deux d'intégrer cette étape clé qu'est l'annotation des données.
Synesis a proposé le concept de « Train2earn », soulignant l'importance de la qualité des données. Les utilisateurs peuvent obtenir des récompenses en fournissant des données annotées, des commentaires ou d'autres formes d'entrée.
Le projet de annotation de données Sapien gamifie les tâches de marquage et permet aux utilisateurs de miser des points pour en gagner plus.
Vie privée et sécurité des données : Il est important de clarifier que la vie privée des données et la sécurité des données sont deux concepts différents. La vie privée des données concerne le traitement des données sensibles, tandis que la sécurité des données protège les informations contre l'accès, la destruction et le vol non autorisés. Ainsi, les avantages des technologies de confidentialité Web3 et les scénarios d'application potentiels se manifestent de deux manières : (1) Entraînement des données sensibles ; (2) Collaboration des données : Plusieurs propriétaires de données peuvent participer ensemble à l'entraînement de l'IA sans avoir à partager leurs données brutes.
Les technologies de confidentialité les plus courantes dans le Web3 incluent :
Environnement d'exécution de confiance ( TEE ), comme Super Protocol.
Cryptographie homomorphe complète (FHE), par exemple BasedAI, Fhenix.io ou Inco Network.
La technologie de preuve à connaissance nulle (zk), comme le protocole Reclaim qui utilise la technologie zkTLS, génère des preuves à connaissance nulle pour le trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des données d'activité, de réputation et d'identité depuis des sites externes, sans exposer d'informations sensibles.
Cependant, le domaine en est encore à ses débuts, la plupart des projets sont encore en exploration, un des dilemmes actuels est que le coût de calcul est trop élevé, quelques exemples sont :
Le cadre zkML EZKL nécessite environ 80 minutes pour générer une preuve pour un modèle 1M-nanoGPT.
Selon les données de Modulus Labs, les coûts de zkML sont plus de 1000 fois supérieurs à ceux du calcul pur.
Stockage des données : Une fois les données obtenues, il faut également un endroit pour stocker les données sur la chaîne, ainsi que le LLM généré à partir de ces données. En se concentrant sur la disponibilité des données (DA), avant la mise à niveau Danksharding d'Ethereum, son débit était de 0,08 Mo. Pendant ce temps, l'entraînement des modèles d'IA et l'inférence en temps réel nécessitent généralement un débit de données de 50 à 100 Go par seconde. Cette différence d'échelle rend les solutions existantes sur la chaîne incapables de faire face à des "applications IA gourmandes en ressources".
0g.AI est un représentant de cette catégorie
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Fusion de l'IA et du Web3 : nouvelles opportunités pour construire une infrastructure d'IA distribuée
AI+Web3 : Tours et places
TL;DR
Les projets Web3 basés sur l'IA deviennent des cibles d'attraction de capitaux sur les marchés primaire et secondaire.
Les opportunités de Web3 dans l'industrie de l'IA se manifestent par : l'utilisation d'incitations distribuées pour coordonner les fournisseurs potentiels dans la longue traîne – à travers les données, le stockage et le calcul ; tout en établissant des modèles open source et un marché décentralisé pour les agents d'IA.
L'IA est principalement utilisée dans l'industrie Web3 pour la finance sur la chaîne (paiements cryptographiques, transactions, analyse de données) ainsi que pour assister le développement.
L'utilité de l'IA + Web3 réside dans la complémentarité des deux : Web3 est censé lutter contre la centralisation de l'IA, tandis que l'IA est censée aider Web3 à sortir de son cercle.
Introduction
Au cours des deux dernières années, le développement de l'IA a semblé être mis sur un mode accéléré. Les vagues suscitées par Chatgpt ont non seulement ouvert un nouveau monde de l'intelligence artificielle générative, mais ont également provoqué un courant dans le domaine du Web3.
Avec le soutien du concept d'IA, le financement du marché des cryptomonnaies a clairement été stimulé. Rien qu'au premier semestre 2024, 64 projets Web3+IA ont réalisé des financements, parmi lesquels le système d'exploitation basé sur l'intelligence artificielle Zyber365 a atteint un financement record de 100 millions de dollars lors de sa série A.
Le marché secondaire est plus prospère. Selon les données du site d'agrégation de cryptomonnaies Coingecko, en un peu plus d'un an, la capitalisation boursière totale du secteur de l'IA a atteint 48,5 milliards de dollars, avec un volume d'échange sur 24 heures approchant les 8,6 milliards de dollars. Les progrès des technologies IA mainstream apportent des avantages évidents ; après la publication du modèle Sora de OpenAI pour la conversion de texte en vidéo, le prix moyen du secteur de l'IA a augmenté de 151 %. L'effet IA s'étend également à l'un des segments de collecte de fonds en cryptomonnaie, les Memes : le premier MemeCoin basé sur le concept d'Agent IA — GOAT — a rapidement gagné en popularité et a atteint une valorisation de 1,4 milliard de dollars, lançant avec succès la tendance des Memes IA.
La recherche et les sujets sur AI+Web3 sont tout aussi chauds, allant de AI+Depin à AI Memecoin, jusqu'aux actuels AI Agent et AI DAO, la peur de manquer (FOMO) ne peut déjà plus suivre la vitesse de rotation des nouveaux récits.
AI+Web3, cette combinaison de termes remplie d'argent facile, de tendances et de fantasmes futurs, ne peut échapper à l'idée d'un mariage arrangé orchestré par le capital. Il semble que nous ayons du mal à discerner, sous cet habit flamboyant, s'il s'agit véritablement d'un terrain de jeu pour les spéculateurs ou de la veille de l'explosion de l'aube ?
Pour répondre à cette question, une réflexion clé pour les deux parties est : est-ce que cela s'améliorera avec l'autre ? Peut-on bénéficier du modèle de l'autre ? Dans cet article, nous essayons également de nous appuyer sur les travaux des prédécesseurs pour examiner ce schéma : comment le Web3 peut-il jouer un rôle à chaque étape de la pile technologique de l'IA, et qu'est-ce que l'IA peut apporter de nouveau au Web3 ?
Part.1 Quelles opportunités offre le Web3 sous la pile AI ?
Avant d'aborder ce sujet, nous devons comprendre la pile technologique des grands modèles d'IA :
Utiliser un langage plus simple pour expliquer l'ensemble du processus : le "grand modèle" est comme le cerveau humain. À un stade précoce, ce cerveau appartient à un bébé qui vient de naître, et il a besoin d'observer et d'absorber une quantité massive d'informations provenant de son environnement pour comprendre ce monde. C'est la phase de "collecte" des données. Comme les ordinateurs ne possèdent pas les sens humains tels que la vue et l'ouïe, avant l'entraînement, les grandes quantités d'informations non étiquetées provenant de l'extérieur doivent être "prétraitées" pour être converties en un format d'information compréhensible et utilisable par l'ordinateur.
Après avoir saisi les données, l'IA construit un modèle ayant des capacités de compréhension et de prédiction grâce à l'« entraînement », ce qui peut être considéré comme le processus par lequel un bébé comprend et apprend progressivement le monde extérieur. Les paramètres du modèle sont comme les compétences linguistiques d'un bébé qui s'ajustent continuellement au cours de son apprentissage. Lorsque le contenu d'apprentissage commence à se spécialiser ou que des retours sont obtenus lors d'interactions humaines et que des corrections sont effectuées, on entre dans la phase de « réglage fin » du grand modèle.
Les enfants, en grandissant et en apprenant à parler, peuvent comprendre le sens et exprimer leurs sentiments et pensées dans de nouvelles conversations. Cette étape est similaire au « raisonnement » des grands modèles d'IA, qui sont capables de prédire et d'analyser de nouvelles entrées de langage et de texte. Les bébés expriment leurs sentiments, décrivent des objets et résolvent divers problèmes grâce à leurs compétences linguistiques, ce qui est également comparable à l'application des grands modèles d'IA au stade de raisonnement pour diverses tâches spécifiques, telles que la classification d'images, la reconnaissance vocale, etc.
L'Agent IA s'approche davantage de la prochaine forme du grand modèle - capable d'exécuter des tâches de manière autonome et de poursuivre des objectifs complexes, possédant non seulement des capacités de réflexion, mais aussi de mémoire, de planification et la capacité d'utiliser des outils pour interagir avec le monde.
Actuellement, face aux points de douleur de l'IA dans différentes piles, le Web3 a commencé à former un écosystème multicouche et interconnecté, couvrant toutes les étapes du processus des modèles d'IA.
Une, couche de base : Airbnb pour la puissance de calcul et les données
Puissance de calcul
Actuellement, l'un des coûts les plus élevés de l'IA est la puissance de calcul et l'énergie nécessaires pour entraîner et inférer les modèles.
Un exemple est qu'un grand modèle de langage d'une entreprise technologique majeure nécessite 16 000 GPU haute performance produits par un fabricant de puces bien connu pendant 30 jours pour compléter son entraînement. Le prix unitaire de la version 80 Go se situe entre 30 000 et 40 000 dollars, ce qui nécessite un investissement en matériel de calcul de 400 à 700 millions de dollars (GPU + puces réseau), tandis que l'entraînement mensuel nécessite 1,6 milliard de kilowattheures, avec des dépenses énergétiques d'environ 20 millions de dollars par mois.
La décompression de la puissance de calcul de l'IA est également l'un des premiers domaines de croisement entre le Web3 et l'IA : DePin (réseau d'infrastructure physique décentralisé). Actuellement, le site de données DePin Ninja a répertorié plus de 1400 projets, parmi lesquels des projets représentatifs de partage de puissance GPU incluent io.net, Aethir, Akash, Render Network, etc.
La logique principale est la suivante : la plateforme permet aux particuliers ou entités possédant des ressources GPU inutilisées de contribuer à leur capacité de calcul de manière décentralisée et sans autorisation, par le biais d'un marché en ligne similaire à celui de l'économie collaborative entre acheteurs et vendeurs, augmentant ainsi le taux d'utilisation des ressources GPU sous-utilisées. Les utilisateurs finaux bénéficient également de ressources de calcul efficaces à moindre coût. En même temps, le mécanisme de staking garantit que si des violations des mécanismes de contrôle de qualité ou des interruptions de réseau se produisent, les fournisseurs de ressources subissent des sanctions correspondantes.
Ses caractéristiques sont :
Regrouper les ressources GPU inutilisées : les fournisseurs sont principalement des opérateurs de centres de données indépendants de taille moyenne ou petite, des mines de cryptomonnaies, etc., avec des ressources de puissance de calcul excédentaires, et le matériel de minage avec un mécanisme de consensus PoS, tel que les mineurs FileCoin et ETH. Actuellement, il existe aussi des projets visant à lancer des équipements avec un seuil d'entrée plus bas, comme exolab qui utilise des appareils locaux tels que MacBook, iPhone, iPad, etc. pour établir un réseau de puissance de calcul pour l'inférence de grands modèles.
Face au marché à long terme de la puissance de calcul de l'IA :
a. "Du point de vue technique", le marché de la puissance de calcul décentralisée est mieux adapté aux étapes d'inférence. L'entraînement dépend davantage de la capacité de traitement des données offerte par des GPU à très grande échelle, tandis que l'inférence nécessite des performances de calcul GPU relativement plus faibles, comme Aethir qui se concentre sur le rendu à faible latence et les applications d'inférence IA.
b. En ce qui concerne le côté de la demande, les petites et moyennes entreprises ne formeront pas leur propre grand modèle séparément, mais choisiront plutôt d'optimiser et d'affiner autour de quelques grands modèles de tête, et ces scénarios sont naturellement adaptés aux ressources de calcul inutilisées distribuées.
Données
Les données sont la base de l'IA. Sans données, le calcul est aussi inutile qu'une feuille flottante, et la relation entre les données et le modèle est comme le dit populaire "Garbage in, Garbage out", où la quantité de données et la qualité de l'entrée déterminent la qualité de la sortie du modèle final. Pour l'entraînement des modèles IA actuels, les données déterminent la capacité linguistique, la capacité de compréhension, voire les valeurs et l'expression humanisée du modèle. Actuellement, les défis de la demande de données pour l'IA se concentrent principalement sur les quatre aspects suivants :
Soif de données : L'entraînement des modèles d'IA dépend d'un grand volume de données d'entrée. Les données publiques montrent qu'une célèbre entreprise d'IA a atteint un niveau de paramètres de l'ordre du trillion pour l'entraînement de son modèle de langage.
Qualité des données : Avec l'intégration de l'IA dans divers secteurs, la pertinence temporelle des données, la diversité des données, la spécialisation des données sectorielles et l'intégration de nouvelles sources de données telles que les émotions des médias sociaux ont également posé de nouvelles exigences sur leur qualité.
Problèmes de confidentialité et de conformité : Actuellement, les pays et les entreprises commencent à prendre conscience de l'importance des ensembles de données de qualité et imposent des restrictions sur le scraping des ensembles de données.
Coût élevé de traitement des données : grande quantité de données, processus de traitement complexe. Des données publiques montrent que plus de 30 % des coûts de R&D des entreprises d'IA sont consacrés à la collecte et au traitement des données de base.
Actuellement, les solutions Web3 se manifestent dans les quatre domaines suivants :
Permettre aux utilisateurs véritablement contributeurs de participer à la création de valeur générée par les données, ainsi qu'à acquérir des données plus privées et plus précieuses à moindre coût grâce à un réseau décentralisé et à un mécanisme d'incitation, est la vision du Web3.
Grass est une couche de données et un réseau décentralisés, permettant aux utilisateurs de faire fonctionner des nœuds Grass, de contribuer à la bande passante inutilisée et au trafic de relais pour capturer des données en temps réel de l'ensemble d'Internet, tout en recevant des récompenses en tokens.
Vana introduit un concept unique de pool de liquidité des données (DLP), où les utilisateurs peuvent télécharger leurs données personnelles (telles que les historiques d'achats, les habitudes de navigation, les activités sur les réseaux sociaux, etc.) dans un DLP spécifique et choisir de manière flexible s'ils souhaitent autoriser l'utilisation de ces données par des tiers spécifiques.
Dans PublicAI, les utilisateurs peuvent utiliser #AI或#Web3 comme étiquette de catégorie sur une certaine plateforme sociale et @PublicAI pour collecter des données.
Actuellement, Grass et OpenLayer envisagent tous deux d'intégrer cette étape clé qu'est l'annotation des données.
Synesis a proposé le concept de « Train2earn », soulignant l'importance de la qualité des données. Les utilisateurs peuvent obtenir des récompenses en fournissant des données annotées, des commentaires ou d'autres formes d'entrée.
Le projet de annotation de données Sapien gamifie les tâches de marquage et permet aux utilisateurs de miser des points pour en gagner plus.
Les technologies de confidentialité les plus courantes dans le Web3 incluent :
Environnement d'exécution de confiance ( TEE ), comme Super Protocol.
Cryptographie homomorphe complète (FHE), par exemple BasedAI, Fhenix.io ou Inco Network.
La technologie de preuve à connaissance nulle (zk), comme le protocole Reclaim qui utilise la technologie zkTLS, génère des preuves à connaissance nulle pour le trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des données d'activité, de réputation et d'identité depuis des sites externes, sans exposer d'informations sensibles.
Cependant, le domaine en est encore à ses débuts, la plupart des projets sont encore en exploration, un des dilemmes actuels est que le coût de calcul est trop élevé, quelques exemples sont :
Le cadre zkML EZKL nécessite environ 80 minutes pour générer une preuve pour un modèle 1M-nanoGPT.
Selon les données de Modulus Labs, les coûts de zkML sont plus de 1000 fois supérieurs à ceux du calcul pur.