Les grands modèles rivalisent pour percer la technologie des longs textes, promouvant l'application spécialisée de l'IA.

Les grands modèles sont en train de "s'intensifier" dans la technologie des longs textes

La capacité de traitement de texte des grands modèles s'améliore à une vitesse incroyable. De 4000 tokens à 400 000 tokens, la longueur du contexte des grands modèles augmente rapidement.

La capacité de traitement de longs textes semble devenir une nouvelle norme pour les fabricants de grands modèles. À l'étranger, des entreprises comme OpenAI et Anthropic ont toutes augmenté la longueur du contexte de leurs modèles. En Chine, plusieurs entreprises et équipes de recherche ont également réalisé des percées dans ce domaine.

Actuellement, un grand nombre d'entreprises de modèles de pointe et d'instituts de recherche, tant au niveau national qu'international, se concentrent sur l'extension de la longueur du contexte. La plupart de ces entreprises sont prisées par le marché des capitaux et ont obtenu un financement important.

Pourquoi les entreprises de grands modèles cherchent-elles à conquérir la technologie des longs textes ? Que signifie une augmentation de 100 fois la longueur du contexte ?

En surface, cela signifie que le modèle peut traiter des textes d'entrée plus longs et a de meilleures capacités de lecture. Mais plus important encore, la technologie des longs textes pousse l'application des grands modèles dans des domaines professionnels tels que la finance, le droit et la recherche scientifique.

Cependant, des recherches montrent que le soutien du modèle pour des entrées de contexte plus longues n'est pas directement équivalent à de meilleures performances. La clé réside dans la manière dont le modèle utilise efficacement le contenu du contexte.

Actuellement, l'exploration de la longueur du texte n'a pas encore atteint ses limites. 400 000 tokens ne sont peut-être qu'un début.

Pourquoi "rouler" des textes longs?

Certaines entreprises de grands modèles ont découvert que les limitations de longueur d'entrée créent des difficultés pour la mise en œuvre de nombreuses applications. Par exemple, dans des scénarios tels que les personnages virtuels, le développement de jeux et l'analyse dans des domaines professionnels, une capacité insuffisante pour traiter de longs textes limite l'effet réel.

Le texte long est également important pour les applications natives d'Agent et d'IA à l'avenir. Les Agents doivent s'appuyer sur des informations historiques pour prendre des décisions, et les applications natives d'IA ont besoin de contexte pour maintenir une expérience utilisateur cohérente.

Certaines opinions soutiennent que la limite des grands modèles est déterminée par la capacité d'une étape unique et le nombre d'étapes d'exécution, où le nombre d'étapes d'exécution correspond à la longueur du contexte. Les longs textes peuvent également aider le modèle à réduire l'ambiguïté et à améliorer la précision du raisonnement en fournissant plus de contexte.

La technologie des longs textes peut à la fois résoudre certains problèmes précoces des grands modèles et est la clé pour faire progresser les applications industrielles. Cela marque l'entrée des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.

Certaines entreprises ont montré les nouvelles fonctionnalités de Long LLM, telles que l'analyse de résumé de texte très long, la génération de code complexe, les dialogues de personnages personnalisés, etc. Cela montre que les grands modèles évoluent vers une spécialisation, une personnalisation et une profondeur.

Le dilemme des "trois impossibilités" du long texte

Les technologies de traitement des longs textes font face au dilemme du "triangle impossible" des longueurs de texte, de l'attention et de la puissance de calcul. Plus le texte est long, plus il est difficile de se concentrer sur l'attention, et le traitement de longs textes nécessite une grande puissance de calcul.

Cela est principalement dû au fait que la plupart des modèles sont basés sur la structure Transformer. Le mécanisme d'auto-attention à l'intérieur fait que la charge de calcul augmente de manière quadratique avec la longueur du contexte.

Il existe actuellement trois principales solutions:

  1. Utiliser des outils externes pour aider à traiter de longs textes
  2. Optimisation du calcul des mécanismes d'attention auto
  3. Utiliser des méthodes d'optimisation de modèle

Le dilemme des longs textes n'est actuellement pas complètement résolu, mais la direction de l'exploration est claire : trouver un point d'équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de traiter suffisamment d'informations tout en tenant compte des contraintes de calcul et de coût.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • Partager
Commentaire
0/400
OldLeekNewSicklevip
· 07-07 05:44
Une autre vague de faucille est à la mode, préparez-vous à être pris pour des idiots, pigeons.
Voir l'originalRépondre0
MEVHuntervip
· 07-07 05:43
honnêtement, ces entreprises d'IA vont tirer parti de cela pour une extraction maximale d'alpha, pour être franc.
Voir l'originalRépondre0
Layer3Dreamervip
· 07-07 05:41
théoriquement, c'est juste un étirement d'attention récursive... rien de révolutionnaire à vrai dire
Voir l'originalRépondre0
ZenChainWalkervip
· 07-07 05:32
Ça roule encore ah ah ah ah
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)