O grande modelo está "competindo" com a tecnologia de texto longo
A capacidade de processamento de texto dos grandes modelos está a aumentar a uma velocidade impressionante. De 4000 tokens para 400 mil tokens, o comprimento do contexto dos grandes modelos está a crescer rapidamente.
A capacidade de processamento de longos textos parece ter se tornado um novo padrão para os fornecedores de grandes modelos. No exterior, empresas como OpenAI e Anthropic aumentaram o comprimento do contexto de seus modelos. No país, várias empresas e equipes de pesquisa também fizeram avanços nesta área.
Atualmente, várias empresas de grandes modelos e instituições de pesquisa, tanto nacionais quanto internacionais, estão focando na expansão do comprimento do contexto. A maioria dessas empresas tem atraído a atenção do mercado de capitais e recebeu grandes financiamentos.
Por que as empresas de grandes modelos devem dominar a tecnologia de textos longos? O que significa aumentar o comprimento do contexto em 100 vezes?
À primeira vista, isso significa que o modelo pode lidar com textos de entrada mais longos e possui uma capacidade de leitura superior. Mas o mais importante é que a tecnologia de textos longos está a impulsionar a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica.
No entanto, pesquisas mostram que o suporte a entradas de contexto mais longas por parte do modelo não é diretamente equivalente a um desempenho melhor. A chave está em como o modelo aproveita efetivamente o conteúdo do contexto.
Atualmente, a exploração do comprimento do texto ainda está longe de atingir o limite. 400 mil tokens podem ser apenas o começo.
Por que "enrolar" textos longos?
Algumas empresas de grandes modelos descobriram que as limitações do comprimento de entrada causam dificuldades na implementação de muitas aplicações. Por exemplo, em cenários como personagens virtuais, desenvolvimento de jogos e análise em áreas profissionais, a falta de capacidade para lidar com textos longos limita os resultados práticos.
Textos longos são também muito importantes para aplicações nativas de Agent e AI no futuro. Agents precisam depender de informações históricas para tomar decisões, e aplicações nativas de AI precisam de contexto para manter uma experiência de usuário coerente.
Há opiniões que consideram que o limite dos grandes modelos é determinado pela capacidade de passo único e pelo número de passos de execução, onde o número de passos de execução corresponde ao comprimento do contexto. Textos longos também podem ajudar o modelo a reduzir ambiguidades e aumentar a precisão do raciocínio, fornecendo mais contexto.
A tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos e é a chave para promover aplicações industriais. Isso marca a entrada dos grandes modelos em uma nova fase, de LLM para Long LLM.
Algumas empresas já demonstraram as novas funcionalidades do Long LLM, como análise de resumos de textos muito longos, geração de código complexo, diálogos personalizados, entre outros. Isso mostra que os grandes modelos estão a evoluir para direcções de especialização, personalização e profundidade.
O dilema do "triângulo impossível" de textos longos
A tecnologia de texto longo enfrenta o dilema do "triângulo impossível" em relação ao comprimento do texto, à atenção e ao poder computacional. Quanto mais longo o texto, mais difícil é manter a atenção, e processar textos longos requer uma grande quantidade de poder computacional.
Isto deve-se principalmente ao fato de que a maioria dos modelos é baseada na estrutura Transformer. O mecanismo de autoatenção dentro deles faz com que a carga computacional cresça em quadrado com o comprimento do contexto.
Atualmente, existem três soluções principais:
Usar ferramentas externas para ajudar a processar textos longos
Otimização do cálculo do mecanismo de autoatenção
Utilização de métodos de otimização de modelos
O dilema do texto longo ainda não pode ser completamente resolvido, mas foi definido um rumo para a exploração: encontrar um ponto de equilíbrio entre o comprimento do texto, a atenção e o poder computacional, que permita processar informações suficientes, ao mesmo tempo que respeita as limitações de computação e custo.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
13 Curtidas
Recompensa
13
4
Compartilhar
Comentário
0/400
OldLeekNewSickle
· 07-07 05:44
Outra onda de lâminas está à vista. Idiotas, preparem-se para serem feitos parvas.
Ver originalResponder0
MEVHunter
· 07-07 05:43
ngl estas empresas de IA vão aproveitar isso para extrair o máximo de alpha tbh
Ver originalResponder0
Layer3Dreamer
· 07-07 05:41
teoricamente, isto é apenas escalonamento de atenção recursiva... nada revolucionário, para ser sincero
Os grandes modelos estão a competir para superar a tecnologia de texto longo, impulsionando a implementação de aplicações especializadas em IA.
O grande modelo está "competindo" com a tecnologia de texto longo
A capacidade de processamento de texto dos grandes modelos está a aumentar a uma velocidade impressionante. De 4000 tokens para 400 mil tokens, o comprimento do contexto dos grandes modelos está a crescer rapidamente.
A capacidade de processamento de longos textos parece ter se tornado um novo padrão para os fornecedores de grandes modelos. No exterior, empresas como OpenAI e Anthropic aumentaram o comprimento do contexto de seus modelos. No país, várias empresas e equipes de pesquisa também fizeram avanços nesta área.
Atualmente, várias empresas de grandes modelos e instituições de pesquisa, tanto nacionais quanto internacionais, estão focando na expansão do comprimento do contexto. A maioria dessas empresas tem atraído a atenção do mercado de capitais e recebeu grandes financiamentos.
Por que as empresas de grandes modelos devem dominar a tecnologia de textos longos? O que significa aumentar o comprimento do contexto em 100 vezes?
À primeira vista, isso significa que o modelo pode lidar com textos de entrada mais longos e possui uma capacidade de leitura superior. Mas o mais importante é que a tecnologia de textos longos está a impulsionar a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica.
No entanto, pesquisas mostram que o suporte a entradas de contexto mais longas por parte do modelo não é diretamente equivalente a um desempenho melhor. A chave está em como o modelo aproveita efetivamente o conteúdo do contexto.
Atualmente, a exploração do comprimento do texto ainda está longe de atingir o limite. 400 mil tokens podem ser apenas o começo.
Por que "enrolar" textos longos?
Algumas empresas de grandes modelos descobriram que as limitações do comprimento de entrada causam dificuldades na implementação de muitas aplicações. Por exemplo, em cenários como personagens virtuais, desenvolvimento de jogos e análise em áreas profissionais, a falta de capacidade para lidar com textos longos limita os resultados práticos.
Textos longos são também muito importantes para aplicações nativas de Agent e AI no futuro. Agents precisam depender de informações históricas para tomar decisões, e aplicações nativas de AI precisam de contexto para manter uma experiência de usuário coerente.
Há opiniões que consideram que o limite dos grandes modelos é determinado pela capacidade de passo único e pelo número de passos de execução, onde o número de passos de execução corresponde ao comprimento do contexto. Textos longos também podem ajudar o modelo a reduzir ambiguidades e aumentar a precisão do raciocínio, fornecendo mais contexto.
A tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos e é a chave para promover aplicações industriais. Isso marca a entrada dos grandes modelos em uma nova fase, de LLM para Long LLM.
Algumas empresas já demonstraram as novas funcionalidades do Long LLM, como análise de resumos de textos muito longos, geração de código complexo, diálogos personalizados, entre outros. Isso mostra que os grandes modelos estão a evoluir para direcções de especialização, personalização e profundidade.
O dilema do "triângulo impossível" de textos longos
A tecnologia de texto longo enfrenta o dilema do "triângulo impossível" em relação ao comprimento do texto, à atenção e ao poder computacional. Quanto mais longo o texto, mais difícil é manter a atenção, e processar textos longos requer uma grande quantidade de poder computacional.
Isto deve-se principalmente ao fato de que a maioria dos modelos é baseada na estrutura Transformer. O mecanismo de autoatenção dentro deles faz com que a carga computacional cresça em quadrado com o comprimento do contexto.
Atualmente, existem três soluções principais:
O dilema do texto longo ainda não pode ser completamente resolvido, mas foi definido um rumo para a exploração: encontrar um ponto de equilíbrio entre o comprimento do texto, a atenção e o poder computacional, que permita processar informações suficientes, ao mesmo tempo que respeita as limitações de computação e custo.