Los grandes modelos compiten por superar la tecnología de textos largos, impulsando la implementación de aplicaciones especializadas de IA.

Los grandes modelos están "compitiendo" en tecnología de texto largo

La capacidad de procesamiento de texto de los modelos grandes está mejorando a una velocidad asombrosa. Desde 4000 tokens hasta 400,000 tokens, la longitud del contexto de los modelos grandes está creciendo rápidamente.

La capacidad de procesamiento de texto largo parece convertirse en un nuevo estándar para los fabricantes de modelos grandes. En el extranjero, empresas como OpenAI y Anthropic han aumentado la longitud del contexto de sus modelos. En el país también hay varias empresas y equipos de investigación que han logrado avances en este campo.

Actualmente, en el país y en el extranjero, ya hay un gran número de empresas y instituciones de investigación de modelos de vanguardia que han puesto la expansión de la longitud del contexto como una dirección clave. La mayoría de estas empresas han sido favorecidas por el mercado de capitales y han obtenido financiamiento significativo.

¿Por qué las empresas de modelos grandes quieren conquistar la tecnología de texto largo? ¿Qué significa ampliar la longitud del contexto 100 veces?

A primera vista, esto significa que el modelo puede manejar textos de entrada más largos y tiene una mayor capacidad de lectura. Pero lo más importante es que la tecnología de textos largos está impulsando la aplicación de grandes modelos en campos profesionales como las finanzas, el derecho y la investigación científica.

Sin embargo, la investigación muestra que el soporte de modelos para entradas de contexto más largas no se traduce directamente en un mejor rendimiento. La clave está en cómo el modelo utiliza eficazmente el contenido del contexto.

Actualmente, la exploración de la longitud del texto aún está lejos de alcanzar su límite. 400,000 tokens pueden ser solo un comienzo.

¿Por qué "enrollar" textos largos?

Algunas empresas de grandes modelos han descubierto que las limitaciones en la longitud de entrada han creado dificultades para la implementación de muchas aplicaciones. Por ejemplo, en escenarios como personajes virtuales, desarrollo de juegos y análisis en campos profesionales, la insuficiencia en la capacidad de texto largo limita los efectos reales.

El texto largo también es muy importante para las aplicaciones nativas de Agent y AI en el futuro. Los agentes necesitan depender de la información histórica para tomar decisiones, y las aplicaciones nativas de AI requieren contexto para mantener una experiencia de usuario coherente.

Hay opiniones que sostienen que el límite de los grandes modelos está determinado por la capacidad de un solo paso y el número de pasos de ejecución, donde el número de pasos de ejecución se refiere a la longitud del contexto. Los textos largos también pueden ayudar al modelo a reducir la ambigüedad y mejorar la precisión del razonamiento al proporcionar más contexto.

La tecnología de texto largo no solo puede resolver algunos problemas tempranos de los grandes modelos, sino que también es clave para impulsar la aplicación industrial. Esto marca la entrada de los grandes modelos en una nueva etapa, de LLM a Long LLM.

Algunas empresas ya han mostrado las nuevas funcionalidades de Long LLM, como el análisis de resúmenes de texto ultralargo, la generación de código complejo y los diálogos personalizados de personajes. Esto muestra que los grandes modelos están evolucionando hacia una dirección de especialización, personalización y profundidad.

La "tríada imposible" del texto largo

La tecnología de texto largo enfrenta el dilema del "triángulo imposble" de longitud de texto, atención y potencia de cálculo. Cuanto más largo es el texto, más difícil es concentrar la atención, y procesar textos largos requiere una gran cantidad de potencia de cálculo.

Esto se debe principalmente a que la mayoría de los modelos se basan en la estructura Transformer. El mecanismo de autoatención hace que la cantidad de cálculos crezca al cuadrado con respecto a la longitud del contexto.

Actualmente hay tres soluciones principales:

  1. Utilizar herramientas externas para ayudar a procesar textos largos
  2. Optimizar el cálculo del mecanismo de autoatención
  3. Utilizar métodos de optimización de modelos

La dificultad de los textos largos aún no se puede resolver por completo, pero se ha aclarado la dirección a explorar: encontrar un punto de equilibrio entre la longitud del texto, la atención y la capacidad de cálculo, que pueda procesar suficiente información mientras se tiene en cuenta las limitaciones de cálculo y costo.

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 4
  • Compartir
Comentar
0/400
OldLeekNewSicklevip
· 07-07 05:44
Otra ola de segadores está en el viento, tontos, prepárense para tomar a la gente por tonta.
Ver originalesResponder0
MEVHuntervip
· 07-07 05:43
la verdad es que estas empresas de IA van a aprovechar esto para la máxima extracción de alfa, para ser honesto
Ver originalesResponder0
Layer3Dreamervip
· 07-07 05:41
teóricamente, esto es solo escalado de atención recursiva... nada revolucionario, para ser honesto.
Ver originalesResponder0
ZenChainWalkervip
· 07-07 05:32
¡Se está enrollando de nuevo ahhh!
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)