Большие модели стремятся преодолеть технологии длинных текстов, способствуя внедрению специализированных приложений ИИ.

Большие модели "сжимаются" в технологии длинного текста

Способности обработки текста больших моделей растут с удивительной скоростью. Длина контекста больших моделей быстро увеличивается с 4000 токенов до 400000 токенов.

Способность обрабатывать длинные тексты, похоже, становится новой стандартной характеристикой производителей крупных моделей. За границей компании, такие как OpenAI и Anthropic, увеличили длину контекста своих моделей. В стране также несколько компаний и исследовательских команд добились прорывов в этой области.

В настоящее время в стране и за рубежом существует множество ведущих компаний и исследовательских учреждений, которые сделали расширение длины контекста приоритетным направлением. Большинство из этих компаний привлекают внимание капитального рынка и получают значительное финансирование.

Почему компаниям с большими моделями нужно преодолеть технологии длинного текста? Что означает увеличение длины контекста в 100 раз?

На первый взгляд, это означает, что модель может обрабатывать более длинные входные тексты и обладает более высокой способностью к чтению. Но более важно то, что технологии длинных текстов способствуют внедрению больших моделей в таких профессиональных областях, как финансы, право и научные исследования.

Однако исследования показывают, что поддержка более длинного контекстного ввода модели не обязательно равнозначна лучшим результатам. Ключевым моментом является то, как модель эффективно использует контент контекста.

В настоящее время исследование длины текста все еще далеко от предела. 400000 токенов могут быть лишь началом.

Зачем "скручивать" длинные тексты?

Некоторые компании, работающие с большими моделями, обнаружили, что ограничения на длину ввода создают множество трудностей для внедрения приложений. Например, в таких сценариях, как виртуальные персонажи, разработка игр, анализ в профессиональной сфере, недостаточная способность обрабатывать длинные тексты ограничивает фактический эффект.

Длинные тексты также важны для будущих приложений Agent и AI. Agent должен полагаться на историческую информацию для принятия решений, а AI-приложениям необходимо контекстное понимание для поддержания последовательного пользовательского опыта.

Существует мнение, что пределы больших моделей определяются как способностями на одном шаге, так и количеством шагов выполнения, где количество шагов выполнения соответствует длине контекста. Длинные тексты также могут помочь модели уменьшить двусмысленность и повысить точность вывода, предоставляя больше контекста.

Технология длинного текста может решить некоторые проблемы ранних больших моделей и является ключом к продвижению промышленных приложений. Это знаменует собой переход больших моделей в новую стадию от LLM к Long LLM.

Некоторые компании уже продемонстрировали новые функции Long LLM, такие как анализ резюме сверхдлинных текстов, генерация сложного кода, персонализированные диалоги и т. д. Это показывает, что большие модели развиваются в направлении специализации, индивидуализации и углубления.

Дилемма "невозможного треугольника" для длинных текстов

Долгосрочные текстовые технологии сталкиваются с "треугольником невозможности" длины текста, внимания и вычислительной мощности. Чем длиннее текст, тем сложнее сосредоточить внимание, а обработка длинных текстов требует значительных вычислительных ресурсов.

Это в основном связано с тем, что большинство моделей основаны на структуре Transformer. Механизм самовнимания в них приводит к квадратичному росту вычислительных затрат с увеличением длины контекста.

В настоящее время существует три основных решения:

  1. Используйте внешние инструменты для обработки длинных текстов
  2. Оптимизация вычислений механизма самовнимания
  3. Использование методов оптимизации модели

Дилемма длинных текстов пока не может быть полностью решена, но направление для исследований определено: найти баланс между длиной текста, вниманием и вычислительной мощностью, чтобы обрабатывать достаточное количество информации и при этом учитывать ограничения по вычислениям и затратам.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 4
  • Поделиться
комментарий
0/400
OldLeekNewSicklevip
· 07-07 05:44
Еще одна волна косилок на пороге. Неудачники, готовьтесь быть разыгранными как лохи.
Посмотреть ОригиналОтветить0
MEVHuntervip
· 07-07 05:43
честно говоря, эти ИИ компании собираются использовать это для максимального извлечения альфы, если быть откровенным
Посмотреть ОригиналОтветить0
Layer3Dreamervip
· 07-07 05:41
теоретически, это просто рекурсивное масштабирование внимания... ничего революционного, честно говоря
Посмотреть ОригиналОтветить0
ZenChainWalkervip
· 07-07 05:32
Снова закрутилось аааа
Посмотреть ОригиналОтветить0
  • Закрепить