Способности больших моделей к обработке длинных текстов возросли в 100 раз, перспективы применения в профессиональных областях广阔.

robot
Генерация тезисов в процессе

Возможности больших моделей по работе с длинными текстами снова обновлены: от 4000 до 400000 токенов

Большие модели стремительно улучшают свои возможности обработки длинных текстов. Длинные тексты, похоже, становятся новым стандартом для производителей больших моделей.

Согласно статистике, в настоящее время в стране и за рубежом несколько ведущих компаний по разработке крупных моделей и исследовательских институтов делают расширение длины контекста приоритетным направлением модернизации. Большинство из этих компаний являются любимцами капитального рынка и получили огромные инвестиции.

Компания больших моделей стремится преодолеть технологии длинных текстов, что значит увеличение длины контекста в 100 раз?

На первый взгляд, это означает значительное увеличение длины вводимого текста, что приводит к заметному улучшению способности модели к чтению. Сначала она могла прочитать только короткий текст, а теперь способна читать целые романы.

С более глубокой точки зрения, технологии длинных текстов способствуют внедрению больших моделей в профессиональные области, такие как финансы, право и научные исследования. Эти области испытывают настоятельную необходимость в обработке длинных документов, кратком изложении и понимании прочитанного.

Однако длина текста не всегда означает лучшее качество. Исследования показывают, что поддержка моделей для более длинного контекстного ввода не равносильна лучшему результату; ключевым является то, как модель использует контент контекста.

В настоящее время исследования длины текста как в стране, так и за рубежом еще далеки от предела. 400 000 токенов может быть лишь началом.

Почему нужно «скручивать» длинные тексты?

Основатель компании по созданию больших моделей заявил, что именно из-за ограничений на длину ввода многие приложения больших моделей сталкиваются с трудностями внедрения. Это также причина, по которой в настоящее время несколько компаний сосредоточены на технологиях длинного текста.

Технология длинного текста может решить некоторые проблемы ранних больших моделей, улучшить определенные функции и является ключевой технологией для дальнейшего продвижения внедрения в промышленность. Это знаменует собой переход к новой стадии развития универсальных больших моделей - от LLM к эпохе Long LLM.

Технология длинного текста предоставит множественные функции обновления для больших моделей:

  • Извлечение ключевой информации, резюмирование и анализ для очень длинных текстов
  • Прямое преобразование текста в код, реализующее воспроизведение статьи в коде
  • Ролевые игры в длинных диалогах для достижения персонализированного общения

Эти функции указывают на то, что чат-боты развиваются в направлении профессионализации, персонализации и углубления, и имеют потенциал стать новым инструментом для внедрения в промышленное применение.

Однако в настоящее время существует возможность оптимизации длинных текстовых диалогов. Например, некоторые продукты не поддерживают подключение к интернету для получения актуальной информации, в процессе генерации невозможно приостановить и внести изменения, и даже при наличии фона могут возникать ошибки.

Дилемма "невозможного треугольника" длинного текста

Долгие текстовые технологии сталкиваются с "треугольником невозможного": длина текста, внимание и вычислительная мощность.

  • Чем длиннее текст, тем сложнее сосредоточить достаточное внимание.
  • В условиях ограниченного внимания короткие тексты сложно полностью интерпретировать сложную информацию
  • Обработка длинных текстов требует больших вычислительных мощностей, что увеличивает затраты

Это в основном связано со структурой Transformer, используемой большинством моделей. Механизм самовнимания в ней приводит к квадратичному росту вычислительных затрат в зависимости от длины контекста.

В настоящее время существует три основных решения:

  1. Используйте внешние инструменты для обработки длинных текстов
  2. Оптимизация вычислений механизма самовнимания
  3. Использование методов оптимизации моделей

Долгосрочная "неразрешимая треугольная" проблема на данный момент не может быть полностью решена. Производители больших моделей должны найти баланс между длиной текста, вниманием и вычислительной мощностью, чтобы обрабатывать достаточно информации и при этом учитывать эффективность вычислений и ограничения по стоимости.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Поделиться
комментарий
0/400
GasGasGasBrovip
· 07-12 01:52
Разве это не просто добавление оперативной памяти?
Посмотреть ОригиналОтветить0
CryptoAdventurervip
· 07-09 02:48
Это моя налоговая ставка на IQ за десять лет работы.
Посмотреть ОригиналОтветить0
CountdownToBrokevip
· 07-09 02:45
Эта вычислительная мощность, иди искать шахту.
Посмотреть ОригиналОтветить0
ForkItAllvip
· 07-09 02:35
又硬又烫的 рост 数据
Посмотреть ОригиналОтветить0
PoetryOnChainvip
· 07-09 02:30
Вычислительная мощность эта точка очень реальна
Посмотреть ОригиналОтветить0
OnchainHolmesvip
· 07-09 02:22
Этот токен растет без всяких правил.
Посмотреть ОригиналОтветить0
  • Закрепить