Возможности больших моделей по работе с длинными текстами снова обновлены: от 4000 до 400000 токенов
Большие модели стремительно улучшают свои возможности обработки длинных текстов. Длинные тексты, похоже, становятся новым стандартом для производителей больших моделей.
Согласно статистике, в настоящее время в стране и за рубежом несколько ведущих компаний по разработке крупных моделей и исследовательских институтов делают расширение длины контекста приоритетным направлением модернизации. Большинство из этих компаний являются любимцами капитального рынка и получили огромные инвестиции.
Компания больших моделей стремится преодолеть технологии длинных текстов, что значит увеличение длины контекста в 100 раз?
На первый взгляд, это означает значительное увеличение длины вводимого текста, что приводит к заметному улучшению способности модели к чтению. Сначала она могла прочитать только короткий текст, а теперь способна читать целые романы.
С более глубокой точки зрения, технологии длинных текстов способствуют внедрению больших моделей в профессиональные области, такие как финансы, право и научные исследования. Эти области испытывают настоятельную необходимость в обработке длинных документов, кратком изложении и понимании прочитанного.
Однако длина текста не всегда означает лучшее качество. Исследования показывают, что поддержка моделей для более длинного контекстного ввода не равносильна лучшему результату; ключевым является то, как модель использует контент контекста.
В настоящее время исследования длины текста как в стране, так и за рубежом еще далеки от предела. 400 000 токенов может быть лишь началом.
Почему нужно «скручивать» длинные тексты?
Основатель компании по созданию больших моделей заявил, что именно из-за ограничений на длину ввода многие приложения больших моделей сталкиваются с трудностями внедрения. Это также причина, по которой в настоящее время несколько компаний сосредоточены на технологиях длинного текста.
Технология длинного текста может решить некоторые проблемы ранних больших моделей, улучшить определенные функции и является ключевой технологией для дальнейшего продвижения внедрения в промышленность. Это знаменует собой переход к новой стадии развития универсальных больших моделей - от LLM к эпохе Long LLM.
Технология длинного текста предоставит множественные функции обновления для больших моделей:
Извлечение ключевой информации, резюмирование и анализ для очень длинных текстов
Прямое преобразование текста в код, реализующее воспроизведение статьи в коде
Ролевые игры в длинных диалогах для достижения персонализированного общения
Эти функции указывают на то, что чат-боты развиваются в направлении профессионализации, персонализации и углубления, и имеют потенциал стать новым инструментом для внедрения в промышленное применение.
Однако в настоящее время существует возможность оптимизации длинных текстовых диалогов. Например, некоторые продукты не поддерживают подключение к интернету для получения актуальной информации, в процессе генерации невозможно приостановить и внести изменения, и даже при наличии фона могут возникать ошибки.
Дилемма "невозможного треугольника" длинного текста
Долгие текстовые технологии сталкиваются с "треугольником невозможного": длина текста, внимание и вычислительная мощность.
Чем длиннее текст, тем сложнее сосредоточить достаточное внимание.
В условиях ограниченного внимания короткие тексты сложно полностью интерпретировать сложную информацию
Обработка длинных текстов требует больших вычислительных мощностей, что увеличивает затраты
Это в основном связано со структурой Transformer, используемой большинством моделей. Механизм самовнимания в ней приводит к квадратичному росту вычислительных затрат в зависимости от длины контекста.
В настоящее время существует три основных решения:
Используйте внешние инструменты для обработки длинных текстов
Оптимизация вычислений механизма самовнимания
Использование методов оптимизации моделей
Долгосрочная "неразрешимая треугольная" проблема на данный момент не может быть полностью решена. Производители больших моделей должны найти баланс между длиной текста, вниманием и вычислительной мощностью, чтобы обрабатывать достаточно информации и при этом учитывать эффективность вычислений и ограничения по стоимости.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
22 Лайков
Награда
22
6
Поделиться
комментарий
0/400
GasGasGasBro
· 07-12 01:52
Разве это не просто добавление оперативной памяти?
Посмотреть ОригиналОтветить0
CryptoAdventurer
· 07-09 02:48
Это моя налоговая ставка на IQ за десять лет работы.
Способности больших моделей к обработке длинных текстов возросли в 100 раз, перспективы применения в профессиональных областях广阔.
Возможности больших моделей по работе с длинными текстами снова обновлены: от 4000 до 400000 токенов
Большие модели стремительно улучшают свои возможности обработки длинных текстов. Длинные тексты, похоже, становятся новым стандартом для производителей больших моделей.
Согласно статистике, в настоящее время в стране и за рубежом несколько ведущих компаний по разработке крупных моделей и исследовательских институтов делают расширение длины контекста приоритетным направлением модернизации. Большинство из этих компаний являются любимцами капитального рынка и получили огромные инвестиции.
Компания больших моделей стремится преодолеть технологии длинных текстов, что значит увеличение длины контекста в 100 раз?
На первый взгляд, это означает значительное увеличение длины вводимого текста, что приводит к заметному улучшению способности модели к чтению. Сначала она могла прочитать только короткий текст, а теперь способна читать целые романы.
С более глубокой точки зрения, технологии длинных текстов способствуют внедрению больших моделей в профессиональные области, такие как финансы, право и научные исследования. Эти области испытывают настоятельную необходимость в обработке длинных документов, кратком изложении и понимании прочитанного.
Однако длина текста не всегда означает лучшее качество. Исследования показывают, что поддержка моделей для более длинного контекстного ввода не равносильна лучшему результату; ключевым является то, как модель использует контент контекста.
В настоящее время исследования длины текста как в стране, так и за рубежом еще далеки от предела. 400 000 токенов может быть лишь началом.
Почему нужно «скручивать» длинные тексты?
Основатель компании по созданию больших моделей заявил, что именно из-за ограничений на длину ввода многие приложения больших моделей сталкиваются с трудностями внедрения. Это также причина, по которой в настоящее время несколько компаний сосредоточены на технологиях длинного текста.
Технология длинного текста может решить некоторые проблемы ранних больших моделей, улучшить определенные функции и является ключевой технологией для дальнейшего продвижения внедрения в промышленность. Это знаменует собой переход к новой стадии развития универсальных больших моделей - от LLM к эпохе Long LLM.
Технология длинного текста предоставит множественные функции обновления для больших моделей:
Эти функции указывают на то, что чат-боты развиваются в направлении профессионализации, персонализации и углубления, и имеют потенциал стать новым инструментом для внедрения в промышленное применение.
Однако в настоящее время существует возможность оптимизации длинных текстовых диалогов. Например, некоторые продукты не поддерживают подключение к интернету для получения актуальной информации, в процессе генерации невозможно приостановить и внести изменения, и даже при наличии фона могут возникать ошибки.
Дилемма "невозможного треугольника" длинного текста
Долгие текстовые технологии сталкиваются с "треугольником невозможного": длина текста, внимание и вычислительная мощность.
Это в основном связано со структурой Transformer, используемой большинством моделей. Механизм самовнимания в ней приводит к квадратичному росту вычислительных затрат в зависимости от длины контекста.
В настоящее время существует три основных решения:
Долгосрочная "неразрешимая треугольная" проблема на данный момент не может быть полностью решена. Производители больших моделей должны найти баланс между длиной текста, вниманием и вычислительной мощностью, чтобы обрабатывать достаточно информации и при этом учитывать эффективность вычислений и ограничения по стоимости.