Большие модели "сжимаются" в технологии длинного текста
Способности обработки текста больших моделей растут с удивительной скоростью. Длина контекста больших моделей быстро увеличивается с 4000 токенов до 400000 токенов.
Способность обрабатывать длинные тексты, похоже, становится новой стандартной характеристикой производителей крупных моделей. За границей компании, такие как OpenAI и Anthropic, увеличили длину контекста своих моделей. В стране также несколько компаний и исследовательских команд добились прорывов в этой области.
В настоящее время в стране и за рубежом существует множество ведущих компаний и исследовательских учреждений, которые сделали расширение длины контекста приоритетным направлением. Большинство из этих компаний привлекают внимание капитального рынка и получают значительное финансирование.
Почему компаниям с большими моделями нужно преодолеть технологии длинного текста? Что означает увеличение длины контекста в 100 раз?
На первый взгляд, это означает, что модель может обрабатывать более длинные входные тексты и обладает более высокой способностью к чтению. Но более важно то, что технологии длинных текстов способствуют внедрению больших моделей в таких профессиональных областях, как финансы, право и научные исследования.
Однако исследования показывают, что поддержка более длинного контекстного ввода модели не обязательно равнозначна лучшим результатам. Ключевым моментом является то, как модель эффективно использует контент контекста.
В настоящее время исследование длины текста все еще далеко от предела. 400000 токенов могут быть лишь началом.
Зачем "скручивать" длинные тексты?
Некоторые компании, работающие с большими моделями, обнаружили, что ограничения на длину ввода создают множество трудностей для внедрения приложений. Например, в таких сценариях, как виртуальные персонажи, разработка игр, анализ в профессиональной сфере, недостаточная способность обрабатывать длинные тексты ограничивает фактический эффект.
Длинные тексты также важны для будущих приложений Agent и AI. Agent должен полагаться на историческую информацию для принятия решений, а AI-приложениям необходимо контекстное понимание для поддержания последовательного пользовательского опыта.
Существует мнение, что пределы больших моделей определяются как способностями на одном шаге, так и количеством шагов выполнения, где количество шагов выполнения соответствует длине контекста. Длинные тексты также могут помочь модели уменьшить двусмысленность и повысить точность вывода, предоставляя больше контекста.
Технология длинного текста может решить некоторые проблемы ранних больших моделей и является ключом к продвижению промышленных приложений. Это знаменует собой переход больших моделей в новую стадию от LLM к Long LLM.
Некоторые компании уже продемонстрировали новые функции Long LLM, такие как анализ резюме сверхдлинных текстов, генерация сложного кода, персонализированные диалоги и т. д. Это показывает, что большие модели развиваются в направлении специализации, индивидуализации и углубления.
Дилемма "невозможного треугольника" для длинных текстов
Долгосрочные текстовые технологии сталкиваются с "треугольником невозможности" длины текста, внимания и вычислительной мощности. Чем длиннее текст, тем сложнее сосредоточить внимание, а обработка длинных текстов требует значительных вычислительных ресурсов.
Это в основном связано с тем, что большинство моделей основаны на структуре Transformer. Механизм самовнимания в них приводит к квадратичному росту вычислительных затрат с увеличением длины контекста.
В настоящее время существует три основных решения:
Используйте внешние инструменты для обработки длинных текстов
Оптимизация вычислений механизма самовнимания
Использование методов оптимизации модели
Дилемма длинных текстов пока не может быть полностью решена, но направление для исследований определено: найти баланс между длиной текста, вниманием и вычислительной мощностью, чтобы обрабатывать достаточное количество информации и при этом учитывать ограничения по вычислениям и затратам.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
13 Лайков
Награда
13
4
Поделиться
комментарий
0/400
OldLeekNewSickle
· 07-07 05:44
Еще одна волна косилок на пороге. Неудачники, готовьтесь быть разыгранными как лохи.
Посмотреть ОригиналОтветить0
MEVHunter
· 07-07 05:43
честно говоря, эти ИИ компании собираются использовать это для максимального извлечения альфы, если быть откровенным
Посмотреть ОригиналОтветить0
Layer3Dreamer
· 07-07 05:41
теоретически, это просто рекурсивное масштабирование внимания... ничего революционного, честно говоря
Большие модели стремятся преодолеть технологии длинных текстов, способствуя внедрению специализированных приложений ИИ.
Большие модели "сжимаются" в технологии длинного текста
Способности обработки текста больших моделей растут с удивительной скоростью. Длина контекста больших моделей быстро увеличивается с 4000 токенов до 400000 токенов.
Способность обрабатывать длинные тексты, похоже, становится новой стандартной характеристикой производителей крупных моделей. За границей компании, такие как OpenAI и Anthropic, увеличили длину контекста своих моделей. В стране также несколько компаний и исследовательских команд добились прорывов в этой области.
В настоящее время в стране и за рубежом существует множество ведущих компаний и исследовательских учреждений, которые сделали расширение длины контекста приоритетным направлением. Большинство из этих компаний привлекают внимание капитального рынка и получают значительное финансирование.
Почему компаниям с большими моделями нужно преодолеть технологии длинного текста? Что означает увеличение длины контекста в 100 раз?
На первый взгляд, это означает, что модель может обрабатывать более длинные входные тексты и обладает более высокой способностью к чтению. Но более важно то, что технологии длинных текстов способствуют внедрению больших моделей в таких профессиональных областях, как финансы, право и научные исследования.
Однако исследования показывают, что поддержка более длинного контекстного ввода модели не обязательно равнозначна лучшим результатам. Ключевым моментом является то, как модель эффективно использует контент контекста.
В настоящее время исследование длины текста все еще далеко от предела. 400000 токенов могут быть лишь началом.
Зачем "скручивать" длинные тексты?
Некоторые компании, работающие с большими моделями, обнаружили, что ограничения на длину ввода создают множество трудностей для внедрения приложений. Например, в таких сценариях, как виртуальные персонажи, разработка игр, анализ в профессиональной сфере, недостаточная способность обрабатывать длинные тексты ограничивает фактический эффект.
Длинные тексты также важны для будущих приложений Agent и AI. Agent должен полагаться на историческую информацию для принятия решений, а AI-приложениям необходимо контекстное понимание для поддержания последовательного пользовательского опыта.
Существует мнение, что пределы больших моделей определяются как способностями на одном шаге, так и количеством шагов выполнения, где количество шагов выполнения соответствует длине контекста. Длинные тексты также могут помочь модели уменьшить двусмысленность и повысить точность вывода, предоставляя больше контекста.
Технология длинного текста может решить некоторые проблемы ранних больших моделей и является ключом к продвижению промышленных приложений. Это знаменует собой переход больших моделей в новую стадию от LLM к Long LLM.
Некоторые компании уже продемонстрировали новые функции Long LLM, такие как анализ резюме сверхдлинных текстов, генерация сложного кода, персонализированные диалоги и т. д. Это показывает, что большие модели развиваются в направлении специализации, индивидуализации и углубления.
Дилемма "невозможного треугольника" для длинных текстов
Долгосрочные текстовые технологии сталкиваются с "треугольником невозможности" длины текста, внимания и вычислительной мощности. Чем длиннее текст, тем сложнее сосредоточить внимание, а обработка длинных текстов требует значительных вычислительных ресурсов.
Это в основном связано с тем, что большинство моделей основаны на структуре Transformer. Механизм самовнимания в них приводит к квадратичному росту вычислительных затрат с увеличением длины контекста.
В настоящее время существует три основных решения:
Дилемма длинных текстов пока не может быть полностью решена, но направление для исследований определено: найти баланс между длиной текста, вниманием и вычислительной мощностью, чтобы обрабатывать достаточное количество информации и при этом учитывать ограничения по вычислениям и затратам.