Великі моделі змагаються у прориві технології довгих текстів, сприяючи реалізації спеціалізованих застосувань ШІ.

Великі моделі "крутять" технології довгих текстів

Здатність обробки тексту великих моделей зростає з вражаючою швидкістю. Від 4000 токенів до 400 000 токенів, довжина контексту великих моделей швидко зростає.

Здається, що можливість обробки довгих текстів стала новим стандартом для виробників великих моделей. За кордоном компанії, такі як OpenAI, Anthropic та інші, активно підвищують довжину контексту своїх моделей. В Україні також є кілька компаній та наукових груп, які досягли успіху в цій області.

Наразі в Україні та за кордоном вже існує велика кількість провідних компаній з розробки великих моделей та дослідницьких установ, які розглядають розширення довжини контексту як основний напрямок. Більшість з цих компаній користуються популярністю на ринку капіталу та отримують значні інвестиції.

Чому компанії великих моделей повинні подолати технологію довгих текстів? Що означає збільшення довжини контексту в 100 разів?

На перший погляд, це означає, що модель може обробляти довші вхідні тексти, маючи кращі навички читання. Але ще важливіше, що технології довгих текстів сприяють впровадженню великих моделей у професійних сферах, таких як фінанси, право, наукові дослідження.

Однак дослідження показують, що підтримка моделлю більш тривалого контекстного вводу не є прямим показником кращих результатів. Ключовим є те, як модель ефективно використовує контент контексту.

На даний момент дослідження довжини тексту ще далеко не досягло межі. 400 тисяч токенів може бути лише початком.

Чому слід «скручувати» довгі тексти?

Деякі компанії з великими моделями виявили, що обмеження довжини введення створює численні труднощі для реалізації багатьох застосувань. Наприклад, у сценах віртуальних персонажів, розробки ігор, аналізу спеціалізованих галузей, недостатня здатність до обробки довгих текстів обмежує фактичну ефективність.

Довгі тексти також важливі для майбутніх агентів та AI нативних застосунків. Агентам потрібно покладатися на історичну інформацію для прийняття рішень, а AI нативним застосункам потрібен контекст для підтримки узгодженого користувацького досвіду.

Існує думка, що верхня межа великих моделей визначається одноразовими можливостями та кількістю кроків виконання, де кількість кроків виконання є довжиною контексту. Довгі тексти також можуть допомогти моделі зменшити неоднозначність та підвищити точність висновків, надаючи більше контексту.

Технологія довгих текстів може вирішити деякі ранні проблеми великих моделей та є ключем до просування промислових застосувань. Це знаменує новий етап переходу великих моделей від LLM до Long LLM.

Деякі компанії вже продемонстрували нові можливості Long LLM, такі як аналіз підсумків наддовгих текстів, генерація складного коду, персоналізовані діалоги ролей тощо. Це свідчить про те, що великі моделі розвиваються в напрямку спеціалізації, персоналізації та глибини.

Дилема "неможливого трикутника" довгих текстів

Технології обробки довгих текстів стикаються з "трикутником неможливості" довжини тексту, уваги та обчислювальної потужності. Чим довше текст, тим складніше зосередити увагу, а обробка довгих текстів вимагає великої обчислювальної потужності.

Це в основному пов'язано з тим, що більшість моделей засновані на структурі Transformer. У них механізм самостійної уваги робить обчислювальні витрати квадратично зростаючими в залежності від довжини контексту.

В даний час існує три основні рішення:

  1. Використання зовнішніх інструментів для обробки довгих текстів
  2. Оптимізація обчислення механізму самостійної уваги
  3. Використання методів оптимізації моделі

Проблему з довгими текстами наразі не можна повністю вирішити, але визначено напрямок дослідження: знайти баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб можна було обробити достатню кількість інформації, при цьому враховуючи обмеження на обчислення та витрати.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • 4
  • Поділіться
Прокоментувати
0/400
OldLeekNewSicklevip
· 07-07 05:44
Ще одна хвиля коси на вітрі. Невдахи, готуйтеся бути обдуреними, як лохи.
Переглянути оригіналвідповісти на0
MEVHuntervip
· 07-07 05:43
чесно кажучи, ці AI компанії будуть використовувати це для максимальної витягування альфи, якщо бути відвертим
Переглянути оригіналвідповісти на0
Layer3Dreamervip
· 07-07 05:41
теоретично, це просто рекурсивне масштабування уваги... нічого революційного, чесно кажучи
Переглянути оригіналвідповісти на0
ZenChainWalkervip
· 07-07 05:32
Знову закручується аааа
Переглянути оригіналвідповісти на0
  • Закріпити