Здатність великих моделей до роботи з довгими текстами зросла в 100 разів, перспективи застосування в професійних сферах є дуже широкими.

robot
Генерація анотацій у процесі

Великі моделі отримали новий рівень здатності до обробки довгих текстів: від 4000 до 400000 токенів

Великі моделі покращують свою здатність обробляти довгі тексти з приголомшливою швидкістю. Довгі тексти, здається, стали новим стандартом для виробників великих моделей.

За статистикою, наразі в Україні та за кордоном вже кілька провідних компаній з великими моделями та дослідницьких установ зосередилися на розширенні довжини контексту як основному напрямку оновлення. Ці компанії переважно є улюбленцями капітального ринку та отримали величезні інвестиції.

Компанії великих моделей прагнуть подолати технологію довгих текстів, що означає розширення довжини контексту в 100 разів?

На перший погляд, це означає, що довжина тексту, який можна вводити, суттєво зросла, а здатність моделі читати значно покращилась. Від початкової можливості прочитати лише короткий текст до теперішньої здатності читати цілі довгі романи.

З глибшого погляду, технології довгих текстів сприяють реалізації великих моделей у фінансовій, юридичній, науковій та інших професійних сферах. Ці сфери мають термінову потребу в обробці довгих документів, підсумуванні, розумінні прочитаного та інших здібностях.

Однак, довжина тексту не завжди є важливою. Дослідження показують, що здатність моделі підтримувати довший контекст не завжди призводить до кращих результатів, ключовим є те, як модель використовує контент контексту.

Наразі дослідження довжини тексту в Україні та за кордоном ще далеко не досягли межі. 400 тисяч токенів може бути лише початком.

Чому потрібно "скручувати" довгі тексти?

Один із засновників компанії, що займається великими моделями, заявив, що саме через обмеження довжини введення виникають труднощі з впровадженням багатьох застосувань великих моделей. Це також причина, чому багато компаній наразі зосереджуються на технології довгих текстів.

Технологія довгого тексту може вирішити деякі проблеми ранніх великих моделей, посилити певні функції, а також є ключовою технологією для подальшого просування впровадження в промисловості. Це знаменує новий етап розвитку загальних великих моделей - від LLM до епохи Long LLM.

Технологія довгих текстів надасть великій моделі кілька оновлених функцій:

  • Витягування, підсумування та аналіз ключової інформації з дуже довгих текстів
  • Пряме перетворення тексту в код для відтворення статті в коді
  • Рольова гра в тривалих діалогах для реалізації персоналізованого спілкування

Ці функціональні описи вказують на те, що розмовні роботи розвиваються в напрямку професіоналізації, індивідуалізації та поглиблення, і мають потенціал стати новим важелем для впровадження в промислові застосування.

Проте, наразі довгі текстові діалоги все ще мають простір для оптимізації. Наприклад, деякі продукти не підтримують підключення до мережі для отримання останньої інформації, під час генерації неможливо призупинити зміни, навіть якщо є фонові матеріали, все ще можуть виникати помилки тощо.

Дилема "неможливого трикутника" для довгих текстів

Технології довгих текстів стикаються з "непомітним трикутником" труднощів довжини тексту, уваги та обчислювальної потужності:

  • Чим довший текст, тим важче зосередити достатню увагу.
  • Умови обмеженої уваги ускладнюють повне сприйняття складної інформації у коротких текстах.
  • Обробка довгих текстів потребує великої обчислювальної потужності, що підвищує витрати

Це в основному пов'язано з тим, що більшість моделей використовують структуру Transformer. Механізм самостійної уваги в ній призводить до зростання обчислювальної складності в квадратній пропорції з довжиною контексту.

Наразі існує три основні рішення:

  1. Використання зовнішніх інструментів для обробки довгих текстів
  2. Оптимізація обчислень механізму самостереження
  3. Використання методів оптимізації моделі

Довгий текст "неможливого трикутника" наразі не може бути повністю вирішено. Виробники великих моделей повинні знайти баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб мати можливість обробляти достатню кількість інформації, а також враховувати обчислювальну ефективність та обмеження витрат.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • 6
  • Поділіться
Прокоментувати
0/400
GasGasGasBrovip
· 07-12 01:52
Це ж просто додали планку пам'яті.
Переглянути оригіналвідповісти на0
CryptoAdventurervip
· 07-09 02:48
Це моя прибутковість від податку на IQ за десять років роботи.
Переглянути оригіналвідповісти на0
CountdownToBrokevip
· 07-09 02:45
Ця обчислювальна потужність, йди на видобуток.
Переглянути оригіналвідповісти на0
ForkItAllvip
· 07-09 02:35
і жорсткі, і гарячі дані про зростання
Переглянути оригіналвідповісти на0
PoetryOnChainvip
· 07-09 02:30
Обчислювальна потужність ця точка дуже реальна
Переглянути оригіналвідповісти на0
OnchainHolmesvip
· 07-09 02:22
Цей токен зростає без жодних принципів
Переглянути оригіналвідповісти на0
  • Закріпити