大模型爭相突破長文本技術 推動AI專業化應用落地

大模型正在"卷"長文本技術

大模型的文本處理能力正在以驚人的速度提升。從4000 token到40萬 token,大模型的上下文長度正在快速增長。

長文本處理能力似乎成爲大模型廠商的新標配。國外方面,OpenAI、Anthropic等公司紛紛提升了模型的上下文長度。國內也有多家公司和研究團隊在這一領域取得突破。

目前,國內外已有一大批頂級大模型公司和研究機構將上下文長度的拓展作爲重點方向。這些公司大多受到資本市場的青睞,獲得了大額融資。

大模型公司爲何要攻克長文本技術?上下文長度擴大100倍意味着什麼?

表面上看,這意味着模型可以處理更長的輸入文本,閱讀能力更強。但更重要的是,長文本技術正在推動大模型在金融、法律、科研等專業領域的應用落地。

不過,研究表明模型支持更長上下文輸入並不直接等同於效果更好。關鍵在於模型如何有效利用上下文內容。

當前,對文本長度的探索還遠未達到極限。40萬 token可能只是一個開始。

爲什麼要"卷"長文本?

一些大模型公司發現,輸入長度限制造成了許多應用落地的困境。比如在虛擬角色、遊戲開發、專業領域分析等場景中,長文本能力不足會限制實際效果。

長文本對未來的 Agent 和 AI 原生應用也很重要。Agent 需要依靠歷史信息做決策,AI 原生應用需要上下文來保持連貫的用戶體驗。

有觀點認爲,大模型的上限由單步能力和執行步驟數共同決定,其中執行步驟數即上下文長度。長文本還可以通過提供更多上下文,幫助模型減少歧義,提高推理準確性。

長文本技術既可以解決大模型早期的一些問題,又是推進產業應用的關鍵。這標志着大模型進入了從 LLM 到 Long LLM 的新階段。

一些公司已經展示了 Long LLM 的新功能,如超長文本總結分析、復雜代碼生成、個性化角色對話等。這顯示大模型正在向專業化、個性化、深度化方向發展。

長文本的"不可能三角"困境

長文本技術面臨文本長度、注意力和算力的"不可能三角"困境。文本越長越難聚焦注意力,處理長文本又需要大量算力。

這主要是因爲大多數模型基於 Transformer 結構。其中的自注意力機制使計算量隨上下文長度呈平方級增長。

目前主要有三種解決方案:

  1. 借助外部工具輔助處理長文本
  2. 優化自注意力機制計算
  3. 利用模型優化方法

長文本的困境目前還無法完全解決,但明確了探索方向:在文本長度、注意力和算力三者間尋找平衡點,既能處理足夠信息,又能兼顧計算與成本限制。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 4
  • 分享
留言
0/400
老韭新镰vip
· 07-07 05:44
又一波镰刀在风口上了 韭菜们准备被割吧
回復0
MEVHuntervip
· 07-07 05:43
说实话,这些人工智能公司将利用这一点来最大化收益提取。
查看原文回復0
Layer3梦想家vip
· 07-07 05:41
理论上,这只是递归注意力缩放……说实话,没有什么革命性的。
查看原文回復0
佛系链上人vip
· 07-07 05:32
又卷起来啦啊啊啊
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)