大模型争相突破长文本技术 推动AI专业化应用落地

大模型正在"卷"长文本技术

大模型的文本处理能力正在以惊人的速度提升。从4000 token到40万 token,大模型的上下文长度正在快速增长。

长文本处理能力似乎成为大模型厂商的新标配。国外方面,OpenAI、Anthropic等公司纷纷提升了模型的上下文长度。国内也有多家公司和研究团队在这一领域取得突破。

目前,国内外已有一大批顶级大模型公司和研究机构将上下文长度的拓展作为重点方向。这些公司大多受到资本市场的青睐,获得了大额融资。

大模型公司为何要攻克长文本技术?上下文长度扩大100倍意味着什么?

表面上看,这意味着模型可以处理更长的输入文本,阅读能力更强。但更重要的是,长文本技术正在推动大模型在金融、法律、科研等专业领域的应用落地。

不过,研究表明模型支持更长上下文输入并不直接等同于效果更好。关键在于模型如何有效利用上下文内容。

当前,对文本长度的探索还远未达到极限。40万 token可能只是一个开始。

为什么要"卷"长文本?

一些大模型公司发现,输入长度限制造成了许多应用落地的困境。比如在虚拟角色、游戏开发、专业领域分析等场景中,长文本能力不足会限制实际效果。

长文本对未来的 Agent 和 AI 原生应用也很重要。Agent 需要依靠历史信息做决策,AI 原生应用需要上下文来保持连贯的用户体验。

有观点认为,大模型的上限由单步能力和执行步骤数共同决定,其中执行步骤数即上下文长度。长文本还可以通过提供更多上下文,帮助模型减少歧义,提高推理准确性。

长文本技术既可以解决大模型早期的一些问题,又是推进产业应用的关键。这标志着大模型进入了从 LLM 到 Long LLM 的新阶段。

一些公司已经展示了 Long LLM 的新功能,如超长文本总结分析、复杂代码生成、个性化角色对话等。这显示大模型正在向专业化、个性化、深度化方向发展。

长文本的"不可能三角"困境

长文本技术面临文本长度、注意力和算力的"不可能三角"困境。文本越长越难聚焦注意力,处理长文本又需要大量算力。

这主要是因为大多数模型基于 Transformer 结构。其中的自注意力机制使计算量随上下文长度呈平方级增长。

目前主要有三种解决方案:

  1. 借助外部工具辅助处理长文本
  2. 优化自注意力机制计算
  3. 利用模型优化方法

长文本的困境目前还无法完全解决,但明确了探索方向:在文本长度、注意力和算力三者间寻找平衡点,既能处理足够信息,又能兼顾计算与成本限制。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 4
  • 分享
评论
0/400
老韭新镰vip
· 07-07 05:44
又一波镰刀在风口上了 韭菜们准备被割吧
回复0
MEVHuntervip
· 07-07 05:43
说实话,这些人工智能公司将利用这一点来最大化收益提取。
查看原文回复0
Layer3梦想家vip
· 07-07 05:41
理论上,这只是递归注意力缩放……说实话,没有什么革命性的。
查看原文回复0
佛系链上人vip
· 07-07 05:32
又卷起来啦啊啊啊
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)