大模型长文本能力飙升100倍 专业领域应用前景广阔

robot
摘要生成中

大模型长文本能力再升级:从4000到40万token

大模型正以惊人的速度提升其长文本处理能力。长文本似乎已成为大模型厂商的新标配。

据统计,目前国内外已有多家顶级大模型公司和研究机构将上下文长度扩展作为重点升级方向。这些公司大多是资本市场的宠儿,获得了巨额投资。

大模型公司致力于攻克长文本技术,上下文长度扩大100倍意味着什么?

表面上看,这意味着可输入的文本长度大幅增加,模型的阅读能力得到显著提升。从最初只能读完一篇短文,到现在可以阅读整本长篇小说。

更深层次来看,长文本技术正在推动大模型在金融、法律、科研等专业领域的应用落地。这些领域对长文档处理、摘要总结、阅读理解等能力有迫切需求。

不过,文本长度并非越长越好。研究表明,模型支持更长上下文输入并不等同于效果更好,关键在于模型如何使用上下文内容。

目前,国内外对文本长度的探索还远未达到极限。40万token可能只是一个开始。

为什么要"卷"长文本?

一位大模型公司创始人表示,正是由于输入长度限制,造成了许多大模型应用落地的困境。这也是当前多家公司聚焦长文本技术的原因。

长文本技术可以解决大模型早期的一些问题,增强某些功能,同时也是进一步推进产业应用落地的关键技术。这标志着通用大模型发展进入了新阶段 - 从LLM到Long LLM时代。

长文本技术将为大模型带来多项升级功能:

  • 对超长文本进行关键信息提取、总结和分析
  • 直接将文字转化为代码,实现论文到代码的复现
  • 在长对话场景中进行角色扮演,实现个性化对话

这些功能说明,对话机器人正朝着专业化、个性化、深度化的方向发展,有望成为撬动产业应用的新抓手。

不过,目前长文本对话仍有优化空间。比如部分产品不支持联网获取最新信息,生成过程中无法暂停修改,即使有背景资料支持仍可能出现错误等。

长文本的"不可能三角"困境

长文本技术面临文本长短、注意力和算力的"不可能三角"困境:

  • 文本越长,越难聚集充分注意力
  • 注意力限制下,短文本难以完整解读复杂信息
  • 处理长文本需要大量算力,提高成本

这主要源于大多数模型采用的Transformer结构。其中的自注意力机制使计算量随上下文长度呈平方级增长。

目前主要有三种解决方案:

  1. 借助外部工具辅助处理长文本
  2. 优化自注意力机制计算
  3. 利用模型优化的方法

长文本的"不可能三角"困境目前还无法完全解决。大模型厂商需要在文本长短、注意力和算力三者间寻找平衡点,既能处理足够信息,又能兼顾计算效率与成本限制。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 6
  • 分享
评论
0/400
GasGasGasBrovip
· 07-12 01:52
不就是加了内存条么
回复0
Crypto冒险家vip
· 07-09 02:48
这是我搬砖十年的智商税回报率了
回复0
破产_倒计时vip
· 07-09 02:45
这算力成本 找矿去吧
回复0
ForkItAllvip
· 07-09 02:35
又硬又烫的增长数据
回复0
诗与远链vip
· 07-09 02:30
算力这点很真实了
回复0
资深链上福尔摩斯vip
· 07-09 02:22
这token涨得不讲武德
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)