تزداد قدرة النماذج الكبيرة على معالجة النصوص بسرعة مذهلة. من 4000 توكن إلى 400000 توكن، يزداد طول السياق للنماذج الكبيرة بسرعة.
يبدو أن القدرة على معالجة النصوص الطويلة أصبحت معيارًا جديدًا لمصنعي النماذج الكبيرة. في الخارج، قامت شركات مثل OpenAI وAnthropic بزيادة طول سياق النماذج. كما حققت العديد من الشركات والفرق البحثية المحلية أيضًا تقدمًا في هذا المجال.
حالياً، هناك مجموعة كبيرة من شركات النماذج الكبرى والمؤسسات البحثية المحلية والدولية التي تركز على توسيع طول السياق كاتجاه رئيسي. معظم هذه الشركات تحظى بإعجاب سوق رأس المال، وقد حصلت على تمويل كبير.
لماذا تسعى شركات النماذج الكبيرة إلى التغلب على تقنية النصوص الطويلة؟ ماذا يعني توسيع طول السياق بمقدار 100 مرة؟
على السطح، يعني هذا أن النموذج يمكنه التعامل مع نصوص إدخال أطول، مما يزيد من قدرته على القراءة. لكن الأهم من ذلك، أن تقنيات النصوص الطويلة تدفع النماذج الكبيرة نحو تطبيقات عملية في مجالات مثل المالية، والقانون، والبحث العلمي.
ومع ذلك، تشير الأبحاث إلى أن دعم النموذج لإدخال سياق أطول لا يعني بالضرورة أداءً أفضل. المفتاح هو كيفية استفادة النموذج بفعالية من محتوى السياق.
حالياً، لا يزال الاستكشاف لطول النص بعيدًا عن الوصول إلى الحد الأقصى. قد تكون 400000 توكن مجرد بداية.
لماذا "تلف" النصوص الطويلة؟
اكتشفت بعض شركات النماذج الكبيرة أن قيود طول الإدخال تسبب العديد من التحديات في تنفيذ التطبيقات. على سبيل المثال، في مشاهد مثل الشخصيات الافتراضية، وتطوير الألعاب، وتحليل المجالات المتخصصة، فإن عدم كفاءة معالجة النصوص الطويلة يحد من التأثير الفعلي.
النص الطويل مهم أيضًا لمستقبل التطبيقات الأصلية للوكيل والذكاء الاصطناعي. يحتاج الوكيل إلى الاعتماد على المعلومات التاريخية لاتخاذ القرارات، بينما تحتاج التطبيقات الأصلية للذكاء الاصطناعي إلى السياق للحفاظ على تجربة مستخدم متسقة.
هناك وجهة نظر تفيد بأن الحد الأقصى للنموذج الكبير يتحدد من خلال القدرة الفردية وعدد خطوات التنفيذ، حيث يمثل عدد خطوات التنفيذ طول السياق. يمكن للنصوص الطويلة أيضًا من خلال توفير المزيد من السياق، أن تساعد النموذج في تقليل الغموض وزيادة دقة الاستنتاج.
تقنية النصوص الطويلة يمكن أن تحل بعض المشاكل في النماذج الكبيرة في مراحلها المبكرة، وهي مفتاح لدفع تطبيقات الصناعة. هذا يشير إلى دخول النماذج الكبيرة مرحلة جديدة من LLM إلى Long LLM.
بعض الشركات قد عرضت الميزات الجديدة لـ Long LLM، مثل تحليل ملخصات النصوص الطويلة، وتوليد الشيفرات المعقدة، والحوار الشخصي. وهذا يدل على أن النماذج الكبيرة تتجه نحو التخصص، والتخصيص، والتعمق.
معضلة "مثلث المستحيل" للنصوص الطويلة
تواجه تقنيات النصوص الطويلة "مثلث المستحيل" من حيث طول النص، والانتباه، والقوة الحسابية. كلما طالت النصوص، أصبح من الصعب تركيز الانتباه، ويتطلب معالجة النصوص الطويلة قوة حسابية كبيرة.
يعود ذلك أساسًا إلى أن معظم النماذج تعتمد على هيكل Transformer. حيث تجعل آلية الانتباه الذاتي كمية الحسابات تنمو بشكل مربع مع زيادة طول السياق.
يوجد حاليًا ثلاثة حلول رئيسية:
استخدام أدوات خارجية لمساعدتك في معالجة النصوص الطويلة
تحسين حساب آلية الانتباه الذاتي
استخدام طرق تحسين النموذج
لا يزال التحدي المتمثل في النصوص الطويلة غير قابل للحل بالكامل حتى الآن، ولكن تم تحديد اتجاهات الاستكشاف: البحث عن نقطة توازن بين طول النص والانتباه وقوة الحوسبة، بحيث يمكن معالجة معلومات كافية مع مراعاة قيود الحوسبة والتكاليف.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
تسجيلات الإعجاب 13
أعجبني
13
4
مشاركة
تعليق
0/400
OldLeekNewSickle
· 07-07 05:44
مرة أخرى، هناك موجة من المناجل في الهواء، الحمقى يستعدون للخداع لتحقيق الربح.
شاهد النسخة الأصليةرد0
MEVHunter
· 07-07 05:43
لأكون صادقًا، هذه الشركات الذكية ستستغل هذا لأقصى حد من استخراج العوائد الصافية بصراحة.
شاهد النسخة الأصليةرد0
Layer3Dreamer
· 07-07 05:41
نظريًا، هذا مجرد توسيع انتباه متكرر... لا يوجد شيء ثوري بصراحة
النماذج الكبيرة تتنافس على تحقيق突破 في تقنية النصوص الطويلة مما يعزز تطبيقات الذكاء الاصطناعي المتخصصة.
النماذج الكبيرة "تتنافس" في تقنيات النصوص الطويلة
تزداد قدرة النماذج الكبيرة على معالجة النصوص بسرعة مذهلة. من 4000 توكن إلى 400000 توكن، يزداد طول السياق للنماذج الكبيرة بسرعة.
يبدو أن القدرة على معالجة النصوص الطويلة أصبحت معيارًا جديدًا لمصنعي النماذج الكبيرة. في الخارج، قامت شركات مثل OpenAI وAnthropic بزيادة طول سياق النماذج. كما حققت العديد من الشركات والفرق البحثية المحلية أيضًا تقدمًا في هذا المجال.
حالياً، هناك مجموعة كبيرة من شركات النماذج الكبرى والمؤسسات البحثية المحلية والدولية التي تركز على توسيع طول السياق كاتجاه رئيسي. معظم هذه الشركات تحظى بإعجاب سوق رأس المال، وقد حصلت على تمويل كبير.
لماذا تسعى شركات النماذج الكبيرة إلى التغلب على تقنية النصوص الطويلة؟ ماذا يعني توسيع طول السياق بمقدار 100 مرة؟
على السطح، يعني هذا أن النموذج يمكنه التعامل مع نصوص إدخال أطول، مما يزيد من قدرته على القراءة. لكن الأهم من ذلك، أن تقنيات النصوص الطويلة تدفع النماذج الكبيرة نحو تطبيقات عملية في مجالات مثل المالية، والقانون، والبحث العلمي.
ومع ذلك، تشير الأبحاث إلى أن دعم النموذج لإدخال سياق أطول لا يعني بالضرورة أداءً أفضل. المفتاح هو كيفية استفادة النموذج بفعالية من محتوى السياق.
حالياً، لا يزال الاستكشاف لطول النص بعيدًا عن الوصول إلى الحد الأقصى. قد تكون 400000 توكن مجرد بداية.
لماذا "تلف" النصوص الطويلة؟
اكتشفت بعض شركات النماذج الكبيرة أن قيود طول الإدخال تسبب العديد من التحديات في تنفيذ التطبيقات. على سبيل المثال، في مشاهد مثل الشخصيات الافتراضية، وتطوير الألعاب، وتحليل المجالات المتخصصة، فإن عدم كفاءة معالجة النصوص الطويلة يحد من التأثير الفعلي.
النص الطويل مهم أيضًا لمستقبل التطبيقات الأصلية للوكيل والذكاء الاصطناعي. يحتاج الوكيل إلى الاعتماد على المعلومات التاريخية لاتخاذ القرارات، بينما تحتاج التطبيقات الأصلية للذكاء الاصطناعي إلى السياق للحفاظ على تجربة مستخدم متسقة.
هناك وجهة نظر تفيد بأن الحد الأقصى للنموذج الكبير يتحدد من خلال القدرة الفردية وعدد خطوات التنفيذ، حيث يمثل عدد خطوات التنفيذ طول السياق. يمكن للنصوص الطويلة أيضًا من خلال توفير المزيد من السياق، أن تساعد النموذج في تقليل الغموض وزيادة دقة الاستنتاج.
تقنية النصوص الطويلة يمكن أن تحل بعض المشاكل في النماذج الكبيرة في مراحلها المبكرة، وهي مفتاح لدفع تطبيقات الصناعة. هذا يشير إلى دخول النماذج الكبيرة مرحلة جديدة من LLM إلى Long LLM.
بعض الشركات قد عرضت الميزات الجديدة لـ Long LLM، مثل تحليل ملخصات النصوص الطويلة، وتوليد الشيفرات المعقدة، والحوار الشخصي. وهذا يدل على أن النماذج الكبيرة تتجه نحو التخصص، والتخصيص، والتعمق.
معضلة "مثلث المستحيل" للنصوص الطويلة
تواجه تقنيات النصوص الطويلة "مثلث المستحيل" من حيث طول النص، والانتباه، والقوة الحسابية. كلما طالت النصوص، أصبح من الصعب تركيز الانتباه، ويتطلب معالجة النصوص الطويلة قوة حسابية كبيرة.
يعود ذلك أساسًا إلى أن معظم النماذج تعتمد على هيكل Transformer. حيث تجعل آلية الانتباه الذاتي كمية الحسابات تنمو بشكل مربع مع زيادة طول السياق.
يوجد حاليًا ثلاثة حلول رئيسية:
لا يزال التحدي المتمثل في النصوص الطويلة غير قابل للحل بالكامل حتى الآن، ولكن تم تحديد اتجاهات الاستكشاف: البحث عن نقطة توازن بين طول النص والانتباه وقوة الحوسبة، بحيث يمكن معالجة معلومات كافية مع مراعاة قيود الحوسبة والتكاليف.