يُنظر إلى التطورات الأخيرة في صناعة الذكاء الاصطناعي من قبل بعض الأشخاص على أنها الثورة الصناعية الرابعة. لقد أدت ظهور النماذج الكبيرة إلى تحسين كبير في كفاءة مختلف الصناعات، حيث يُقدّر أنها زادت من كفاءة العمل في الولايات المتحدة بنحو 20%. في الوقت نفسه، تعتبر القدرة العامة التي توفرها النماذج الكبيرة نمط تصميم برمجيات جديد، حيث انتقلنا من كتابة كود دقيق في الماضي إلى إدماج إطار النماذج الكبيرة الأكثر عمومية في البرمجيات، مما يدعم مدخلات ومخرجات موديلات أوسع. لقد جلبت تقنيات التعلم العميق الازدهار الرابع لصناعة الذكاء الاصطناعي، وقد أثرت هذه الموجة أيضًا على صناعة العملات المشفرة.
سيتناول هذا التقرير بالتفصيل تاريخ تطور صناعة الذكاء الاصطناعي، وتصنيفات التكنولوجيا، وتأثير تقنيات التعلم العميق على الصناعة. سيتم تحليل الوضع الحالي والاتجاهات في سلسلة التوريد للصناعة المتعلقة بالتعلم العميق، بما في ذلك وحدات معالجة الرسوميات (GPU)، والحوسبة السحابية، ومصادر البيانات، وأجهزة الحافة. وسيتناول أيضًا العلاقة الجوهرية بين العملات المشفرة وصناعة الذكاء الاصطناعي، مع توضيح هيكل سلسلة التوريد المتعلقة بالذكاء الاصطناعي والعملات المشفرة.
بدأت صناعة الذكاء الاصطناعي في الخمسينيات من القرن العشرين، ومن أجل تحقيق رؤية الذكاء الاصطناعي، طورت الأوساط الأكاديمية والصناعية في عصور مختلفة ومن خلفيات علمية متنوعة العديد من المدارس لتحقيق الذكاء الاصطناعي.
تستخدم تقنيات الذكاء الاصطناعي الحديثة بشكل رئيسي مصطلح "تعلم الآلة"، وفكرته هي السماح للآلات بالاعتماد على البيانات لتكرار المهام من أجل تحسين أداء النظام. الخطوات الرئيسية هي إرسال البيانات إلى الخوارزمية لتدريب النموذج، اختبار نشر النموذج، واستخدام النموذج لإكمال مهام التنبؤ الآلي.
توجد ثلاث مدارس رئيسية في تعلم الآلة، وهي الارتباطية، الرمزية، والسلوكية، والتي تحاكي على التوالي النظام العصبي البشري، التفكير، والسلوك. في الوقت الحالي، تهيمن المدرسة الارتباطية الممثلة بشبكات الأعصاب (المعروفة أيضًا بالتعلم العميق)، والسبب الرئيسي في ذلك هو أن هذه البنية تحتوي على طبقة إدخال وطبقة إخراج، ولكن بها العديد من الطبقات الخفية، وعندما تكون عدد الطبقات وعدد الخلايا العصبية (المعلمات) كافياً، سيكون هناك فرصة كافية لتقليد المهام العامة المعقدة. من خلال إدخال البيانات، يمكن تعديل معلمات الخلايا العصبية باستمرار، وبعد المرور عبر عدة بيانات، ستصل هذه الخلية العصبية إلى الحالة المثلى (المعلمات)، وهذا هو أيضاً مصدر "العمق" الخاص بها - عدد كافٍ من الطبقات والخلايا العصبية.
تكنولوجيا التعلم العميق القائمة على الشبكات العصبية شهدت أيضًا العديد من التكرارات والتطورات التقنية، بدءًا من الشبكات العصبية المبكرة، إلى الشبكات العصبية الأمامية، RNN، CNN، GAN، وأخيرًا تطورت إلى نماذج كبيرة حديثة مثل تقنية Transformer المستخدمة في GPT وما إلى ذلك. تقنية Transformer هي مجرد اتجاه تطوري واحد من الشبكات العصبية، حيث تمت إضافة محول لتحويل جميع الأنماط (مثل الصوت والفيديو والصور وما إلى ذلك) إلى بيانات مشفرة تمثل القيم المقابلة. ثم يتم إدخالها في الشبكة العصبية، مما يمكّن الشبكة العصبية من ملاءمة أي نوع من البيانات، مما يعني تحقيق تعدد النماذج.
مرّت تطوير الذكاء الاصطناعي بثلاث عواصف تكنولوجية:
كانت الموجة الأولى في الستينيات من القرن العشرين، بعد عشر سنوات من ظهور تقنيات الذكاء الاصطناعي، وكانت هذه الموجة ناتجة عن تطوير تقنيات الرمزية، حيث كانت هذه التقنيات تحل مشكلة معالجة اللغة الطبيعية العامة وتفاعل الإنسان مع الآلة. في نفس الفترة، وُلدت أنظمة الخبراء.
حدثت الموجة الثانية من تكنولوجيا الذكاء الاصطناعي في عام 1997، حيث هزمت "بلو" من IBM بواقع 3.5:2.5 بطل الشطرنج كاسباروف (Kasparov)، وتم اعتبار هذه الانتصار علامة بارزة في الذكاء الاصطناعي.
حدثت الموجة الثالثة من تكنولوجيا الذكاء الاصطناعي في عام 2006. قدم عمالقة التعلم العميق Yann LeCun وGeoffrey Hinton وYoshua Bengio مفهوم التعلم العميق، وهو خوارزمية قائمة على الشبكات العصبية الاصطناعية لتعلم تمثيلات البيانات. بعد ذلك، تطورت خوارزميات التعلم العميق تدريجياً، من RNN وGAN إلى Transformer وStable Diffusion، حيث شكلت هذه الخوارزميات معًا هذه الموجة التقنية الثالثة، وكانت أيضًا فترة ازدهار الارتباطية.
! [الوافد الجديد Science Popular 丨الذكاء الاصطناعي x Crypto: من الصفر إلى الذروة](https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp019283746574839201
سلسلة صناعة التعلم العميق
تستخدم النماذج الكبيرة الحالية في اللغة طرق التعلم العميق المستندة إلى الشبكات العصبية. لقد ولدت النماذج الكبيرة بقيادة GPT موجة من الذكاء الاصطناعي، مما أدى إلى تدفق كبير من اللاعبين إلى هذا المجال، وظهرت حاجة كبيرة في السوق للبيانات وقوة الحوسبة. تستكشف هذه الجزء سلسلة الصناعة لخوارزميات التعلم العميق، ومكوناتها العلوية والسفلية، وكذلك الوضع الحالي والعرض والطلب في هذه السلسلة، والتطورات المستقبلية.
تدريب نماذج LLMs (النماذج الكبيرة) القائمة على تقنية Transformer بقيادة GPT ينقسم إلى ثلاث خطوات:
الخطوة الأولى، التدريب المسبق. من خلال تقديم عدد كافٍ من أزواج البيانات إلى الطبقة المدخلة للبحث عن أفضل المعلمات لكل خلية عصبية تحت هذا النموذج، تتطلب هذه العملية الكثير من البيانات، وهي أيضًا العملية الأكثر استهلاكًا للقدرة الحاسوبية.
الخطوة الثانية، التعديل الدقيق. توفير دفعة صغيرة ولكن عالية الجودة من البيانات للتدريب، من أجل تحسين جودة مخرجات النموذج.
الخطوة الثالثة، التعلم المعزز. إنشاء "نموذج مكافأة" لتحديد ما إذا كانت مخرجات النموذج الكبير ذات جودة عالية، لاستخدامه في تعديل معلمات النموذج الكبير تلقائيًا.
باختصار، في عملية تدريب النموذج الكبير، تتطلب مرحلة ما قبل التدريب كمية كبيرة جداً من البيانات، وتحتاج إلى أكبر قدر من قدرة معالجة GPU؛ تحتاج مرحلة التعديل الدقيق إلى بيانات ذات جودة أعلى لتحسين المعلمات؛ يمكن أن تتكرر التعلم المعزز من خلال نموذج المكافأة لتحسين المعلمات لإنتاج نتائج ذات جودة أعلى.
تحدد ثلاثة جوانب رئيسية أداء النماذج الكبيرة: عدد المعلمات، وكمية وجودة البيانات، والقدرة الحاسوبية. تؤثر هذه الجوانب الثلاثة معًا على جودة نتائج النماذج الكبيرة وقدرتها على التعميم. لنفترض أن عدد المعلمات هو p، وكمية البيانات هي n (محسوبة بعدد الرموز)، يمكننا من خلال قاعدة الخبرة حساب كمية الحساب المطلوبة، وبالتالي تقدير حالة القدرة الحاسوبية المطلوبة ومدة التدريب.
تُعتبر القدرة الحاسوبية عادةً بوحدات Flops، والتي تمثل عملية حسابية عائمة واحدة. وفقًا للقواعد التجريبية، يتطلب تدريب نموذج كبير مرة واحدة حوالي 6np Flops. بينما تتطلب عملية الاستدلال (الوقت الذي تنتظر فيه البيانات المدخلة إخراج النموذج الكبير) حوالي 2np Flops.
في المراحل المبكرة، تم استخدام شرائح CPU لتوفير دعم القوة الحسابية للتدريب، ثم تم استبدالها تدريجياً بشرائح GPU مثل A100 و H100 من Nvidia. وذلك لأن GPU يمكن أن تعمل كحاسوب مخصص، حيث أنها تتفوق بشكل كبير على CPU من حيث كفاءة استهلاك الطاقة. تعمل GPU على تنفيذ العمليات العائمة بشكل رئيسي من خلال وحدة Tensor Core. تمثل بيانات Flops بدقة FP16/FP32 للشرائح قدرتها الحسابية الرئيسية، وهي واحدة من المؤشرات الرئيسية لقياس قدرة الشرائح.
افترض أن عدد معلمات النموذج الكبير، على سبيل المثال GPT3، هو 175 مليار معلمة، وكمية البيانات 180 مليار توكن (حوالي 570 جيجابايت)، فإن إجراء تدريب مسبق واحد يتطلب 6np من Flops، أي حوالي 3.1510^22 Flops. باستخدام TFLOPS (تريليون FLOPs) كوحدة قياس، فإنها تقريبًا 3.1510^10 TFLOPS، مما يعني أن شريحة من نوع SXM تحتاج إلى حوالي 584 يومًا لتدريب GPT3 مرة واحدة.
من هنا نرى أن الكمية الكبيرة من الحسابات التي تتطلبها النماذج المدربة مسبقًا تحتاج إلى العديد من الرقائق المتقدمة للعمل معًا لتحقيق ذلك. عدد المعاملات في GPT-4 هو عشرة أضعاف عدد المعاملات في GPT-3، مما يعني أنه حتى لو كانت كمية البيانات ثابتة، يجب شراء عشرة أضعاف عدد الرقائق. عدد الرموز في GPT-4 هو 13 تريليون رمز، وهو أيضًا عشرة أضعاف عدد الرموز في GPT-3، وفي النهاية قد يحتاج GPT-4 إلى أكثر من 100 ضعف قوة حساب الرقائق.
في تدريب النماذج الكبيرة، توجد مشكلة أيضًا في تخزين البيانات. عادةً ما تكون مساحة الذاكرة الخاصة بالمعالجات الرسومية (مثل A100 بسعة 80 جيجابايت) صغيرة، ولا يمكنها استيعاب جميع البيانات، لذلك يحتاج الأمر إلى دراسة عرض النطاق الترددي للرقائق، أي سرعة نقل البيانات من القرص الصلب إلى الذاكرة. في نفس الوقت، نظرًا لاستخدام عدة رقائق GPU، فإن الأمر يتعلق أيضًا بمعدل النقل بين المعالجات الرسومية. لذلك، في كثير من الأحيان، قد تكون العوامل أو التكاليف التي تقيد ممارسة تدريب النماذج ليست بالضرورة قدرة المعالجة للرقائق، بل في كثير من الأحيان قد تكون عرض النطاق الترددي للرقائق. لأن نقل البيانات بطيء، سيؤدي ذلك إلى زيادة الوقت المستغرق في تشغيل النموذج، وبالتالي ستزيد تكاليف الطاقة.
تشمل سلسلة صناعة التعلم العميق الأجزاء الرئيسية التالية:
مزودات الأجهزة GPU
مزود خدمة السحاب
مزود بيانات التدريب
مزود قاعدة البيانات
الأجهزة الطرفية
تطبيق
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
مزودو أجهزة GPU
تحتل Nvidia حاليًا مكانة رائدة مطلقة في مجال شرائح GPU للذكاء الاصطناعي. يستخدم الوسط الأكاديمي بشكل أساسي وحدات معالجة الرسوميات من المستوى الاستهلاكي (سلسلة RTX)؛ بينما تستخدم الصناعة بشكل رئيسي H100 و A100 وغيرها من الشريحة التجارية لنماذج كبيرة.
في عام 2023، حصلت شريحة H100 المتطورة من Nvidia على طلبات من عدة شركات فور إصدارها. الطلب العالمي على شريحة H100 يتجاوز بكثير العرض، وقد وصل دورة الشحن الخاصة بها إلى 52 أسبوعًا. نظرًا لوضع Nvidia الاحتكاري، قادت Google، بمشاركة Intel وQualcomm وMicrosoft وAmazon، إنشاء تحالف CUDA، على أمل تطوير وحدات معالجة الرسوميات معًا للتخلص من تأثير Nvidia.
بالنسبة لشركات التكنولوجيا العملاقة / مزودي خدمات السحابة / المختبرات الوطنية ، فإنهم يشترون بسهولة آلاف وعشرات الآلاف من شرائح H100 لبناء مراكز الحوسبة عالية الأداء (HPC). حتى نهاية عام 2023 ، تجاوزت كمية طلبات شرائح H100 500000 شريحة.
فيما يتعلق بإمدادات شرائح Nvidia ، تم إصدار أخبار H200 حالياً ، ومن المتوقع أن تكون أداء H200 ضعف أداء H100 ، بينما سيتم إطلاق B100 في نهاية عام 2024 أو بداية عام 2025. لا يزال تطوير وحدات معالجة الرسوميات يفي بقانون مور ، حيث يتضاعف الأداء كل عامين وينخفض السعر إلى النصف.
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-609c5dd6ee0abcec6bf9c118d7741867.webp(
مزود خدمة السحابة
تستطيع مزودات خدمات السحابة، بعد شراء ما يكفي من وحدات معالجة الرسوميات لبناء الحوسبة عالية الأداء، تقديم قوة حساب مرنة وحلول تدريب مستضافة للشركات الناشئة في الذكاء الاصطناعي ذات الميزانية المحدودة. ينقسم السوق حاليًا إلى ثلاث فئات رئيسية من مزودي القوة الحسابية السحابية:
منصات الحوسبة السحابية ذات النطاق الواسع التي تمثلها الشركات التقليدية مثل AWS وGoogle وAzure
منصة الحوسبة السحابية في المسار العمودي، مخصصة بشكل أساسي للذكاء الاصطناعي أو الحوسبة عالية الأداء.
مزود خدمة الاستنتاج، يقوم بشكل رئيسي بنشر نماذج تم تدريبها مسبقًا للعملاء، وإجراء التعديل الطفيف أو الاستنتاج.
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-f37fb0100218188368f4d31940aab2a3.webp(
مزود بيانات التدريب
تتكون عملية تدريب النماذج الكبيرة بشكل رئيسي من ثلاث خطوات: التدريب المسبق، الضبط الدقيق، والتعلم المعزز. يتطلب التدريب المسبق بيانات ضخمة، بينما يتطلب الضبط الدقيق بيانات عالية الجودة، ولذلك تحظى شركات مثل Google، وهي محرك بحث، وReddit، التي تمتلك بيانات حوار عالية الجودة، باهتمام واسع في السوق.
بعض الشركات المطورة، من أجل عدم المنافسة مع النماذج العامة الكبيرة، تختار التطوير في مجالات متخصصة مثل المالية، والطب، والكيمياء، وما إلى ذلك، والتي تحتاج إلى بيانات محددة في تلك المجالات. وبالتالي، توجد شركات تقدم بيانات محددة لهذه النماذج الكبيرة، وتعرف أيضًا بشركات تصنيف البيانات.
بالنسبة لشركات تطوير النماذج، فإن البيانات الكبيرة، والبيانات عالية الجودة، والبيانات المحددة هي ثلاثة أنواع رئيسية من المطالب البيانية.
تعتقد أبحاث مايكروسوفت أنه إذا كانت جودة بيانات نماذج اللغة الصغيرة أفضل بكثير من نماذج اللغة الكبيرة، فإن أدائها قد لا يكون سيئًا بالضرورة. في الواقع، لا يتمتع GPT بميزة واضحة في الإبداع والبيانات، والنجاح الذي حققه يعود بشكل أساسي إلى استثماره في هذا المجال. كما تعتقد سيكويا الأمريكية أن GPT قد لا يحتفظ بميزة تنافسية في المستقبل، لأن هذا المجال ليس لديه سور دفاعي عميق للغاية، والمحددات الرئيسية تأتي من الحصول على القدرة الحاسوبية.
وفقًا للتوقعات، وبناءً على نمو حجم النموذج الحالي، من المتوقع أن تنفد جميع البيانات ذات الجودة المنخفضة والعالية بحلول عام 2030. لذلك، يستكشف القطاع البيانات الاصطناعية المولدة بواسطة الذكاء الاصطناعي، لتوليد بيانات غير محدودة، مما يجعل العقبة المتبقية هي قوة الحوسبة. لا يزال هذا الاتجاه في مرحلة الاستكشاف، ويستحق المراقبة.
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-8848582a34ba293d15afae15d90e3c95.webp(
مزود قاعدة البيانات
بالنسبة لمهام البيانات الذكية والتدريب على التعلم العميق، فإن "قاعدة بيانات المتجهات" تُستخدم حاليًا في الصناعة. تهدف قاعدة بيانات المتجهات إلى تخزين وإدارة وفهرسة كميات هائلة من بيانات المتجهات عالية الأبعاد بكفاءة. يمكنها تخزين البيانات غير الهيكلية بشكل موحد على شكل "متجهات"، مما يجعلها مناسبة لتخزين هذه المتجهات ومعالجتها.
اللاعبون الرئيسيون هم Chroma و Zilliz و Pinecone و Weaviate وغيرها. من المتوقع مع زيادة الطلب على حجم البيانات، فضلاً عن الانفجار في نماذج التطبيقات الكبيرة في مختلف المجالات الفرعية، أن يزداد الطلب على قاعدة بيانات المتجهات بشكل كبير. نظرًا لأن هذا المجال لديه حواجز تقنية قوية، فإن الاستثمار يميل أكثر نحو الشركات الناضجة والتي لديها عملاء.
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-53c48daf49a3dbb35c1a2b47e234f180.webp019283746574839201
الأجهزة الطرفية
عند بناء مجموعة HPC (حوسبة عالية الأداء) باستخدام وحدة معالجة الرسومات، عادة ما يتم استهلاك كميات كبيرة من الطاقة لإنتاج الحرارة، مما يتطلب أجهزة تبريد.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
تسجيلات الإعجاب 10
أعجبني
10
7
مشاركة
تعليق
0/400
NFTRegretDiary
· 07-08 17:35
الميتافيرس شائن للغاية لكسب المال
شاهد النسخة الأصليةرد0
FUDwatcher
· 07-08 04:00
مرة أخرى، هناك من يتحدث عن استغلال الحمقى بواسطة الذكاء الاصطناعي.
شاهد النسخة الأصليةرد0
TokenUnlocker
· 07-06 20:54
البلوكتشين موت المراكز الطويلة شراء الانخفاض就完事了
شاهد النسخة الأصليةرد0
WagmiWarrior
· 07-06 20:54
كسب المال هو الأمر المهم تداول العملات الرقمية دائمًا إله
شاهد النسخة الأصليةرد0
HodlNerd
· 07-06 20:54
الدلالة الإحصائية تتفوق على ضجيج السوق... تأكيد التعرف على الأنماط أننا ندخل مرحلة تلاقٍ بين الذكاء الاصطناعي + العملات المشفرة
دمج الذكاء الاصطناعي مع صناعة التشفير: كيف يعيد التعلم العميق تشكيل مشهد Web3
الذكاء الاصطناعي x التشفير: من الصفر إلى القمة
المقدمة
يُنظر إلى التطورات الأخيرة في صناعة الذكاء الاصطناعي من قبل بعض الأشخاص على أنها الثورة الصناعية الرابعة. لقد أدت ظهور النماذج الكبيرة إلى تحسين كبير في كفاءة مختلف الصناعات، حيث يُقدّر أنها زادت من كفاءة العمل في الولايات المتحدة بنحو 20%. في الوقت نفسه، تعتبر القدرة العامة التي توفرها النماذج الكبيرة نمط تصميم برمجيات جديد، حيث انتقلنا من كتابة كود دقيق في الماضي إلى إدماج إطار النماذج الكبيرة الأكثر عمومية في البرمجيات، مما يدعم مدخلات ومخرجات موديلات أوسع. لقد جلبت تقنيات التعلم العميق الازدهار الرابع لصناعة الذكاء الاصطناعي، وقد أثرت هذه الموجة أيضًا على صناعة العملات المشفرة.
سيتناول هذا التقرير بالتفصيل تاريخ تطور صناعة الذكاء الاصطناعي، وتصنيفات التكنولوجيا، وتأثير تقنيات التعلم العميق على الصناعة. سيتم تحليل الوضع الحالي والاتجاهات في سلسلة التوريد للصناعة المتعلقة بالتعلم العميق، بما في ذلك وحدات معالجة الرسوميات (GPU)، والحوسبة السحابية، ومصادر البيانات، وأجهزة الحافة. وسيتناول أيضًا العلاقة الجوهرية بين العملات المشفرة وصناعة الذكاء الاصطناعي، مع توضيح هيكل سلسلة التوريد المتعلقة بالذكاء الاصطناعي والعملات المشفرة.
! علم الوافد الجديد 丨 الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة
تاريخ تطور صناعة الذكاء الاصطناعي
بدأت صناعة الذكاء الاصطناعي في الخمسينيات من القرن العشرين، ومن أجل تحقيق رؤية الذكاء الاصطناعي، طورت الأوساط الأكاديمية والصناعية في عصور مختلفة ومن خلفيات علمية متنوعة العديد من المدارس لتحقيق الذكاء الاصطناعي.
تستخدم تقنيات الذكاء الاصطناعي الحديثة بشكل رئيسي مصطلح "تعلم الآلة"، وفكرته هي السماح للآلات بالاعتماد على البيانات لتكرار المهام من أجل تحسين أداء النظام. الخطوات الرئيسية هي إرسال البيانات إلى الخوارزمية لتدريب النموذج، اختبار نشر النموذج، واستخدام النموذج لإكمال مهام التنبؤ الآلي.
توجد ثلاث مدارس رئيسية في تعلم الآلة، وهي الارتباطية، الرمزية، والسلوكية، والتي تحاكي على التوالي النظام العصبي البشري، التفكير، والسلوك. في الوقت الحالي، تهيمن المدرسة الارتباطية الممثلة بشبكات الأعصاب (المعروفة أيضًا بالتعلم العميق)، والسبب الرئيسي في ذلك هو أن هذه البنية تحتوي على طبقة إدخال وطبقة إخراج، ولكن بها العديد من الطبقات الخفية، وعندما تكون عدد الطبقات وعدد الخلايا العصبية (المعلمات) كافياً، سيكون هناك فرصة كافية لتقليد المهام العامة المعقدة. من خلال إدخال البيانات، يمكن تعديل معلمات الخلايا العصبية باستمرار، وبعد المرور عبر عدة بيانات، ستصل هذه الخلية العصبية إلى الحالة المثلى (المعلمات)، وهذا هو أيضاً مصدر "العمق" الخاص بها - عدد كافٍ من الطبقات والخلايا العصبية.
تكنولوجيا التعلم العميق القائمة على الشبكات العصبية شهدت أيضًا العديد من التكرارات والتطورات التقنية، بدءًا من الشبكات العصبية المبكرة، إلى الشبكات العصبية الأمامية، RNN، CNN، GAN، وأخيرًا تطورت إلى نماذج كبيرة حديثة مثل تقنية Transformer المستخدمة في GPT وما إلى ذلك. تقنية Transformer هي مجرد اتجاه تطوري واحد من الشبكات العصبية، حيث تمت إضافة محول لتحويل جميع الأنماط (مثل الصوت والفيديو والصور وما إلى ذلك) إلى بيانات مشفرة تمثل القيم المقابلة. ثم يتم إدخالها في الشبكة العصبية، مما يمكّن الشبكة العصبية من ملاءمة أي نوع من البيانات، مما يعني تحقيق تعدد النماذج.
مرّت تطوير الذكاء الاصطناعي بثلاث عواصف تكنولوجية: كانت الموجة الأولى في الستينيات من القرن العشرين، بعد عشر سنوات من ظهور تقنيات الذكاء الاصطناعي، وكانت هذه الموجة ناتجة عن تطوير تقنيات الرمزية، حيث كانت هذه التقنيات تحل مشكلة معالجة اللغة الطبيعية العامة وتفاعل الإنسان مع الآلة. في نفس الفترة، وُلدت أنظمة الخبراء.
حدثت الموجة الثانية من تكنولوجيا الذكاء الاصطناعي في عام 1997، حيث هزمت "بلو" من IBM بواقع 3.5:2.5 بطل الشطرنج كاسباروف (Kasparov)، وتم اعتبار هذه الانتصار علامة بارزة في الذكاء الاصطناعي.
حدثت الموجة الثالثة من تكنولوجيا الذكاء الاصطناعي في عام 2006. قدم عمالقة التعلم العميق Yann LeCun وGeoffrey Hinton وYoshua Bengio مفهوم التعلم العميق، وهو خوارزمية قائمة على الشبكات العصبية الاصطناعية لتعلم تمثيلات البيانات. بعد ذلك، تطورت خوارزميات التعلم العميق تدريجياً، من RNN وGAN إلى Transformer وStable Diffusion، حيث شكلت هذه الخوارزميات معًا هذه الموجة التقنية الثالثة، وكانت أيضًا فترة ازدهار الارتباطية.
! [الوافد الجديد Science Popular 丨الذكاء الاصطناعي x Crypto: من الصفر إلى الذروة](https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp019283746574839201
سلسلة صناعة التعلم العميق
تستخدم النماذج الكبيرة الحالية في اللغة طرق التعلم العميق المستندة إلى الشبكات العصبية. لقد ولدت النماذج الكبيرة بقيادة GPT موجة من الذكاء الاصطناعي، مما أدى إلى تدفق كبير من اللاعبين إلى هذا المجال، وظهرت حاجة كبيرة في السوق للبيانات وقوة الحوسبة. تستكشف هذه الجزء سلسلة الصناعة لخوارزميات التعلم العميق، ومكوناتها العلوية والسفلية، وكذلك الوضع الحالي والعرض والطلب في هذه السلسلة، والتطورات المستقبلية.
تدريب نماذج LLMs (النماذج الكبيرة) القائمة على تقنية Transformer بقيادة GPT ينقسم إلى ثلاث خطوات:
الخطوة الأولى، التدريب المسبق. من خلال تقديم عدد كافٍ من أزواج البيانات إلى الطبقة المدخلة للبحث عن أفضل المعلمات لكل خلية عصبية تحت هذا النموذج، تتطلب هذه العملية الكثير من البيانات، وهي أيضًا العملية الأكثر استهلاكًا للقدرة الحاسوبية.
الخطوة الثانية، التعديل الدقيق. توفير دفعة صغيرة ولكن عالية الجودة من البيانات للتدريب، من أجل تحسين جودة مخرجات النموذج.
الخطوة الثالثة، التعلم المعزز. إنشاء "نموذج مكافأة" لتحديد ما إذا كانت مخرجات النموذج الكبير ذات جودة عالية، لاستخدامه في تعديل معلمات النموذج الكبير تلقائيًا.
باختصار، في عملية تدريب النموذج الكبير، تتطلب مرحلة ما قبل التدريب كمية كبيرة جداً من البيانات، وتحتاج إلى أكبر قدر من قدرة معالجة GPU؛ تحتاج مرحلة التعديل الدقيق إلى بيانات ذات جودة أعلى لتحسين المعلمات؛ يمكن أن تتكرر التعلم المعزز من خلال نموذج المكافأة لتحسين المعلمات لإنتاج نتائج ذات جودة أعلى.
تحدد ثلاثة جوانب رئيسية أداء النماذج الكبيرة: عدد المعلمات، وكمية وجودة البيانات، والقدرة الحاسوبية. تؤثر هذه الجوانب الثلاثة معًا على جودة نتائج النماذج الكبيرة وقدرتها على التعميم. لنفترض أن عدد المعلمات هو p، وكمية البيانات هي n (محسوبة بعدد الرموز)، يمكننا من خلال قاعدة الخبرة حساب كمية الحساب المطلوبة، وبالتالي تقدير حالة القدرة الحاسوبية المطلوبة ومدة التدريب.
تُعتبر القدرة الحاسوبية عادةً بوحدات Flops، والتي تمثل عملية حسابية عائمة واحدة. وفقًا للقواعد التجريبية، يتطلب تدريب نموذج كبير مرة واحدة حوالي 6np Flops. بينما تتطلب عملية الاستدلال (الوقت الذي تنتظر فيه البيانات المدخلة إخراج النموذج الكبير) حوالي 2np Flops.
في المراحل المبكرة، تم استخدام شرائح CPU لتوفير دعم القوة الحسابية للتدريب، ثم تم استبدالها تدريجياً بشرائح GPU مثل A100 و H100 من Nvidia. وذلك لأن GPU يمكن أن تعمل كحاسوب مخصص، حيث أنها تتفوق بشكل كبير على CPU من حيث كفاءة استهلاك الطاقة. تعمل GPU على تنفيذ العمليات العائمة بشكل رئيسي من خلال وحدة Tensor Core. تمثل بيانات Flops بدقة FP16/FP32 للشرائح قدرتها الحسابية الرئيسية، وهي واحدة من المؤشرات الرئيسية لقياس قدرة الشرائح.
افترض أن عدد معلمات النموذج الكبير، على سبيل المثال GPT3، هو 175 مليار معلمة، وكمية البيانات 180 مليار توكن (حوالي 570 جيجابايت)، فإن إجراء تدريب مسبق واحد يتطلب 6np من Flops، أي حوالي 3.1510^22 Flops. باستخدام TFLOPS (تريليون FLOPs) كوحدة قياس، فإنها تقريبًا 3.1510^10 TFLOPS، مما يعني أن شريحة من نوع SXM تحتاج إلى حوالي 584 يومًا لتدريب GPT3 مرة واحدة.
من هنا نرى أن الكمية الكبيرة من الحسابات التي تتطلبها النماذج المدربة مسبقًا تحتاج إلى العديد من الرقائق المتقدمة للعمل معًا لتحقيق ذلك. عدد المعاملات في GPT-4 هو عشرة أضعاف عدد المعاملات في GPT-3، مما يعني أنه حتى لو كانت كمية البيانات ثابتة، يجب شراء عشرة أضعاف عدد الرقائق. عدد الرموز في GPT-4 هو 13 تريليون رمز، وهو أيضًا عشرة أضعاف عدد الرموز في GPT-3، وفي النهاية قد يحتاج GPT-4 إلى أكثر من 100 ضعف قوة حساب الرقائق.
في تدريب النماذج الكبيرة، توجد مشكلة أيضًا في تخزين البيانات. عادةً ما تكون مساحة الذاكرة الخاصة بالمعالجات الرسومية (مثل A100 بسعة 80 جيجابايت) صغيرة، ولا يمكنها استيعاب جميع البيانات، لذلك يحتاج الأمر إلى دراسة عرض النطاق الترددي للرقائق، أي سرعة نقل البيانات من القرص الصلب إلى الذاكرة. في نفس الوقت، نظرًا لاستخدام عدة رقائق GPU، فإن الأمر يتعلق أيضًا بمعدل النقل بين المعالجات الرسومية. لذلك، في كثير من الأحيان، قد تكون العوامل أو التكاليف التي تقيد ممارسة تدريب النماذج ليست بالضرورة قدرة المعالجة للرقائق، بل في كثير من الأحيان قد تكون عرض النطاق الترددي للرقائق. لأن نقل البيانات بطيء، سيؤدي ذلك إلى زيادة الوقت المستغرق في تشغيل النموذج، وبالتالي ستزيد تكاليف الطاقة.
تشمل سلسلة صناعة التعلم العميق الأجزاء الرئيسية التالية:
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
مزودو أجهزة GPU
تحتل Nvidia حاليًا مكانة رائدة مطلقة في مجال شرائح GPU للذكاء الاصطناعي. يستخدم الوسط الأكاديمي بشكل أساسي وحدات معالجة الرسوميات من المستوى الاستهلاكي (سلسلة RTX)؛ بينما تستخدم الصناعة بشكل رئيسي H100 و A100 وغيرها من الشريحة التجارية لنماذج كبيرة.
في عام 2023، حصلت شريحة H100 المتطورة من Nvidia على طلبات من عدة شركات فور إصدارها. الطلب العالمي على شريحة H100 يتجاوز بكثير العرض، وقد وصل دورة الشحن الخاصة بها إلى 52 أسبوعًا. نظرًا لوضع Nvidia الاحتكاري، قادت Google، بمشاركة Intel وQualcomm وMicrosoft وAmazon، إنشاء تحالف CUDA، على أمل تطوير وحدات معالجة الرسوميات معًا للتخلص من تأثير Nvidia.
بالنسبة لشركات التكنولوجيا العملاقة / مزودي خدمات السحابة / المختبرات الوطنية ، فإنهم يشترون بسهولة آلاف وعشرات الآلاف من شرائح H100 لبناء مراكز الحوسبة عالية الأداء (HPC). حتى نهاية عام 2023 ، تجاوزت كمية طلبات شرائح H100 500000 شريحة.
فيما يتعلق بإمدادات شرائح Nvidia ، تم إصدار أخبار H200 حالياً ، ومن المتوقع أن تكون أداء H200 ضعف أداء H100 ، بينما سيتم إطلاق B100 في نهاية عام 2024 أو بداية عام 2025. لا يزال تطوير وحدات معالجة الرسوميات يفي بقانون مور ، حيث يتضاعف الأداء كل عامين وينخفض السعر إلى النصف.
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-609c5dd6ee0abcec6bf9c118d7741867.webp(
مزود خدمة السحابة
تستطيع مزودات خدمات السحابة، بعد شراء ما يكفي من وحدات معالجة الرسوميات لبناء الحوسبة عالية الأداء، تقديم قوة حساب مرنة وحلول تدريب مستضافة للشركات الناشئة في الذكاء الاصطناعي ذات الميزانية المحدودة. ينقسم السوق حاليًا إلى ثلاث فئات رئيسية من مزودي القوة الحسابية السحابية:
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-f37fb0100218188368f4d31940aab2a3.webp(
مزود بيانات التدريب
تتكون عملية تدريب النماذج الكبيرة بشكل رئيسي من ثلاث خطوات: التدريب المسبق، الضبط الدقيق، والتعلم المعزز. يتطلب التدريب المسبق بيانات ضخمة، بينما يتطلب الضبط الدقيق بيانات عالية الجودة، ولذلك تحظى شركات مثل Google، وهي محرك بحث، وReddit، التي تمتلك بيانات حوار عالية الجودة، باهتمام واسع في السوق.
بعض الشركات المطورة، من أجل عدم المنافسة مع النماذج العامة الكبيرة، تختار التطوير في مجالات متخصصة مثل المالية، والطب، والكيمياء، وما إلى ذلك، والتي تحتاج إلى بيانات محددة في تلك المجالات. وبالتالي، توجد شركات تقدم بيانات محددة لهذه النماذج الكبيرة، وتعرف أيضًا بشركات تصنيف البيانات.
بالنسبة لشركات تطوير النماذج، فإن البيانات الكبيرة، والبيانات عالية الجودة، والبيانات المحددة هي ثلاثة أنواع رئيسية من المطالب البيانية.
تعتقد أبحاث مايكروسوفت أنه إذا كانت جودة بيانات نماذج اللغة الصغيرة أفضل بكثير من نماذج اللغة الكبيرة، فإن أدائها قد لا يكون سيئًا بالضرورة. في الواقع، لا يتمتع GPT بميزة واضحة في الإبداع والبيانات، والنجاح الذي حققه يعود بشكل أساسي إلى استثماره في هذا المجال. كما تعتقد سيكويا الأمريكية أن GPT قد لا يحتفظ بميزة تنافسية في المستقبل، لأن هذا المجال ليس لديه سور دفاعي عميق للغاية، والمحددات الرئيسية تأتي من الحصول على القدرة الحاسوبية.
وفقًا للتوقعات، وبناءً على نمو حجم النموذج الحالي، من المتوقع أن تنفد جميع البيانات ذات الجودة المنخفضة والعالية بحلول عام 2030. لذلك، يستكشف القطاع البيانات الاصطناعية المولدة بواسطة الذكاء الاصطناعي، لتوليد بيانات غير محدودة، مما يجعل العقبة المتبقية هي قوة الحوسبة. لا يزال هذا الاتجاه في مرحلة الاستكشاف، ويستحق المراقبة.
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-8848582a34ba293d15afae15d90e3c95.webp(
مزود قاعدة البيانات
بالنسبة لمهام البيانات الذكية والتدريب على التعلم العميق، فإن "قاعدة بيانات المتجهات" تُستخدم حاليًا في الصناعة. تهدف قاعدة بيانات المتجهات إلى تخزين وإدارة وفهرسة كميات هائلة من بيانات المتجهات عالية الأبعاد بكفاءة. يمكنها تخزين البيانات غير الهيكلية بشكل موحد على شكل "متجهات"، مما يجعلها مناسبة لتخزين هذه المتجهات ومعالجتها.
اللاعبون الرئيسيون هم Chroma و Zilliz و Pinecone و Weaviate وغيرها. من المتوقع مع زيادة الطلب على حجم البيانات، فضلاً عن الانفجار في نماذج التطبيقات الكبيرة في مختلف المجالات الفرعية، أن يزداد الطلب على قاعدة بيانات المتجهات بشكل كبير. نظرًا لأن هذا المجال لديه حواجز تقنية قوية، فإن الاستثمار يميل أكثر نحو الشركات الناضجة والتي لديها عملاء.
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-53c48daf49a3dbb35c1a2b47e234f180.webp019283746574839201
الأجهزة الطرفية
عند بناء مجموعة HPC (حوسبة عالية الأداء) باستخدام وحدة معالجة الرسومات، عادة ما يتم استهلاك كميات كبيرة من الطاقة لإنتاج الحرارة، مما يتطلب أجهزة تبريد.