DeepSeek تكشف عن تقنية "ثورية" لتشغيل نموذجها القادم R3 للاستدلال

أعلنت شركة DeepSeek الصينية الناشئة في مجال الذكاء الاصطناعي عن اعتماد نهج مبتكر يهدف إلى تحسين قدرات الاستدلال لدى النماذج اللغوية الكبيرة (LLMs)، وذلك في وقت يتزايد فيه الترقب لإصدار الجيل التالي من نماذج الشركة.

وكشفت الشركة بالتعاون مع باحثين من جامعة تسينغهوا الصينية، عن تقنية جديدة تعتمد على منهجيتين مبتكرتين أطلقت عليهما "نمذجة المكافآت التوليدية" (Generative Reward Modelling - GRM)، و"ضبط التقييم الذاتي المرتكز إلى المبادئ الذاتية" (Self-principled Critique Tuning)، بحسب ما جاء في ورقة بحثية نُشرت الجمعة، على منصة arXiv المتخصصة في الأبحاث العلمية.

وتهدف هذه المنهجية المزدوجة إلى تمكين النماذج اللغوية الكبيرة (LLMs)، من تقديم نتائج أكثر دقة وبوتيرة أسرع عند التعامل مع الأسئلة العامة.

أسلوب المكافآت

تعد نمذجة المكافآت التوليدية (Generative Reward Modeling - GRM)، طريقة لتعليم نموذج الذكاء الاصطناعي كيف يُفضّل البشر أن تكون الإجابات.

وبدلاً من أن يُقيّم الإنسان كل إجابة يعطيها النموذج، تُستخدم GRM لتدريب نموذج آخر يمكنه القيام بهذه المهمة بشكل تلقائي. هذا النموذج "الذكي" يتعلم كيف يقيّم الإجابات، ويمنحها "مكافآت" وفقاً لمدى جودتها وقربها من التفضيلات البشرية.

وتشبه الفكرة لعبة يحصل فيها الذكاء الاصطناعي على نقاط عندما يُعطي إجابات جيدة، ويفقد نقاطاً عندما يُخطئ.

وبمرور الوقت، يتعلم النموذج كيف يجيب بشكل أفضل لينال أعلى قدر ممكن من المكافآت، ما يؤدي إلى تحسين قدراته الاستدلالية وتقديمه لإجابات أكثر دقة ومواءمة لما يتوقعه المستخدم.

وأكد الباحثون أن نماذج DeepSeek-GRM الجديدة تفوقت على الطرق المعتمدة حالياً، بعدما "حققت أداءً تنافسياً" مقارنة بنماذج المكافآت العامة ذات الأداء القوي.

جيل جديد

وأوضح الفريق أن تقنية "نمذجة المكافآت Award Modelling" تُعد من الأساليب المستخدمة لتوجيه النماذج اللغوية نحو تفضيلات البشر، وهي بذلك تُسهم في تعزيز جودة الاستجابات. كما أشار الباحثون إلى أن الشركة تخطط لإتاحة نماذج GRM مفتوحة المصدر، لكنها لم تحدد موعداً زمنياً لذلك حتى الآن.

وجاءت هذه الورقة البحثية في ظل تزايد التكهنات بشأن الخطوة التالية لشركة DeepSeek، خاصة بعد أن نالت اهتماماً عالمياً واسعاً بفضل نموذجها الأساسي V3 ونموذج الاستدلال R1.

وكانت وكالة "رويترز" قد ذكرت في تقرير لها الشهر الماضي، أن الإصدار القادم، DeepSeek-R2، قد يُطرح في الأسواق خلال وقت مبكر من شهر أبريل الجاري، في إطار سعي الشركة للاستفادة من شعبيتها المتصاعدة.

وسرعان ما أثار التقرير حالة من الترقب في الأوساط التقنية العالمية، خاصة بعد أن أحدث نموذج DeepSeek-R1 ضجة واسعة لما قدّمه من أداء فعّال بتكلفة منخفضة، وهو ما جعله منافساً بارزاً لأقوى النماذج الموجودة حالياً.

لكن الشركة حافظت على صمتها إزاء التقارير التي تحدثت عن قرب إصدار R2، ولم تُصدر أي تعليق عبر قنواتها الرسمية.

وفي المقابل، أفادت وسائل إعلام صينية بأن حساب خدمة العملاء التابع لـ DeepSeek، نفى صحة هذه المعلومات ضمن مجموعة محادثة خاصة مع عملاء تجاريين.

وكانت الشركة قد أجرت في مارس الماضي، تحديثاً رئيسياً على نموذج V3 الخاص بها، إذ أطلقت الإصدار "DeepSeek-V3-0324"، والذي قالت إنه يقدّم "قدرات استدلال مُعزّزة، وتحسينات في تطوير الواجهات الأمامية لمواقع الإنترنت، فضلاً عن تعزيز كفاءة الكتابة باللغة الصينية".

وفي فبراير الماضي، فتحت الشركة 5 من مستودعاتها البرمجية لتكون مفتوحة المصدر، ما أتاح للمطورين حول العالم مراجعة الشيفرات البرمجية والمساهمة في تطويرها، مؤكدة في بيانها التزامها بـ"تحقيق تقدم حقيقي بشفافية كاملة".

مشاركاتكم (0)