بيان المنظمة الآثورية الديمقراطية بمناسبة يوم الشهيد الآشوري      بطريركية كنيسة المشرق الاشورية تستذكر يوم الشهيد الاشوري      مكتب العلاقات الوطنية لتيار الحكمة يعرب عن تضامنه مع المسيحيين في ذكرى ازمة التهجير      هجمات وحشية على المسيحيين في موزمبيق      نيجيرفان بارزاني في يوم الشهيد الآشوري: كوردستان ستبقى إلى الأبد موطناً ووطناً للجميع      بيان المجلس الشعبي الكلداني السرياني الاشوري في ٧ آب ذكرى يوم الشهيد      الاتحاد السرياني الأوروبي يحيي الذكرى الحادية عشرة لغزو د1عش لسهل نينوى ويطالب بالاعتراف العالمي بالإبادة الجماعية      بمناسبة الذكرى الـ11 لمأساة التهجير القسريّ لمسيحيّي الموصل وبلدات سهل نينوى، غبطة البطريرك ساكو يدعو الحكومة العراقيّة إلى حماية المسيحيّين وصون حقوقهم      بيان صادر عن مجلس إدارة منتدى آشور الدولي في يوم الشهيد الآشوري      محافظ نينوى يستقبل سيادة المطران موسى الشماني ويؤكد دعم الحكومة المحلية لعودة المسيحيين      انتخابات "تحت الأجنحة": المرشحين الفرديين انخفضوا من 25% الى 0.09%.. هل "تنقرض" فكرة المستقل؟      ترامب يعلن استضافة "قمة سلام تاريخية" بين أرمينيا وأذربيجان      محكمة أميركية توقف قرار ترامب بشأن حرمان أطفال المهاجرين من الجنسية      المجلس الأمني الإسرائيلي المصغر يوافق على احتلال غزة      فرنسا ترحّب بقرار لبنان "الشجاع والتاريخي" نزع سلاح حزب الله      الأنظار تتجه لمسرح شاتليه.. من سيفوز بالكرة الذهبية؟      اكتشاف مركب طبيعي يحارب تسوس الأسنان.. ومفاجأة عن الشاي      أسقف هيروشيما يدعو إلى إماطة اللثام عن الطبيعة اللاإنسانية للسلاح النووي      كنيسة الأقيصر... شاهد صامت على جذور المسيحيّة المشرقيّة      البستنة.. دواء طبيعي يوازن الهرمونات ويقاوم الاحتراق النفسي
| مشاهدات : 552 | مشاركات: 0 | 2025-08-07 08:53:50 |

يستوعب المشاعر والمعاني العميقة.. شاومي تكشف عن نموذج ذكي لإنشاء الأصوات

شعار شركة "شاومي" الصينية خارج أحد المحال في مدينة مومباي الهندية. 11 مايو 2022 - REUTERS

 

عشتارتيفي كوم- الشرق/

 

أعلنت شركة شاومي عن نموذجها الصوتي الذكي الجديد مفتوح المصدر MiDashengLM‑7B، في خطوة نوعية تهدف إلى تعزيز البنية التقنية لمنصاتها في السيارات الكهربائية والأجهزة المنزلية الذكية، وذلك كامتداد مباشر لنموذجها الصوتي الأساسي Xiaomi Dasheng. 

وبحسب ما نشرته الشركة عبر شبكة ويبو الصينية، يأتي MiDashengLM‑7B كمحصلة لتطور كبير في تقنيات فهم الصوت، حيث يستند إلى معمارية صوتية متقدمة تعتمد على منصة Xiaomi Dasheng كمُشفر صوتي، إلى جانب نموذج Qwen2.5-Omni‑7B كوحدة فك ترميز يُعتمد عليها لتقديم تجربة متكاملة تتيح للنموذج فهم الكلام والأصوات البيئية والموسيقى بفاعلية موحدة. 

ويعتمد النموذج على استراتيجيات تدريب مبتكرة تعيد توصيف المشاهد الصوتية بطرق متطورة، مما يمكّنه من التقاط المعاني العميقة للمحتوى السمعي، بما يشمل مشاعر المتحدث والصدى المكاني وغيرها من الخصائص الصوتية الدقيقة التي تعجز نماذج تحويل الصوت التقليدية عن اكتشافها.

وقد أظهر النموذج تفوقاً ملموساً في اختبارات الأداء على 22 مجموعة مراجعة عامة في مجالات متعددة، مثل مهام وصف الصوت، وفهم الصوت، والأسئلة والإجابات الصوتية، والتعرف على الكلام.

وحقق زمن استجابة للرمز الأول في الاستدلال الأحادي لا يتجاوز ربع زمن النماذج المتقدمة الأخرى، مع قدرة معالجة متزامنة تزيد بنحو 20 ضعفاً عند العمل تحت نفس حجم الذاكرة الرسومية، مما يمنح نموذج شاومي تفوقاً في الأداء.

معالجة صوتية دقيقة

وأظهر النموذج الجديد تفوقاً واضحاً في معايير X-ARES، متجاوزاً نماذج مثل Whisper وKimi-Audio من حيث الفهم العام، خاصة في المهام غير المرتبطة بالكلام. 

ويستخدم Dasheng كذلك في مهام توليد الصوت مثل تقنيات إزالة الضجيج والتعزيز السمعي، وقد تم بالفعل دمج نموذج Dasheng-Denoiser  ضمن مؤتمرات دولية مثل Interspeech 2025، حيث يتم تحويل التمثيلات الصوتية المستخرجة من الكلام المليء بالضوضاء إلى صوت نقي باستخدام تقنيات ترميز موجهة وشبكات استعادة صوت متقدمة.

من حيث الكفاءة الحسابية، يتفوق MiDashengLM في سرعة الاستدلال، حيث يمكنه، على سبيل المثال، معالجة دفعات تصل إلى 512 عينة صوتية بطول 30 ثانية ضمن بيئة ذاكرة 80 جيجابايت، في حين تعاني نماذج أخرى من تجاوز الذاكرة عند وصولها إلى دفعات بحجم 16 عينة صوتية فقط. 

وقد ساعد هذا الأداء على تقليل معدل الإطارات الخارجة من المشفر الصوتي من 25 هرتز إلى 5 هرتز، مما أدى إلى انخفاض كبير في القوة الحاسوبية المطلوبة بنسبة وصلت إلى 80%.

أما على مستوى البيانات، فقد بُني النموذج بالكامل باستخدام بيانات عامة المصدر بنسبة 100%، بواقع 1.1 مليون ساعة موزعة على مجالات متعددة تشمل التعرف على الكلام، وفهم الأصوات المحيطية، وتحليل الموسيقى، والسلوكيات الصوتية غير الكلامية، والمهام التفاعلية القائمة على الأسئلة والأجوبة.

وتكمن قوة نموذج MiDashengLM في التغيير الجذري بطريقة معالجة البيانات الصوتية، إذ تم التخلي عن أساليب تحويل الكلام التقليدية (ASR) لصالح آليات محاذاة وصفية شاملة تدمج كل أنواع المحتوى السمعي، بما في ذلك الأصوات البيئية والموسيقية، مما سمح بتقليل فقدان البيانات المفيدة، والذي كانت تتسبب فيه تقنيات ASR بنسبة تصل إلى 90%.

ويمتلك النموذج إمكانات واسعة التطبيق، منها تقديم تعليقات مخصصة للمستخدمين أثناء التدريب الصوتي أو تعلم اللغات الأجنبية، وتقديم ملاحظات فورية أثناء قيادة السيارة، إلى جانب استخدامه كمساعد ذكي للإجابة على الأسئلة المتعلقة بالأصوات البيئية. 

كما تخطط شاومي لتوسيع هذا النموذج نحو دعم العمل غير المتصل بالإنترنت على الأجهزة الطرفية، مع تعزيز قدرات التحرير الصوتي استنادًا إلى أوامر اللغة الطبيعية.

وإلى جانب تفوقه التقني، يتسم النموذج بشفافية كاملة، حيث كشفت شاومي عن كافة تفاصيل البيانات المستخدمة، بما في ذلك نسب التوزيع لـ77 مصدراً، وتفاصيل المراحل التدريبية من مرحلة التهيئة الأولية للمشفر الصوتي إلى الضبط النهائي للأوامر. 

وقد أُصدر النموذج برخصة Apache 2.0، ما يتيح دمجه في المنتجات التجارية أو استخدامه في البحث العلمي بحرية تامة، كما دعت الشركة الصينية مجتمع المطورين للمشاركة في تطويره عبر منصة GitHub ضمن فلسفة الانفتاح والشفافية والمجتمع التعاوني.

 










أربيل - عنكاوا

  • رقم الموقع: 07517864154
  • رقم إدارة القناة: 07504155979
  • البريد الألكتروني للإدارة:
    [email protected]
  • البريد الألكتروني الخاص بالموقع:
    [email protected]
جميع الحقوق محفوظة لقناة عشتار الفضائية © 2007 - 2025
Developed by: Bilind Hirori
تم إنشاء هذه الصفحة في 0.4460 ثانية