الذكاء الاصطناعي يتعلم الربط بين الصوت والصورة من دون تدخل بشري

الذكاء الاصطناعي يتعلم الربط بين الصوت والصورة من دون تدخل بشري

نموذج ذكاء اصطناعي جديد يربط الصوت بالصورة بدقة من دون الحاجة الى تدخل بشري.
الذكاء الاصطناعي يتعلم الربط بين الصوت والصورة من دون تدخل بشري
صورة تعبيرية
Smaller Bigger

طور باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) نموذجاً جديداً للذكاء الاصطناعي قادراً على فهم العلاقة بين الصوت والصورة في مقاطع الفيديو من دون الحاجة إلى بيانات معنونة أو تدخل بشري. النموذج يُعرف باسم CAV-MAE Sync، ويمثل خطوة مهمة نحو تطوير أنظمة ذكية تتفاعل مع العالم كما يفعل البشر.

يعتمد هذا النموذج على تقنيات تعلم متعددة الوسائط، بحيث يعالج المعلومات السمعية والبصرية بشكل متزامن. وخلافاً للنماذج السابقة التي كانت تربط الصوت والصورة كمجموعة واحدة، يميز النموذج الجديد كل جزء صوتي على حدة ويربطه بالإطار البصري الموافق له، مما يسمح بفهم دقيق للتزامن بين الحدثين.

جرى تعزيز أداء النموذج من خلال دمج هدفين تعليميين: الأول يركز على التمييز بين المشاهد المتشابهة، والآخر على استرجاع التفاصيل الدقيقة. ولتحقيق ذلك، أدخل الباحثون تمثيلات رمزية جديدة تسمح للنموذج بالتعامل مع كل مهمة بكفاءة واستقلالية أكبر.

 

 

أثبت CAV-MAE Sync تفوقه في مهمات تصنيف المشاهد السمعية-البصرية واسترجاعها، مثل ربط صوت طائرة تقلع أو آلة موسيقية تُعزف بالصورة المطابقة. كما تفوق على نماذج أكثر تعقيداً رغم استخدامه بيانات تدريب أقل.

هذا التطور قد يُستخدم مستقبلاً في مجالات متعددة، منها الروبوتات والتطبيقات الإعلامية، وقد يمهد الطريق لدمج النص والصوت والصورة ضمن نماذج لغوية ذكية متعددة الوسائط.

الأكثر قراءة

المشرق-العربي 12/30/2025 9:09:00 AM
العميد أحمد الدالاتي قائد أمن ريف دمشق تابع بشكل مباشر قضية حمزة
المشرق-العربي 12/30/2025 5:55:00 PM
إطلاق نار كثيف قرب قصر الشعب والمزّة 86 في دمشق، مع أنباء غير مؤكدة عن عملية اغتيال.
المشرق-العربي 12/30/2025 8:12:00 PM
شقيق أبو عبيدة يكشف تفاصيل عن اشتباك خاضه الناطق السابق باسم القسام في شمال غزة
المشرق-العربي 12/30/2025 11:15:00 PM
المرصد السوري يرد على نفي الرئاسة السورية لاطلاق نار في محيط قصر الشعب