الذكاء الاصطناعي يتعلم الربط بين الصوت والصورة من دون تدخل بشري

نموذج ذكاء اصطناعي جديد يربط الصوت بالصورة بدقة من دون الحاجة الى تدخل بشري.

المصدر: لندن - "النهار"

الذكاء الاصطناعي يتعلم الربط بين الصوت والصورة من دون تدخل بشري

صورة تعبيرية

طور باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) نموذجاً جديداً للذكاء الاصطناعي قادراً على فهم العلاقة بين الصوت والصورة في مقاطع الفيديو من دون الحاجة إلى بيانات معنونة أو تدخل بشري. النموذج يُعرف باسم CAV-MAE Sync، ويمثل خطوة مهمة نحو تطوير أنظمة ذكية تتفاعل مع العالم كما يفعل البشر.

يعتمد هذا النموذج على تقنيات تعلم متعددة الوسائط، بحيث يعالج المعلومات السمعية والبصرية بشكل متزامن. وخلافاً للنماذج السابقة التي كانت تربط الصوت والصورة كمجموعة واحدة، يميز النموذج الجديد كل جزء صوتي على حدة ويربطه بالإطار البصري الموافق له، مما يسمح بفهم دقيق للتزامن بين الحدثين.

جرى تعزيز أداء النموذج من خلال دمج هدفين تعليميين: الأول يركز على التمييز بين المشاهد المتشابهة، والآخر على استرجاع التفاصيل الدقيقة. ولتحقيق ذلك، أدخل الباحثون تمثيلات رمزية جديدة تسمح للنموذج بالتعامل مع كل مهمة بكفاءة واستقلالية أكبر.

أثبت CAV-MAE Sync تفوقه في مهمات تصنيف المشاهد السمعية-البصرية واسترجاعها، مثل ربط صوت طائرة تقلع أو آلة موسيقية تُعزف بالصورة المطابقة. كما تفوق على نماذج أكثر تعقيداً رغم استخدامه بيانات تدريب أقل.

هذا التطور قد يُستخدم مستقبلاً في مجالات متعددة، منها الروبوتات والتطبيقات الإعلامية، وقد يمهد الطريق لدمج النص والصوت والصورة ضمن نماذج لغوية ذكية متعددة الوسائط.