أول سماعات لاسلكية تستخدم التعلم العميق في تنقية صوت المكالمات

مع تحول الاجتماعات نحو الاجتماعات عن بعد على الإنترنت خلال الحجر في أثناء وباء كوفيد 19، وجد العديد من الناس أن ثرثرة رفاقهم بالسكن وصوت شاحنات القمامة والأصوات العالية الأخرى تقاطع المحادثات المهمة.

ألهمت هذه التجربة ثلاثة باحثين من جامعة واشنطن والذين كانوا رفاق سكن في خلال الوباء لتطوير سماعات أفضل.

لتعزيز صوت المتكلم وتخفيض صوت الضجيج في الخلفية، فإن «ClearBuds» تستخدم نظام ميكروفون جديد وأحد أول أنظمة تعلم الآلة والتي تعمل في الوقت الفعلي وعلى الهاتف المحمول.

قدم الباحثون هذا المشروع في 30 يونيو/حزيران في خلال مؤتمر رابطة الحواسيب الآلية الدولي للأنظمة والتطبيقات والخدمات المحمولة.

«تتميز ClearBuds عن غيرها من السماعات اللاسلكية بطريقتين رئيسيتين»، كما أوضح المؤلف المشارك ماروتشي كيم طالب الدكتوراة في كلية بول جي آلن لعلوم الحاسوب والهندسة.

«أولًا، تستخدم ClearBuds مصفوفة ثنائية من الميكروفون، تنشئ الميكروفونات في كل سماعة تيارين متزامنين من الصوت والتي توفر المعلومات وتسمح لنا بالفصل المكاني للأصوات القادمة من مختلف الاتجاهات وبدقة عالية وثانيًا تعزز الشبكة العصبونية الخفيفة صوت المتحدث».

في حين أن السماعات التجارية تملك ميكروفونات في كل سماعة فإن سماعة واحدة فقط ترسل الصوت بفعالية بالوقت ذاته للهاتف.

مع ClearBuds فإن كل سماعة ترسل تيارًا من الصوت إلى الهاتف، صمم الباحثون بروتوكولات شبكية للبلوتوث للسماح بمزامنة هذه التيارات في غضون 70 ميكروثانية مع بعضها البعض.

تعمل خوارزمية الفريق للشبكة العصبونية على الهاتف لمعالجة تيارات الصوت، أولًا، تمنع أي أصوات غير صوتية ثم تعزل وتعزز أي ضجيج آتٍ من كلتي السماعتين.

«لأن صوت المتكلم قريب من وتقريبًا متساوٍ من السماعتين فإن الشبكة العصبونية يمكن تدريبها على التركيز على الكلام فقط وإزالة الأصوات الأخرى من الخلفية بما في ذلك أصوات الآخرين»، كما بيّن المؤلف المشارك إيشان شاترجي طالب الدكتوراة في كلية آلن.

«هذه الطريقة مشابهة جدًا لطريقة عمل أذنيك اللتان تستخدمان فرق التوقيت للأصوات القادمة للأذن اليسرى واليمنى لتحديد جهة قدوم الصوت».

عندما قارن الباحثون ClearBuds مع Apple AirPods Pro فإن ClearBuds حققت أداءً أفضل، محققةً نسبة إشارة أعلى مقارنةً بالتشويش في جميع الاختبارات.

«إنه أمرٌ استثنائي عند الأخذ بالحسبان عمل الشبكة العصبونية خلال أقل من 20 ميلي ثانية على الآيفون والذي يملك جزءًا بسيطًا من القوة الحاسوبية مقارنةً ببطاقات الرسوميات التجارية التي تستخدم بالعادة لتشغيل الشبكات العصبونية»، كما ذكر المؤلف المشارك فيفيك جايرام طالب الدكتوراه في كلية آلن.

«هذا جزءٌ من التحدي الذي كان علينا معالجته في هذه الورقة البحثية: كيف نقوم بأخذ شبكة عصبونية تقليدية ونقلل حجمها مع الحفاظ على جودة المخرجات؟».

اختبر الفريق سماعات الـClearBuds في الخارج عن طريق تسجيل صوت ثمانية أشخاص يقرأون مشروع Gutenberg في بيئات بها ضجيج كمتجر قهوة أو في شارع مزدحم.

ثم جعل الباحثون 37 شخصًا يقيّمون من 10 إلى 60 ثانية من هذه التسجيلات الصوتية.

قيّم المشاركون المقاطع الصوتية التي عُولجت من قبل الشبكة العصبونية الخاصة بـClearBuds بأنها تتمتع بأفضل حجب للضجيج وأفضل تجربة استماع بين جميع المقاطع.

السلبية الوحيدة لـClearBuds هي أنه يجب على الأشخاص ارتداء السماعتين معًا للحصول على تجربة حجب الضجيج وفقًا لما يبيّنه الباحثون.

قال الفريق أن نظام التواصل في الوقت الفعلي المطور هنا يمكن أن يكون مفيدًا في مجموعة متنوعة من التطبيقات الأخرى متضمنةً أنظمة صوت المنزل الذكي وتتبع مواقع الروبوت ومهمات البحث والإنقاذ.

يعمل الفريق حاليًا على جعل خوارزميات الشبكة العصبونية أكثر كفاءة لكي يجعلوها تعمل على الـEarbud.

  • ترجمة: علي نجوم
  • تدقيق علمي ولغوي: بهاء كاظم
  • المصادر: 1