تقنية الذكاء الاصطناعي الجديدة من مايكروسوفت تحتاج فقط لثلاث ثوانٍ من الصوت لتستنسخه

حتى أنّ VALL-E يمكنه محاكاة مشاعر المتحدث وبيئته الصوتية.

تستطيع تقنية الذكاء الاصطناعي الخاصة باستنساخ الصوت الجديدة من مايكروسوفت أن تحاكي صوت المتكلم بدقة ملحوظة، وكلّ ما تحتاجه هذه التقنية للبدء هو عينة من الكلام مدتها ثلاث ثوانٍ .

تقنية استنساخ الصوت 101: إن استنساخ الصوت لا يعتبر جديدًا، فعندما تبحث في غوغل عن هذا المصطلح ستجد لائحة طويلة من الروابط لمواقعَ، وتطبيقاتٍ تقدم لك توجيه الذكاء الاصطناعي لإنتاج صوت يشبه صوتك تمامًا، وفيما بعد تستطيع أن تستخدم النسخة المكررة لتسمع نفسك تقرأ أي نص تريده.

بالنسبة للكاتب، يمكن أن تكون هذه التقنية مفيدة لخلق نسخة صوتية محكيّة من كتابه دون أن يضطر لإضاعة أيام في استوديو التسجيل.

كما يمكن للممثل الصوتي في الوقت ذاته أن يستنسخ صوته ويستخدم ذلك لتسخير الذكاء الاصطناعي في إنجاز المشاريع التي لا يملك الوقت الكافي لتولّيها.

وعادةً ما تنتج العينات ذات المصدر الأقصر استنساخًا صوتيًّا أقل واقعية.

نجد أنه بالاعتماد على هذه الخدمة، فإنه يمكن أن تبدأ عملية استنساخ الصوت بتلاوتك ل 50 جملة محدَّدة مسقبًا أو بتحميل مقطع صوتي لك وأنت تقول أي شيء. تطلب منك بعض الخدمات ساعات من الصوت لتدريب ذكائها الاصطناعي، بينما بعضها الآخر تتباهى بحاجتها ل 5 ثوانٍ فقط.

تستطيع غالبًا أن تستخرج من خدمات الاستنساخ الصوتي هذه ما كنتَ قد أدخلته، وعادةً فإن العيّنة الأقصر تعطيك استنساخًا يبدو كأنه روبوت يحاول تقليد الإنسان، بينما في المقابل يمكن للمقاطع الطويلة أن تنتج أصواتًا اصطناعية طبق الأصل عن صوت المتكلم الأساسيّ.

باختصار نقول: تنفي تقنية استنساخ الصوت بواسطة الذكاء الاصطناعي الجديدة من مايكروسوفت، والتي تسمى أيضًا VALL-E هذه الظاهرة منتجةً صوتًا يشبه إلى حدّ كبير صوت المتحدث الأصلي بالاعتماد على عينة قصيرة من ثلاث ثوانٍ.

لا تمكّنك تقنية VALL-E أن تستنسخ صوتك الشخصي بحدّ ذاته ولكن قامت شركة مايكروسوفت بمشاركة ورقة بحث على موقع arXiv، وأنشأت صفحة على منصة Github يمكنك فيها مقارنة مقاطع من الأصوات البشرية بالكلام المُنشأ بواسطة VALL-E وتكنولوجيا استنساخ الصوت الأساسي.

تُظهر مايكروسوفت في هذه الصفحة كيفية تقليد الذكاء الاصطناعي لمشاعر المتكلم والبيئة الصوتية للعيّنة فمثلًا عندما يبدو المتكلم غاضبًا يمكن ل VALL-E توليد صوت يحوي نبرة غضب، وكمثال آخر فعندما يبدو المقطع الأصلي كأنّه مسجّل عبر الهاتف يخلق الذكاء الاصطناعي صوتًا يتناسب مع الأصداء الموجودة.

و كانت مكتبة التدريب الخاصة ب VALL-E أوسع بمئات المرات من غيرها من الأنظمة.

و عن كيفية العمل: يكون الذكاء الاصطناعي عادةً جيدًا بحسب جودة بيانات تدريبه، وقد اختارت مايكروسوفت استخدام مكتبة ميتا الصوتية، أو ما يسمى Meta’s LibriLight لتدريب نظام VALL-E مع العلم أن هذه المكتبة تحوي 60 ألف ساعة كلام من متحدثين إنجليزيين يبلغ عددهم أكثر من 7 آلاف.

و هذا يعني أنه تبعًا لورقة البحث هذه فإنّ مجموعة بيانات تدريب الذكاء الاصطناعي أكبر بمئات المرات من تلك المستخدمة لتدريب أنظمة استنساخ الصوت الموجودة.

عندما يتم تقديم صوت جديد لاستنساخه بواسطة VALL-E، فإنه يقسّم المقطع الصوتي ذا الثلاث ثوانٍ إلى بتات أو قطع تسميها مايكروسوفت < <رموزًا صوتية> >.

و باستخدام هذه الرموز مع بيانات التدريب يمكن ل VALL-E التنبؤ كيف سيبدو الصوت في الجمل الأخرى.

الأمر الأهم: أنه رجوعًا إلى قائمة نتائج بحث < < استنساخ الصوت > > فعلى الأرجح سوف تجد روابط لمقالات تفصّل كيفية استخدام الذكاء الاصطناعي لأغراض شريرة.

مثال على ذلك القرصان الالكتروني الذي قام باستنساخ صوت مدير للتحايل على موظف لتحويل أموال الشركة إلى رصيده البنكي، ويجب أن ننبّه كبار السنّ بأنه يمكن الآن للأشخاص السيئين أن يستنسخوا أصوات أحفادهم لابتزازهم بالمال من خلال ذلك.

يتناول فريق مايكروسوفت إمكانية إساءة استخدام الناس ل VALL-E في ورقة بحثهم، وتلك الأخطار يمكن تخفيفها بخلق < < نموذج اكتشاف > > قادر على تحديد فيما إذا كان المقطع أُنشئ بواسطة الذكاء الاصطناعي.

حتى لو أوجد الأفراد السيئون وسائل بأدوات معينة، فإنه على الرغم من ذلك يوجد أشخاص آخرون سيستخدمون التقنية لأغراض جيدة مثل: خلق أصوات اصطناعية لمرضى التصلب الجانبي الضموري، ومساعدة الناس في التواصل مع أحبائهم المتوفين أو حتى القيام بشيء استثنائي لا يمكننا تخيله.

  • ترجمة: ريم بدران
  • تدقيق علمي ولغوي: فريال حنا
  • المصادر: 1