OpenAI “ذكاء الآلة الجديد يمكنه محاكاة العوالم”

فهو يتعلم عن الفراغ ثلاثي الأبعاد بمفرده.

جذبت شركة OpenAI انتباهًا كبيرًا هذا الأسبوع بتقنيتها لتحويل النصوص إلى فيديوهات واقعية تشبه الصور، والتي تُعرف باسم سورا.

وقد عرضت الشركة بعضاً من مقاطع العينات المذهلة بشكل جدي، من ثنائي يسير في منظر طبيعي مثلج إلى كاميرا تحلق بسلاسة وهي تتبع سيارة رياضية كلاسيكية تسلك طريقها عبر طريق ترابي.

وبالتأكيد، هذا يبدو قفزة هامة بالنسبة لتقنية الذكاء الاصطناعي التوليدية وربما يمتد ذلك لمجالات أبعد من الفيديو.

في الواقع شركة Open AI تشير إلى’ سورا’ باعتبارها “محاكية للعالم” قادرة على فهم جوانب مهمة من العالم ثلاثي الأبعاد من حولنا، سواء أكان إنتاج مشهد لمنظر رقمي شبيه بالرسوم المتحركة- أو لامرأة تسير في شارع مضاء بالمصابيح ليلاً.

• كما كتبت الشركة “تقترح نتائجنا أن توسيع نماذج تكوين الفيديو هو مسار واعد نحو بناء محاكيات عامة هادفة للعالم الفيزيائي”.

“إنه يتعلم حول الهندسة ثلاثية الأبعاد والاتساق”

قال عالم وباحث سورا ‘تيم بروكس’ ل Wired. “لم نقم بتضمين ذلك بشكل مباشر – بل ظهر تمامًا من خلال رؤية الكثير من البيانات.”.

بشكل عام، تعتبر سورا تطوراً طبيعياً لنموذج محوسب منتشر، والذي استُخدم حتى الآن بشكل رئيسي لتوليد صور عالية الدقة. ببساطة، تعمل النماذج المحوسبة من خلال إضافة تدريجية للضوضاء للصورة الأصلية، ثم تتعلم تدريجياً كيفية حذف هذه الضوضاء، وبالتالي إنشاء صورة جديدة.

لتدريب سورا، قدمت شركة OpenAI كميات هائلة من الفيديوهات المختارة لتأسيس ارتباط بين لقطات الفيديو وإدخال النص.

بالإضافة إلى توليد لقطات جديدة من المدخلات، يمكن لسورا أيضاً توسيع المقاطع القائمة أو تحويل صور مولدة بوساطة الذكاء الاصطناعي إلى فيديو.

خلال تطوير سورا، لاحظ باحثو شركة OpenAI “عدداً من القدرات المثيرة التي نشأت عند توسيع التدريب بمقياس كبير.” على سبيل المثال، يمكنه “محاكاة بعض جوانب الأشخاص والحيوانات والبيئات من العالم الفيزيائي،” وفقاً لتوثيق الشركة.

تُظهر المقاطع المولدة أنّ سورا يمكنها إنتاج لقطات بتغييرات ديناميكية وانسيابية مدهشة أثناء الانتقالات بين اللقطات، مما يوضح درجة كبيرة من الفهم الظاهر للفراغ ثلاثي الأبعاد.

ويبدو أنّ الشركة تعتقد أيضاً أن هذه التقنية قد تتطور إلى منصة لألعاب الفيديو.

“وتقترح هذه القدرات أن تحجيم النماذج المستمر للفيديو سيكون مساراً واعداً نحو تطور محاكيات متقدمة للعالم الفيزيائي والرقمي والأشياء والحيوانات والأشخاص الذين يعيشون فيه”.

وذلك حسب ما أعلنته الشركة.

وفي نفس الوقت، تبقى سورا بعيدة عن الكمال. لأن الشكل لا يفهم تماماً سبب وتأثير الأحداث.

“فعلى سبيل المثال، يمكن لشخص أن يأخذ قضمة من كعكة، لكن بعد ذلك، قد لا تظهر علامة تلك القضمة على الكعكة”.

ويُظهر مقطع آخر كوباً زجاجياً تتسرب محتوياته منه دون أن يتحطم في الواقع.

وبالرغم من هذه القيود، ربما تكون سورا نظرة مبدئية لمستقبل يمكن أن يصبح فيه من المستحيل التمييز ما بين الفيديو الذي ينشئه الذكاء الاصطناعي والشيء الحقيقي.

وتدرك شركة OpenAI تماماً إمكانية سوء استخدام التقنية. ونتيجة لذلك، اختارت الشركة أن تطلق ببطئ أداة فريق الهجمات الاختراقية لتقييم المجالات الحرجة للأضرار أو المخاطر.

“سنكون حذرين جداً بشأن جميع الآثار الأمنية من أجل ذلك” حسبما قال باحث المشروع بيل بيبلز ل وايرد.

  • ترجمة: ميس معروف
  • تدقيق علمي ولغوي: حلا سليمان
  • المصادر: 1