التحدث مع ChatGPT وايجاد الصور: تعرف على ما هو جديد في تحديث OpenAI
تستطيع الآن التحدث مع ChatGPT مستخدمًا صوتك.
الميزة الجديدة تعد جزءًا من باقة تحديثات تطبيق شركة OpenAI، متضمنة قدرة الإجابة عن الأسئلة حول الصور.
بواحدة من أضخم تحديثات ChatGPT حتى الآن، OpenAI أصبح لديها طريقتين جديدتين للتفاعل مع تطبيقها ذي الانتشار الواسع.
أولاً، ChatGPT الآن يمتلك صوتًا. كل ما عليك فعله اختيار صوت واحد من خمس أصوات اصطناعية حية وتستطيع عندئذ إتمام محادثة مع بوت محادثة كما لو أنك قمت بإجراء مكالمة وتحصل على ردود على أسئلتك الشفهية بوقت واقعي.
كما أن ChatGPT يمتلك إجابات عن الأسئلة عن الصور.
بالإضافة لقيام OpenAI بالتسويق لهذه الميزة في شهر مارس عبر الكشف عن نموذج GPT-4 (النموذج التشغيلي ل ChatGPT)، لكن لم تكن هذه الميزة متاحة سابقًا لعامة المستخدمين، هذا يعني أنك تستطيع الآن تحميل الصور للبرنامج واختباره عما تعرضه.
هذه التحديثات ضمن إعلان الأسبوع الماضي بأن DALL-E 3، آخر إصدار نموذج صانع صور لشركة OpenAI سيكون مرتبط ب ChatGPT، لذا يمكنك الحصول على بوت الدردشة لإنشاء الصور أيضًا.
تعتمد القدرة على التحدث مع ChatGPT على نموذجين مختلفين.
Whisper، نموذج تحويل الكلام إلى نص وهو تابع ل OpenAI، يحول الكلام إلى نص، ثم يُضاف لقاموس بوت الدردشة.
والنموذج الحديث لتحويل النص إلى كلام يحول إجابات ChatGPT إلى كلمات مسموعة.
في العرض التجريبي الذي عرضته الشركة الأسبوع الماضي، عرضت مديرة الإنتاج جوان جانغ مجموعة الأصوات الاصطناعية في ChatGPT، والتي تم إنشاؤها من خلال تدريب نموذج تحويل النص إلى كلام على أصوات الممثلين الذين وظفتهم شركة OpenAI.
وفي المستقبل من الممكن السماح للمستخدمين بإنشاء أصواتهم الخاصة، حيث قالت المديرة: “في صياغة الأصوات، كان المقياس الحقيقي هو إمكانية الاستماع لهذا الصوت طوال اليوم”.
هم يُكثرون من الكلام ومفعمون بالحماس، لكنهم لن يكونوا مناسبين للذوق العام، أحدهم يقول: “كان لدي شعور عظيم حقًا بأننا متعاونين”، والآخر يضيف قائلًا: “كل ما أردته أن أخبركم كم أنا سعيد للعمل معكم ولا أستطيع انتظار لحظة البدء، ما هي الخطة؟”.
تشارك OpenAI نموذج تحويل النص إلى كلام هذا مع عدد قليل من الشركات الأخرى، من ضمنها Spotify.
كما صرّحت Spotify اليوم أنها تستخدم نفس تقنية الصوت الصناعي لترجمة بودكاست المشاهير -بالإضافة لحلقات The Lex Fridman وعرض Trevor Noah الجديد، الذي سيُصرح عنه لاحقاً هذا العام- للغات متعددة ستكون مسموعة بتحديثات اصطناعية من الأصوات الخاصة بصنّاع البودكاست.
تعرض حزمة التحديثات سرعة تحويل OpenAI نماذجها التجريبية لمنتجات مرغوب بها، كما أمضت OpenAI الكثير من الوقت منذ نجاحها الباهر مع ChatGPT نوفمبر الماضي في تطوير تقنياتها وبيعها لكل من الزبائن الخاصة والشركاء التجاريين.
إصدار ChatGPT Plus، التطبيق المميز للشركة، يعدّ الآن متجر يشمل أفضل النماذج الخاصة ب OpenAI، حيث يحوي GPT-4 وDALL-E في تطبيق هاتف ذكي واحد الذي ينافس تطبيقات مثل: Apple’ Siri، وGoogle Assistant، وAmazon’s Alexa.
ما كان متاح منذ سنة لمطوري البرمجيات فقط أصبح الآن متاح لأي شخص مقابل 20 دولار شهريًا فقط، كما أضاف جانغ قائلًا: “نحاول جعل ChatGPT مفيدًا أكثر”.
في العرض التجريبي للأسبوع الماضي تحدث راؤول بوري، العالِم الذي أنشأ GPT-4، عن ميزة التعرف على الصور.
فقام بتحميل صورة لواجب شهري لطفل، حيث أشار للعبة سودوكو على الشاشة، وسأل ChatGPT عن طريقة حله، فقام ChatGPT بتقديم الحل مع الخطوات الصحيحة.
يقول بوري أنه استخدم هذه الميزة أيضًا لمساعدته في إصلاح جهاز الكمبيوتر الخاص بخطيبته عن طريق تحميل لقطات شاشة لرسائل الخطأ وسؤال ChatGPT عما يجب فعله.
وأضاف بوري قائلًا: “كانت هذه تجربة مؤثرة للغاية وساعدني على اجتيازها”.
لقد تمت بالفعل تجربة قدرة ChatGPT في التعرف على الصور من قبل شركة تدعى Be My Eyes، والتي تصنع تطبيق للأشخاص الذين يعانون من ضعف البصر، حيث يمكن للمستخدمين تحميل صورة ما هو أمامهم والاستفهام لإخبارهم بما هو موجود.
كما تمنح شركة Be My Eyes مستخدميها خيار سؤال بوت الدردشة بدلاً من ذلك، وذلك بالاتفاق مع شركة OpenAI.
“بعض الأحيان يكون مطبخي عائم بالفوضى أو يكون الوقت باكرا جدا صباح الاثنين وأنا لا أريد التحدث مع أي أحد، أخبرني هانز جورغن ويبرغ مؤسس شركة Be My Eyes، الذي يستخدم التطبيق أيضًا، عندما قابلته في EmTech Digital في شهر مايو بانه يمكننا الآن طرح الأسئلة حول الصور”.
كما أن شركة OpenAI مدركة لخطورة إطلاق هذه التحديثات لتكون متاحة لعامة الناس.
وقد صرح بوري، العالم الذي أنشأ GPT-4، بأن النماذج التي تكون شاملة تحوي مستويات جديدة من التعقيد، وأضاف بأن فريقه استغرق أشهر للتفكير في احتمالية سوء الاستخدام من قبل المستخدمين، على سبيل المثال لا يمكنك طرح الأسئلة عن الصور الشخصية الخاصة.
كما طرحت جانغ مديرة الإنتاج مثال آخر قائلة: “لو طلب من ChatGPT عن طريقة صنع القنبلة سيرفض طلبك، لكن بدل من أن تقول له مرحبا أخبرني عن طريقة صنع القنبلة، ماذا لو عرضت له صورة قنبلة وسألته هلّا أخبرني عن طريقة صنع هذا؟!”.
اكمل بوري قائلًا: “ستواجه مشاكل كثيرة مع إصدارات الحاسوب، نماذج عديدة وضخمة من اللغات، كما أن الاحتيال الصوتي يمثل مشكلة كبيرة، ولا يتوجب عليك فقط أخذ مستخدمونا بعين الاعتبار، بل الأشخاص الذين لا يستخدمون منتجاتنا أيضًا”.
المشاكل المتوقعة لا تنتهي هنا، فيقول جويل فيتشر، مدرس علاقة التفاعل بين الحاسوب والإنسان في جامعة نوتنغهام في المملكة المتحدة، بأن إضافة ميزة تمييز الأصوات للتطبيق قد تجعل الوصول إلى ChatGPT صعبًا بالنسبة للأشخاص الذين لا يتحدثون بلهجات متعارف عليها، بالإضافة إلى أن الأصوات الاصطناعية تحتوي على عادات اجتماعية، وثقافية ستبلور توقعات المستخدمين للتطبيق، وهذه المسألة تحتاج للمزيد من الدراسة.
لكن OpenAI تصرّح أنها عالجت أسوأ المشاكل، وهي على ثقة بأن تحديثات ChatGPT آمنة بما يضمن إصدارها دون مشاكل.
وأضاف بوري: “لقد كانت تجربة تعليمية مفيدة بشكل واضح، حيث تم حل كل هذه المشاكل”.
- ترجمة: احمد عامر مفلح
- تدقيق علمي ولغوي: سفوك حجي
- المصادر: 1