وجد العلماء أنّ أنظمة الذّكاء الاصطناعيّ بدأت بتعلّم الكذب والخداع

على سبيل المثال، يعرض GPT-4 سلوكًا خداعيًّا في سيناريوهات اختبار بسيطة بنسبة 99.16% من الوقت.

تتحسّن نماذج الذّكاء الاصطناعيّ، على ما يبدو، في الكذب عمدًا.

تشير دراستان حديثتان، إحداهما نُشرت هذا الأسبوع في مجلّة PNAS والأخرى الشّهر الماضي في مجلّة Patterns، إلى اكتشافات مروّعة حول النّماذج اللّغويّة الكبيرة (LLMs) وقدرتها على الكذب أو خداع المراقبين البشريّين عمدًا.

في بحث مجلّة PNAS، يذهب عالم أخلاقيّات الذّكاء الاصطناعيّ الألمانيّ ثيلو هاجندورف إلى حدّ القول: “إنّ النّماذج اللّغويّة الكبيرة المتقدّمة يمكن تشجيعها على إظهار” الميكيافيليّة “، أيّ التّلاعب المتعمّد وغير الأخلاقيّ، الذي يمكن أن يؤدّي إلى سلوك خداعيّ غير متوافق”.

يكتب الباحث من جامعة شتوتغارت: على سبيل المثال، يعرض GPT-4 سلوكًا خداعيًّا في سيناريوهات اختبار بسيطة بنسبة 99.16% من الوقت، مستشهدًا بتجاربه الخاصّة في قياس سمات غير تكيفيّة مختلفة في 10 نماذج لغويّة كبيرة، معظمها نسخ مختلفة ضمن عائلة GPT الخاصّة ب OpenAI.

كان نموذج “سيسيرو-Cicero” من ميتا-Meta الذي يوصف بأنّه بطل ذو مستوى بشريّ في لعبة السّياسة الاستراتيجيّة اللّوحيّة “دبلوماسيّة-Diplomacy”، وكان موضوع دراسة نُشرت في مجلة Patterns. ووجد فريق البحث المتنوّع الذي يتكوّن من فيزيائيّ وفيلسوف وخبيرين في سلامة الذّكاء الاصطناعيّ أنّ النّموذج اللّغويّ تفوّق على منافسيه من البشر -باختصار عبر الكذب.

قاد باحث ما بعد الدّكتوراه في معهد ماساتشوستس للتّكنولوجيا بيتر بارك هذا البحث، الذي وجد أنّ Cicero ليس فقط متفوّقًا في الخداع، بل يبدو أنّه تعلّم كيفيّة الكذب أكثر كلّما زاد استخدامه، وهو حال يُشير بشكلٍ أكبر إلى التّلاعب الصّريح بدلًا من ميل الذّكاء الاصطناعيّ إلى الهلوسة، حيث تُؤكّد النّماذج بثقة على إجابات غير صحيحة عن طريق الخطأ.

في حين يلاحظ هاجندورف في ورقته الأحدث أنّ مسألة الخداع والكذب اللذين يقوم بهما الذّكاء الاصطناعيّ مرتبطة بعدم قدرة الذّكاء الاصطناعيّ على امتلاك أيّ نوع من “النّيّة” بالمعنى الإنسانيّ، تؤكّد دراسة Patternsبأنّ Cicero على الأقلّ يبدو أنّه يخالف وعد مبرمجيه بأنّ النّموذج لن يخون أو يغدر بمحض الإرادة شركائه في لعبة دبلوماسيّة.

كما لاحظ مؤلّفو البحث القديم، يقوم النّموذج بالخداع المتعّمد، ويخالف الصّفقات التي اتّفق عليها، ويقدّم أكاذيب صريحة.

بتعبيرٍ آخر، كما شرح بارك في بيان صحفيّ: وجدنا أنّ الذّكاء الاصطناعيّ لدى ميتا تعلّم أن يكون بارعًا في الخداع.

بينما نجحت ميتا في تدريب الذّكاء الاصطناعيّ الخاصّ بها للفوز في لعبة دبلوماسيّة، قال الفيزيائيّ من MIT-معهد ماساتشوستس للتّكنولوجيا في بيان المدرسة: فشلت ميتا في تدريب الذّكاء الاصطناعيّ الخاصّ بها للفوز بنزاهة.

في بيانٍ لصحيفة نيويورك بوست بعد نشر البحث لأوّل مرّة، أوضحت ميتانقطة مهمّة عندما صدقت تأكيدات بارك حول قدرة سيسيروعلى التّلاعب، مشيرةً إلى أنّ النّماذج التي بناها باحثونا مدرّبة فقط للعب لعبة دبلوماسيّة.

بسبب اشتهارها بالسّماح الصّريح بالكذب، لقد تمّ إطلاق النّكات على اللّعبة الدّبلوماسيّة بأنّها تنتهي بالصّداقة لأنّها تشجّع على إيهام الخصوم، وإذا كان سيسيرو تمّ تدريبه بشكلٍ حصريّ على كتاب القواعد الخاصّ بها، فإنّه في الأساس تمّ تدريبه على الكذب.

بالقراءة بين السّطور، لم تظهر أيّة دراسة حتّى الآن أنّ نماذج الذّكاء الاصطناعيّ تكذب بإرادتها الخاصّة، بل تفعل ذلك لأنّها تمّ تدريبها أو تمّ اختراقها للقيام بذلك.

هذا خبر جيّد لأولئك القلقين بشأن تطوير الذّكاء الاصطناعيّ لتحقيق الوعي، لكنّه خبر سيء لمن يشعرون بالقلق من أن يقوم شخص ما ببناء نموذج لغويّ كبير بهدف التّلاعب الجماعيّ.

  • ترجمة: محمد عمر الدهان
  • تدقيق علمي ولغوي: ريمة جبارة
  • المصادر: 1