تفوّقَ ChatGPT على طلابِ الأقسامِ الطبيّة في أسئلة الامتحان السريري المعقدة

كشفتْ دراسةٌ جديدةٌ أجراها باحثون في جامعة (ستانفورد) أن -ChatGPT- يمكن أن يتفوق على طلاب الطب في السنتين الأولى والثانية في الإجابة عن أسئلة امتحان الرعاية السريرية الصعبة. وتسلّط النتائج الضوء للتأثير المتسارع للذكاء الاصطناعي (Al) على التعليم الطبي والممارسة السريرية، وتقترح حاجة النهج الجديد لتعليم أطباء الغد.

يعد -ChatGPT- أشهر أنظمة الذكاء الصناعي اللغوية الضخمة التي أسرت العالم خلال الأشهر العديدة الماضية. وتُدرب الأنظمة على مجموعة كاملة من محتوى الإنترنت، وتعمل كروبوتات محادثة عبر الإنترنت، مما يسمح للمستخدمين بإدخال نصوص شبيهة بالبشر وتُنشأ تلقائيًا، ثم تلقّيها باستجابة سريعة.

وأظهرت الدراسات الحديثة أن -ChatGPT- يمكنه التعامل بنجاح مع أسئلة الاختيار من متعدد في امتحان الترخيص الطبي للولايات المتحدة (USMLE)، والتي يجب على الأطباء اجتيازها لممارسة الطب.

أراد مؤلفو جامعة ستانفورد استكشاف كيف يمكن لنظام Al التعامل مع الأسئلة الأكثر صعوبة والمفتوحة النهايات المستخدمة لتقييم مهارات التفكير السريرية لطلاب السنة الأولى والثانية في جامعة ستانفورد. إذ تكشف الأسئلة عن تفاصيل حالة مريض في مقاطع منفصلة ومفصولة بأسئلة تطلب من الطلاب أداء مهارات التفكير المنطقي مثل التوصل إلى تشخيصات محتملة.

في مقالهم المنشور حديثًا في JAMA Internal Medicine وجد الباحثون أن النموذج في المتوسط ​​سجل أكثر من أربع نقاط أعلى من الطلاب في جزء تقرير الحالة من هذا الامتحان.

يقول (إريك سترونج) طبيب مستشفى وأستاذ سريري مشارك في كلية ستانفورد للطب ومؤلف الدراسة: “لقد فوجئنا جدًا بمدى نجاح -ChatGPT- في هذه الأنواع من أسئلة الاستدلال الطبي المجاني من خلال تجاوز درجات المتقدمين البشر لهذا الاختبار”.

تقول المؤلفة المشاركة (أليسيا ديجيامارينو) مديرة تعليم ممارسة الطب للعام الثاني في كلية الطب:

“بسبب تنوّع النتائج نرى أن طبيعة التدريس واختبار الاستدلال الطبي من خلال النص المكتوب تنقلب من خلال أدوات جديدة”.

و أضافت: “إن برنامج -ChatGPT- وغيره من البرامج المشابهة يغيّر طريقة تدريس الطب وممارسته في نهاية المطاف”.

الذكاء الصناعي طالب ناجح

استخدمت الدراسة الجديدة أحدث إصدار من -ChatGPT-، يسمى GPT – 4، والذي أُصدِر في آذار/مارس 2023. وتتابع الدراسة دراسة سابقة قادها (سترونج وديجيامارينو) وتضمنت الإصدار السابق، GPT – 3.5، والذي أُصدِر بواسطة صانعها OpenAI ومقره سان فرانسيسكو، في تشرين الثاني/نوفمبر 2022.

وجَمَع باحثو جامعة ستانفورد 14 حالة تفكير سريري لكلا الدراستين. إذ تحتوي الحالات ذات أوصافٍ نصيّة التي يتراوح طولها من مئات الكلمات إلى آلاف الكلمات على عدد لا يحصى من التفاصيل الخارجية، مثل الحالات الطبية المزمنة والأدوية غير ذات الصلة، تمامًا مثل الرسوم البيانية الطبية للمرضى في الحياة الواقعية.

أثناء الامتحان يجب على المتقدمين للاختبار كتابة فقرات -إجابات طويلة- لمجموعة من الأسئلة المطروحة بعد كل تقرير حالة.

يتناقض تحليل النص وتأليف الإجابات الأصلية بهذه الطريقة مع البساطة المقارنة لأسئلة اختبار الاختيار من متعدد لاختبار USMLE. وتتكون الأسئلة من مقطع قصير واستعلام وخمس إجابات محتملة. جميع المعلومات المقدمة تقريبًا ذات صلة بالإجابة الصحيحة.

يقول سترونج: “ليس من المفاجئ جدًا أن يكون برنامج -ChatGPT- والبرامج المشابهة له جيدًا في أسئلة الاختيار من متعدد”.

وأضاف: “كل شيء يتم إخبار المتقدمين به جزء أساسي من السؤال، لذلك فهو في الغالب استدعاء للمعلومات. التلال الأصعب بكثير لتسلقها سؤال مفتوح لحرية الإجابة.”.

ومع ذلك، كانت إحدى المساعدات الصغيرة التي احتاجها -ChatGPT- قبل طرح الأسئلة القائمة على الحالة هي الهندسة السريعة؛ نظرًا لأن -ChatGPT- يعتمد على الإنترنت بالكامل، فقد لا يفسر بصورةٍ صحيحة مصطلحات الرعاية الصحية المستخدمة في الاختبار.

ومن الأمثلة على ذلك “قائمة المشكلات” التي تشير إلى المشكلات الطبية السابقة والحالية للمرضى ولكن يمكن أن تظهر في سياقاتٍ أخرى غير طبية.

بعد تعديل بعض الأسئلة، ووفقًا لذلك فقد أدخل باحثو جامعة ستانفورد المعلومات في -ChatGPT- وتسجيل ردود بوت الدردشة ونقلها إلى خريجي هيئة التدريس ذوي الخبرة. ثم قورنت درجات برنامج Al مع طلاب الطب في السنتين الأولى والثانية الذين عالجوا نفس الحالات.

يقول سترونج إنه في الدراسة السابقة كان GPT – 3.5 بمثابة تجاوز الحد في الردود. وفي الدراسة الجديدة باستخدام GPT – 4 سجل بوت الدردشة متوسط ​​4.2 نقطة أعلى من الطلاب ونشر معدلات النجاح بنسبة 93 بالمائة من الوقت مقابل 85 بالمائة للطلاب.

بالإضافة إلى أداء -ChatGPT- إلا أنه لم يكن خاليًا من العيوب. وكانت المشكلة المقلقة خاصة؛ والتي قلّت بصورةٍ ملحوظة مع GPT – 4 مقابل 3.5، هي إضافة تفاصيل خاطئة مثل المريض الذي يعاني من الحمى، في حين أنه في الواقع لم يكن المريض في دراسة حالة معينة.

وقد تنبع “الذكريات الخاطئة” التكوينية من الخلط، إذ يسحب -ChatGPT- المعلومات من حالات مماثلة.

إعادة التفكير في التعليم الطبي

فيما يتعلق بالاختبار -أخذ النزاهة وتصميم المناهج الدراسية، فإن تأثير -ChatGPT- محسوس بالفعل في كلية الطب بجامعة ستانفورد.

في الفصل الدراسي الماضي قرر مديرو المدرسة تبديل الامتحانات من الكتاب المفتوح بمعنى الوصول إلى الإنترنت إلى -ChatGPT- إلى الكتاب المغلق.

ويجب على الطلاب الآن التفكير من خلال الأسئلة القائمة بالكامل على الذاكرة. في حين أن النهج له مزاياه، فإن العيب الرئيسي كما تقول ديجيامارينو أن الاختبارات لم تعد تقيِّم قدرات الطلاب على جمع المعلومات من المصادر؛ وهي مهارة حاسمة في الرعاية السريرية.

مع الإدراك الكامل للمشكلة بدأ أعضاء هيئة التدريس والموظفون في كلية الطب في الاجتماع كمجموعة عمل تابعة ل Al. وتدرس المجموعة تحديثات المناهج التي ستدمج أدوات Al لتكملة تعليم الطلاب، وكل ذلك بهدف إعداد الأطباء المستقبليين من الناحية التربوية.

تقول ديجيامارينو: “لا نريد الأطباء الذين كانوا يعتمدون كثيرًا على Al في المدرسة لدرجة أنهم فشلوا في تعلم كيفية التفكير في القضايا بأنفسهم”.

وأضافت: “لكنني أكثر خوفًا من عالم لا يُدرب فيه الأطباء على استخدام Al بصورةٍ فاعلة، وإيجاده منتشرًا في الممارسة الحديثة.”.

ويضيف سترونج: “قد نكون على بعد عقود من أيّ شيء مثل استبدال الأطباء بالجملة”.

“لكننا على بعد سنوات قليلة فقط من الاضطرار إلى دمج الذكاء الاصطناعي في الطب اليومي.”.

  • ترجمة: روسيل حدو
  • تدقيق لغوي: غفران التميمي
  • المصادر: 1