تنفذ بيانات التدريب من شركات الذكاء الاصطناعي AI

تلعب البيانات دورًا رئيسيًا، إذا لم تكن هي الجزء المهم، في اقتصاديات الذكاء الاصطناعي AI، إذ تعتبر هذه البيانات الجزء الفعّال لنموذج الذكاء الاصطناعي في كلٍّ من الأداء الأساسي والجودة، وكلما زادت طبيعية البيانات التي يتدرب عليها نظام الذكاء الاصطناعي (كتلك التي من صنع البشر)، كلما أصبح النظام أفضل.

ولكن لسوء حظ شركات الذكاء الاصطناعي، تبين أن البيانات الطبيعية ذات مصدر محدود، وحذّر الباحثون بأنهم سيكونون في مأزق إذا ما جف مصدر هذه البيانات.

في مقال لها في شبكة The Conversation، ذكرت ريتا ماتوليونيت Rita Matulionyte، أستاذة قانون تقنية المعلومات في جامعة ماكوري في أسترالياMacquarie University، أن الباحثون دقوا أجراس الإنذار بشأن تضاؤل إمدادات البيانات منذ ما يقرب من عام. إذ قدّرت إحدى الدراسات التي نفذها هؤلاء في عام 2022 لمنظمة AI forecasting organization Epoch AI بأن شركاتالذكاء الاصطناعي يمكن أن تنفذ منها بيانات التدريب النصية عالية الجودة بحلول عام 2026, بينما يمكن أن تجف آبار البيانات منخفضة الجودة من الصور والنصوص الكتابية في أي وقت بين 2030 و2060.

إنه وضع محفوف بالمخاطر نظرًا لحجم البيانات التي يحتاجها نظام الذكاء الاصطناعي للعمل والتطور. لقد تطورت نماذج الذكاء الاصطناعي بشكل كبير، إذ زوّد المطورون تلك النماذج بالمزيد والمزيد من البيانات، وإذا تراجع هذا التزويد بالبيانات، فإن قدرات النماذج ستتراجع كذلك، وربما الصناعة نفسها.

على الرغم من أن Matulionyte عرضت استخدام البيانات الصناعية synthetic data أو البيانات التي ينتجها الذكاء الاصطناعي لتدريب النماذج الجديدة كتقنيّة محتملة لتخفيف العبء على شركات الذكاء الاصطناعي الجائعة للبيانات، لكن هذا الحل ليس فعّالًا أيضًا. فمن الناحية الفعلية، إن استخدام محتوى اصطناعي يمكنه أن يحطم نموذج معين من الذكاء الاصطناعي بالكامل، فقد أظهرت بعض الأبحاث أن تدريب نماذج الذكاء الاصطناعي على محتوى أنتجه الذكاء الاصطناعي نفسه يمكن أن يكون له تأثير مشابه لتأثير زواج الأقارب عند البشر، حيث ينتج عنه تشوه ونتائج غير طبيعية، مع قلة تباين في مجموعة البيانات. ومع ذلك، أشارت Matulionyte أن بعض الشركات قد بدأت بالفعل تجاربها مع مجموعات التدريب الاصطناعي.

في الوقت الحالي، ربما تكون شراكة البيانات أفضل حل فعلي لهذه المشكلة التي تلوح في الأفق، باستثناء مزارع المحتوى البشري التي نقوم فيها نحن المخلوقات الكربونية بالنقر والنقر لنغذي عطش البيانات الذي لا نهاية له لأسيادنا الروبوتات. إذ تعقد شركة أو مؤسسة تمتلك مجموعة كبيرة من البيانات المطلوبة عالية الجودة صفقة مع شركة الذكاء الاصطناعي لتقديم تلك البيانات، على الأرجح مقابل المال.

تشير مدونة نُشرت مؤخرًا على موقع شركة OpenAI الرائدة في مجال الذكاء الاصطناعي وموقعها وادي السيلكون، والتي أطلقت شراكة بيانات جديدة في الأسبوع الماضي، إلى أن «تقنيات الذكاء الاصطناعي تتعلم المهارات من جوانب عالمنا، ودوافع وتفاعلات البشر والطريقة التي نتواصل بها، لفهم البيانات التي تتدرب عليها». واستمرت المدونة بالقول: «تهدف شراكة البيانات إلى مساعدة المزيد من المنظمات في قيادة مستقبل الذكاء الاصطناعي، والاستفادة من النماذج المفيدة لهم، من خلال إضافة المحتوى الذي يهتمون به».

ربما تكون شراكة البيانات ليست أفضل طريقة للعمل بها، باعتبار أن معظم مجموع البيانات التي تستخدم في تدريب نظام الذكاء الاصطناعي مصنوعة من خربشة بيانات الإنترنت، والتي في الأصل جميعنا نحن المتواجدين على الإنترنت السبب في إنشائها. ولكن مع تزايد قيمة البيانات، سيكون من المثير للاهتمام بالتأكيد معرفة عدد شركات الذكاء الاصطناعي التي يمكنها التنافس فعليًا على مجموعات البيانات، ناهيك عن عدد المؤسسات أو الأفراد المستعدين لإرسال بياناتهم الشخصية إلى ثقب الذكاء الاصطناعي الأسود في المقام الأول.

ولكن حتى ذلك الحين، ليس هناك ما يضمن أن تلك الآبار من البيانات لن تجف أبدًا. فعلى الرغم من أن الإنترنت يبدو لانهائيًا، إلا إن القليل من الأشياء ليس لها نهاية فعليًا.

  • ترجمة: عمران كاظم حسين
  • تدقيق علمي ولغوي: عبير ياسين
  • المصادر: 1