العالم ينبض من البيانات اللازمة لتغذية الذكاء الاصطناعي، وخبراء يحذرون!
مع وصول الذكاء الاصطناعي (AI) إلى ذروته الشعبية، حذّر الباحثون من أن الصناعة قد تنفد من بيانات التدريب، الوقود الذي يدير أنظمة الذكاء الاصطناعي القوية. فقد يؤدي هذا إلى إبطاء نمو نماذج الذكاء الاصطناعي، وخاصة نماذج اللغات الكبيرة، وربما يغيّر مسار ثورة الذكاء الاصطناعي.
ولكن لماذا يشكل النقص المحتمل في البيانات مشكلة، مع الأخذ في الاعتبار حجم البيانات المتاحة على شبكة الإنترنت؟ وهل هناك طريقة لمعالجة الخطر؟
ولماذا تعد البيانات عالية الجودة مهمة للذكاء الاصطناعي؟
نحن في حاجك إلى الكثير من البيانات لتدريب خوارزميات الذكاء الاصطناعي القوية والدقيقة وعالية الجودة.
على سبيل المثال، دُرِّب Chat GPT على 570 غيغابايت من البيانات النصية، أو حوالي 300 مليار كلمة.
وبالمثل، دُرِّبت خوارزمية النشر المستقر (التي تقف وراء العديد من تطبيقات الذكاء الاصطناعي لتوليد الصور مثل DALL-E وLensa وMidjourney) على مجموعة بيانات LIAON-5 B التي تتكون من 5.8 مليار زوج من الصور والنصوص. وإذا دُرِّبت الخوارزمية على كمية غير كافية من البيانات، فسوف تنتج مخرجات غير دقيقة أو منخفضة الجودة.
جودة بيانات التدريب مهمة أيضًا. فمن السهل الحصول على البيانات منخفضة الجودة، مثل منشورات وسائل التواصل الاجتماعي أو الصور الفوتوغرافية الباهتة، ولكنها ليست كافية لتدريب نماذج الذكاء الاصطناعي عالية الأداء.
قد يكون النص المأخوذ من منصات التواصل الاجتماعي متحيزًا أو مجحفًا، أو قد يتضمن معلومات مضللة أو محتوى غير قانوني يمكن أن يكرره النموذج. على سبيل المثال، عندما حاولت مايكروسوفت تدريب روبوت الذكاء الاصطناعي الخاص بها باستخدام محتوى تويتر، تعلمت إنتاج مخرجات عنصرية ومعادية للنساء؛ ولهذا السبب يبحث مطورو الذكاء الاصطناعي عن محتوى عالي الجودة مثل النصوص من الكتب، والمقالات عبر الإنترنت، والأوراق العلمية، ويكيبيديا، وبعض محتويات الويب التي تمت تصفيتها.
وقد دُرِّب مساعد Google على 11000 رواية رومانسية مأخوذة من موقع النشر الذاتي Smash words لجعله أكثر حوارية.
هل لدينا بيانات كافية؟
تعمل صناعة الذكاء الاصطناعي على تدريب أنظمة الذكاء الاصطناعي على مجموعات بيانات أكبر من أي وقت مضى، ولهذا السبب لدينا الآن نماذج عالية الأداء مثل Chat GPT أو DALL-E 3. وفي الوقت نفسه، تظهر الأبحاث أن مخزونات البيانات عبر الإنترنت تنمو بشكل أبطأ بكثير من مجموعات البيانات المستخدمة لتدريب الذكاء الاصطناعي.
في بحث نُشر العام الماضي، توقع مجموعة من الباحثين أننا سوف ننفد من البيانات النصية عالية الجودة قبل عام 2026 إذا استمرت اتجاهات التدريب الحالية على الذكاء الاصطناعي. كما قدروا أيضًا أنه ستنفد البيانات اللغوية منخفضة الجودة في وقت ما بين عامي 2030 و2050، وبيانات الصور منخفضة الجودة بين عامي 2030 و2060.
يمكن أن يساهم الذكاء الاصطناعي بما يصل إلى 15.7 تريليون دولار أمريكي (24.1 تريليون دولار أسترالي) في الاقتصاد العالمي بحلول عام 2030، وفقًا لمجموعة المحاسبة والاستشارات PwC. لكن نفاد البيانات القابلة للاستخدام قد يؤدي إلى إبطاء تطورها.
هل يجب أن نقلق؟
في حين أن النقاط المذكورة أعلاه قد تثير قلق بعض محبي الذكاء الاصطناعي، إلا أن الوضع قد لا يكون سيئًا كما يبدو. هناك العديد من الأشياء المجهولة حول كيفية تطور نماذج الذكاء الاصطناعي في المستقبل، إضافة إلى بعض الطرائق لمعالجة مخاطر نقص البيانات.
إحدى الفرص المتاحة لمطوري الذكاء الاصطناعي هي تحسين الخوارزميات حتى يتمكنوا من استخدام البيانات المتوفرة لديهم بالفعل بشكل أكثر كفاءة.
ومن المحتمل أن يتمكنوا في السنوات القادمة من تدريب أنظمة الذكاء الاصطناعي عالية الأداء باستخدام بيانات أقل، وربما قوة حسابية أقل. وهذا من شأنه أن يساعد أيضًا في تقليل البصمة الكربونية للذكاء الاصطناعي.
هناك خيار آخر وهو استخدام الذكاء الاصطناعي لإنشاء بيانات تركيبية لتدريب الأنظمة. بمعنى آخر، يمكن للمطورين ببساطة إنشاء البيانات التي يحتاجون إليها، وتنسيقها لتناسب نموذج الذكاء الاصطناعي الخاص بهم.
تستخدم العديد من المشاريع بالفعل محتوى اصطناعيًا، وغالبًا ما يحصلون عليه من خدمات توليد البيانات مثل Mostly AI. وسوف يصبح هذا أكثر شيوعا في المستقبل.
يبحث المطورون أيضًا عن محتوى خارج المساحة المجانية عبر الإنترنت، مثل المحتوى الذي يحتفظ به كبار الناشرين والمستودعات غير المتصلة بالإنترنت. فكر في ملايين النصوص المنشورة قبل الإنترنت. وإذا أصبحت متاحة رقميًا، فيمكن أن توفر مصدرًا جديدًا للبيانات لمشاريع الذكاء الاصطناعي.
قالت News Corp، وهي واحدة من أكبر مالكي المحتوى الإخباري في العالم (والتي لديها الكثير من محتواها خلف نظام حظر الاشتراك غير المدفوع)، مؤخرًا إنها تتفاوض بشأن صفقات المحتوى مع مطوري الذكاء الاصطناعي. مثل هذه الصفقات من شأنها أن تجبر شركات الذكاء الاصطناعي على الدفع مقابل بيانات التدريب، في حين أنها قامت في الغالب بإزالتها من الإنترنت بشكل مجاني حتى الآن.
احتج منشئو المحتوى على الاستخدام غير المصرح به للمحتوى الخاص بهم لتدريب نماذج الذكاء الاصطناعي، إذ رفع بعضهم دعوى قضائية ضد شركات مثل Microsoft وOpen AI وStability AI.
إن الحصول على أجر مقابل عملهم قد يساعد في استعادة بعض اختلال توازن القوى الموجود بين المبدعين وشركات الذكاء الاصطناعي.
- ترجمة: منهل زريقة
- تدقيق لغوي: غفران التميمي
- المصادر: 1