شركة DeepSeek تهزّ عالم التقنية: ما الذي فعلته هذه الشركة الصينية؟

أحدثت شركة DeepSeek الصينية للذكاء الاصطناعي صدمة في مجتمع التقنية، بإطلاقها نماذج ذكاء صناعي عالية الكفاءة تنافس أبرز منتجات الشركات الأمريكية الكبرى مثل OpenAI وAnthropic. والمذهل أن DeepSeek، التي تأسست عام 2023، أنجزت ما أنجزته بجزء يسير من الموارد المالية والقدرات الحاسوبية التي يمتلكها منافسوها.
فقد أثار نموذجها الاستدلالي “R1″، الذي صدر الأسبوع الماضي، حماسة الباحثين، وذهول المستثمرين، واستنفار عمالقة الذكاء الاصطناعي، ثم أتبعته الشركة في 28 يناير بنموذج جديد قادر على التعامل مع النصوص والصور معًا.

ما الذي أنجزته DeepSeek، وكيف؟
في ديسمبر، طرحت DeepSeek نموذجها V3، وهو نموذج لغوي كبير “قياسي” ذو كفاءة عالية، يعمل بمستوى يقارب أداء GPT-4o من OpenAI وClaude 3.5 من Anthropic. ورغم ما يُعرف عن هذه النماذج من قابلية للوقوع في الأخطاء وابتداع معلومات من تلقاء نفسها، فإنها قادرة على أداء مهام متعددة، من قبيل الإجابة عن الأسئلة، وكتابة المقالات، وتوليد الشيفرات البرمجية. بل إنها في بعض اختبارات حل المشكلات والاستدلال الرياضي تتفوق على متوسط الأداء البشري.
وقد أُنجز تدريب V3 بتكلفة تقارب 5.58 مليون دولار أمريكي، وهو مبلغ زهيد مقارنةً بكلفة تطوير GPT-4 التي تجاوزت 100 مليون دولار. وتزعم DeepSeek أنها درّبت V3 باستخدام نحو 2000 وحدة معالجة رسوميات H800 من NVIDIA، في حين أن شركات أخرى قد استعانت بما يصل إلى 16000 شريحة من النوع الأقوى H100.

وفي 20 يناير، أطلقت الشركة نموذج R1، وهو نموذج استدلالي مصمم لحل المشكلات المعقدة بأسلوب متسلسل ومنهجي، ما يجعله أكثر فاعلية في المهام التي تتطلب استيعابًا للسياق وفهمًا للترابط بين المكونات، مثل تحليل النصوص والتخطيط الاستراتيجي. ويُعد R1 نسخة معدّلة من V3، طُوّرت باستخدام تقنية التعلّم المعزز، ويبدو أنه بقوة نموذج O1 الذي أطلقته OpenAI في العام السابق.
وقد استثمرت الشركة التقنية ذاتها لصياغة نسخ استدلالية من نماذج صغيرة مفتوحة المصدر يمكن تشغيلها على الحواسيب المنزلية. وقد أدّى هذا الإطلاق إلى موجة اهتمام غير مسبوقة بـ DeepSeek، وساهم في زيادة الإقبال على تطبيق الدردشة القائم على V3، في حين تسبّب في تراجع حاد بأسهم شركات التكنولوجيا، بعدما أعاد المستثمرون النظر في مستقبل صناعة الذكاء الاصطناعي. ووفقًا للتقارير، فقدت شركة NVIDIA وحدها نحو 600 مليار دولار من قيمتها السوقية.

كيف حقّقت DeepSeek هذا الإنجاز؟
يكمن سرّ DeepSeek في كفاءتها العالية: تحقيق نتائج قوية بأقل الموارد الممكنة. وقد ابتكر مطوّرو الشركة تقنيتين يحتمل أن تُحدثا تحولًا واسع النطاق في مجال الذكاء الاصطناعي.
التقنية الأولى تقوم على مبدأ رياضي يُعرف بـ “التباعد” أو sparsity. إذ تحتوي النماذج الكبرى على عدد هائل من الوسائط أو “المعاملات” التي تحدد استجابات النموذج (نحو 671 مليار في نموذج V3)، لكن لا يُستخدم منها إلا جزء يسير عند معالجة أي إدخال معين. وتتمثل الصعوبة في تحديد أي من هذه الوسائط سيكون فاعلًا في كل مرة. غير أن DeepSeek طوّرت طريقة جديدة لتوقّع الوسائط المطلوبة وتدريبها دون غيرها، مما اختصر كثيرًا من زمن التدريب وقلّص الحاجة إلى موارد ضخمة.
أما التقنية الثانية، فتتعلق بكيفية تخزين المعلومات في ذاكرة الحاسوب. إذ وجدت DeepSeek طريقة بارعة لضغط البيانات ذات الصلة، بحيث يسهل تخزينها واستدعاؤها بسرعة.

ما الذي يعنيه ذلك؟
طرحت الشركة نماذجها وتقنياتها بموجب رخصة MIT المجانية، ما يتيح لأي شخص تحميلها وتعديلها بحرية. وقد يشكّل هذا الأمر تهديدًا لبعض شركات الذكاء الاصطناعي التي تعتمد على الاحتكار لتحقيق أرباح طائلة، لكنه في المقابل يُعد خبرًا سارًا لمجتمع الباحثين حول العالم.
ففي الوقت الراهن، يتطلب البحث في هذا المجال موارد حوسبية هائلة، وهو ما يحول دون مشاركة الباحثين في الجامعات أو خارج الشركات الكبرى. أما الآن، ومع توفّر نماذج أكثر كفاءة، فقد تصبح بيئة التجريب والتطوير مفتوحة ومتاحة على نطاق أوسع.

كذلك قد تنخفض كلفة الوصول إلى الذكاء الاصطناعي بالنسبة للمستهلكين، إذ سيصبح بالإمكان تشغيل هذه النماذج على أجهزة شخصية كالحواسيب المحمولة والهواتف، دون الحاجة إلى الاعتماد على خدمات سحابية مدفوعة.
وبالنسبة للباحثين الذين يمتلكون موارد كبرى أصلًا، فقد يكون لتزايد الكفاءة تأثير أقل. ويبقى السؤال: أستمهّد مقاربة DeepSeek الطريق نحو نماذج أكثر قوة وابتكارًا، أم أن أثرها سيقتصر على تحسين الكفاءة فقط؟

  • ترجمة: شيلان ابنيه
  • المصادر: 1