Tech

Zuckerberg يروج لرؤية Meta الجديدة للذكاء الاصطناعي في الفيديو مع الرئيس التنفيذي لـ Nvidia Jensen Huang

ماشي الشمال Sunday, August 18 2024

كان لدى Meta نجاح واضح العام الماضي مع Segment Anything ، وهو نموذج تعلم آلي يمكنه بسرعة وبموثوقية تحديد وتحديد حدود ما يقرب من أي شيء في صورة. الجزء الثاني، الذي قدمه الرئيس التنفيذي مارك زوكربيرج على المسرح يوم الاثنين في SIGGRAPH، يأخذ النموذج إلى مجال الفيديو، مما يظهر مدى سرعة تطور الحقل.

إن التقسيم هو المصطلح التقني عندما ينظر نموذج الرؤية إلى صورة ويختار الأجزاء: "هذا كلب، هذا شجرة خلف الكلب" نأمل وليس "هذه شجرة تنمو من كلب". كان ذلك يحدث لعقود، ولكن مؤخرًا أصبح أفضل وأسرع بكثير، مع Segment Anything كخطوة رئيسية إلى الأمام.

تعتبر Segment Anything 2 (SA2) تتبعًا طبيعيًا حيث أنها تطبق بشكل أصلي على الفيديو وليس فقط على الصور الثابتة؛ على الرغم من أنه يمكنك بالطبع تشغيل النموذج الأول على كل إطار من الفيديو بشكل فردي، إلا أنه ليس السير العمل الأكثر كفاءة.

"يستخدم العلماء هذه الأشياء لدراسة، مثل الشعاب المرجانية والموائل الطبيعية، وأمور من هذا القبيل. ولكن القدرة على فعل ذلك في الفيديو وجعلها تكون بدون محاكاة وإخبارها بما تريد، فهو أمر رائع، "قال زوكربيرج في محادثة مع الرئيس التنفيذي لـ Nvidia Jensen Huang.

معالجة الفيديو تتطلب بالطبع مزيدًا من الحسابات ، وهذا يدل على التقدم الذي تحقق في صناعة الكفاءة على أن SA2 يمكن أن يعمل من دون أن يذوب مركز البيانات. بالطبع، إنه نموذج ضخم يحتاج إلى عتاد جدي للعمل، لكن التقسيم السريع والمرن كان عمليًا مستحيلاً حتى قبل عام واحد.

سيكون النموذج، مثل الأول، مفتوحًا ومجانيًا للاستخدام، وليس هناك كلمة عن نسخة مستضافة، شيء يقدمه هذه الشركات المتخصصة في الذكاء الاصطناعي أحيانًا. ولكن هناك عرض تجريبي مجاني.

بالطبيعة، يتطلب نموذج مثل هذا الكثير من البيانات للتدريب، وميتا تصدر أيضًا قاعدة بيانات كبيرة ومحددة تحتوي على 50,000 فيديو قد أنشأتها خصيصًا لهذا الغرض. في الورقة التي تصف SA2، تم استخدام أيضًا قاعدة بيانات أخرى تحتوي على أكثر من 100,000 فيديو "متاح داخليًا" للتدريب، وهذا لا يتم نشره - لقد سألت ميتا عن مزيد من المعلومات حول ما هو هذا ولماذا لم يتم نشره. (أحبسنا أن مصدرها هو ملفات Instagram و Facebook العامة.)

كانت Meta رائدة في مجال الذكاء الاصطناعي "المفتوح" لعدة سنوات الآن، على الرغم من أنه في الواقع (كما علق زوكربيرج في المحادثة) كانت تفعل ذلك منذ وقت طويل، مع أدوات مثل PyTorch. ولكن في الآونة الأخيرة، أصبحت LLaMa وSegment Anything وبعض النماذج الأخرى التي تطرحها بحرية متاحة بشكل نسبي كمعيار لأداء الذكاء الاصطناعي في تلك المجالات، على الرغم من أن "الانفتاح" الخاص بهم يثير الجدل.

ذكر زوكربيرج أن الانفتاح ليس خارج إرادتهم بالكامل في Meta، لكن ذلك لا يعني أن نواياهم غير نقية:

"هذا ليس مثل قطعة برمجيات يمكنك بناؤها - تحتاج إلى بيئة حولها. ربما لن تعمل بشكل جيد إذا لم نقم بتوفير الشفرة المصدرية لها، صح؟ نحن لسنا نفعل ذلك لأننا أشخاص خيريون، على الرغم من أنني أعتقد أن هذا سيكون مفيدًا للبيئة - نحن نفعل ذلك لأننا نعتقد أن هذا سيجعل الشيء الذي نقوم ببنائه الأفضل."

بالتأكيد سيتم استخدامه بشكل جيد على أي حال. تحقق من GitHub هنا.

ماشي الشمال