Internet

Google تطلق مولد فيديو كليب

ماشي الشمال Friday, May 31 2024

جوجل لديها سجل غير مثالي عندما يتعلق الأمر بالذكاء الاصطناعي الذي يولد الصور. في فبراير، تم اكتشاف أن مولد الصور المدمج في Gemini، التطبيق الذكي المدعوم بالذكاء الاصطناعي من قبل جوجل، كان يقوم بحقن تصنيف الجنس والعرق عشوائياً في الاقتراحات حول الأشخاص، مما أدى إلى ظهور صور لنازيين من تنوع عرقي، إلى جانب أخطاء غير دقيقة مسيئة أخرى.

سحبت جوجل المولد، متعهدة بتحسينه وإعادة إطلاقه في النهاية. وأثناء انتظار عودته، قامت الشركة بإطلاق أداة توليد صور محسنة، Imagen 2، داخل منصة تطوير الذكاء الاصطناعي Vertex AI الخاصة بها - على الرغم من أن الأداة تتمتع باتجاه أعم الشركات.

تصنيف الصور: فريديريك لاردوينو / تك كرنتش

Imagen 2 - الذي هو في الواقع عائلة من النماذج، تم إطلاقه في ديسمبر بعد أن تمت معاينته في مؤتمر I/O الخاص بجوجل في مايو 2023 - يمكن أن ينشئ ويحرر الصور بناءً على إشارة نصية، مثل DALL-E و Midjourney المدعومتين بالذكاء الاصطناعي. ومن ذوي الاهتمام بالنوع الشركات، يمكن لـ Imagen 2 أن يقدم النصوص والشعارات أو الشعارات بلغات متعددة، ومن الممكن تجاوز هذه العناصر اختياريًا في الصور الحالية - على سبيل المثال، على بطاقات الأعمال والملابس والمنتجات.

جوجل تطلق Imagen 2 مع إنشاء نصوص وشعارات

بعد إطلاق التحرير بمسبق، أصبح تحرير الصور باستخدام Imagen 2 متوفرًا عمومًا الآن في Vertex AI برفقتي قدرة جديدة: التصويب والتصبير. يمكن استخدام التصويب والتصبير، المزايا التي قدمتها أدوات توليد الصور الشهيرة الأخرى مثل DALL-E منذ فترة، لإزالة الأجزاء غير المرغوب فيها من الصورة، وإضافة مكونات جديدة، وتوسيع حدود الصورة لإنشاء حقل بصري أوسع.

ولكن الجوهر الحقيقي لترقية Imagen 2 هو ما تسميه جوجل “تحويل النصوص إلى صور مباشرة.”

يمكن لـ Imagen 2 الآن إنشاء مقاطع فيديو قصيرة، تبلغ أربع ثوانٍ، من إشارات النص، على غرار أدوات توليد مقاطع الفيديو المدعومة بالذكاء الاصطناعي مثل Runway و Pika و Irreverent Labs. ووفقًا لهدف Imagen 2 التجاري، تقوم جوجل بتقديم صور مباشرة كأداة للمسوقين والمبدعين، مثل مولدـ GIF للإعلانات التي تظهر الطبيعة والطعام والحيوانات - المواضيع التي تم ضبط Imagen 2 عليها.

تقول جوجل إن الصور المباشرة يمكن أن تلتقط “مجموعة من زوايا الكاميرا والحركات” بينما “تدعم التوحيد على مدار السلسلة بأكملها.” ولكنها في دقة منخفضة حاليًا: 360 بكسل في 640 بكسل. وجوجل تعد بأن هذا سيتحسن في المستقبل.

لتهدئة (أو على الأقل محاولة تهدئة) المخاوف حول إمكانية إنشاء الديبفيكس، تقول جوجل إن Imagen 2 ستستخدم SynthID، وهي طريقة طورتها Google DeepMind، لتطبيق علامات مائية تشفيرية غير مرئية على الصور المباشرة. بالطبع، يتطلب اكتشاف هذه العلامات المائية - التي تدعي جوجل أنها مقاومة للتعديلات، بما في ذلك الضغط، والمرشات، وتعديلات لون الصورة - استخدام أداة تقدمها جوجل ولا تتوفر للأطراف الثالثة.

ماشي الشمال