Gemini Omni.. جوجل تطلق نموذجاً يحوّل النصوص والصور والصوت إلى فيديو
أعلنت جوجل إطلاق نموذجها الجديد Gemini Omni، في خطوة توسّع قدرات الذكاء الاصطناعي التوليدي داخل منظومة Gemini، عبر تقديم نموذج قادر على إنشاء مقاطع فيديو وتحريرها اعتماداً على مدخلات متعددة، تشمل النصوص والصور والصوت.
وقالت الشركة إن النموذج الجديد يمثل نقلة جديدة في تطوير النماذج متعددة الوسائط، إذ يجمع بين قدرات الاستدلال والفهم السياقي التي تتميز بها نماذج جيميناي، وبين إمكانيات إنتاج المحتوى الإبداعي بصورة تفاعلية.
Gemini Omni.. جوجل تطلق نموذجاً يحوّل النصوص والصور والصوت إلى فيديو
دقائق القراءة - 5
اقرأ أيضاً
لقاء ترك عطراً”.. الشرع يعلّق على هدية ورسالة شخصية من ترمب
فيروس إيبولا.. دول عربية تشدد إجراءاتها الاحترازية وسط قلق عالمي
منظمة اليونيسيف: نظام التعليم في مصر يشهد لحظة فريدة وما حدث في زيادة حضور التلاميذ إنجاز.. عاجل
وفاة الفنان على سيف.. شارك فى لعبة نيوتن وسلسال الدم
البنك المركزى: تعطيل العمل بالبنوك من الثلاثاء للأحد بمناسبة عيد الأضحى
«وزير التعليم»: مصر تستهدف استعادة الدور الحقيقي للمدرسة عبر إصلاحات تعليمية شاملة
مذكرات مرتضى منصور وثغرات الدفاع لم تشفع له.. القصة الكاملة لإدانة عمر زهران بسرقة شاليمار شربتلى
قبرص تستهدف تصدير أول شحنة غاز إلى أوروبا عبر مصر بحلول 2028
الصحة العالمية: 500 إصابة و130 وفاة مع تفشى سلالة بونديبوجيو من فيروس إيبولا
طقس وقفة عرفات.. نشاط للرياح يلطف الأجواء والعظمى بالقاهرة الكبرى بين 32 درجة
تراجع حاد فى شعبية ترامب الاقتصادية.. وأكسيوس: يدفع ثمن حرب إيران
نائب رئيس الوزراء: طرح 10 شركات جديدة فى البورصة منها بنك خلال العام الجاري
شارك
نُشر:20 مايو 2026 06:32
آخر تحديث:20 مايو 2026 06:32

نموذج جيميناي أومني Gemini Omni لإنشاء الفيديوهات من أي المدخلات - Google
القاهرة-
الخلاصة

أطلقت جوجل نموذج Gemini Omni الجديد للذكاء الاصطناعي التوليدي، القادر على إنشاء وتحرير الفيديوهات باستخدام مدخلات متعددة مثل النصوص والصور والصوت. يدعم النموذج التعديلات التفاعلية عبر أوامر نصية ويحافظ على اتساق المشاهد. يتضمن ميزة Avatars لإنشاء شخصيات رقمية، ويستخدم تقنية SynthID لمكافحة التضليل. متاح لمشتركي Google AI Plus وPro وUltra.
*ملخص بالذكاء الاصطناعي. تحقق من السياق في النص الأصلي.
أعلنت جوجل إطلاق نموذجها الجديد Gemini Omni، في خطوة توسّع قدرات الذكاء الاصطناعي التوليدي داخل منظومة Gemini، عبر تقديم نموذج قادر على إنشاء مقاطع فيديو وتحريرها اعتماداً على مدخلات متعددة، تشمل النصوص والصور والصوت.
وقالت الشركة إن النموذج الجديد يمثل نقلة جديدة في تطوير النماذج متعددة الوسائط، إذ يجمع بين قدرات الاستدلال والفهم السياقي التي تتميز بها نماذج جيميناي، وبين إمكانيات إنتاج المحتوى الإبداعي بصورة تفاعلية.
وأضافت أن النموذج صُمم ليتيح للمستخدمين إنشاء محتوى مرئي متكامل انطلاقاً من أي مدخلات تقريباً، مع تركيز خاص على إنتاج الفيديو.
كيف يعمل Gemini Omni؟
وبحسب جوجل، فإن Gemini Omni يتيح للمستخدمين تعديل الفيديوهات من خلال المحادثة فقط، عبر أوامر مكتوبة باللغة الطبيعية، بحيث تتحول عملية المونتاج التقليدية إلى تجربة تفاعلية تعتمد على التعليمات النصية المباشرة.
وأكدت الشركة أن النموذج يحافظ على اتساق الشخصيات والعناصر البصرية داخل المشاهد، حتى مع إجراء تعديلات متتالية على الفيديو.
وأشارت إلى أن المستخدم يستطيع تغيير البيئة المحيطة بالكامل أو تعديل عناصر محددة داخل المشهد، كما يمكنه إعادة تخيل الأحداث داخل الفيديو عبر إضافة شخصيات جديدة أو تغيير الحركة أو تحويل المشهد إلى سيناريو مختلف تماماً.
وأضافت أن Gemini Omni قادر أيضاً على تنفيذ تعديلات متعددة عبر جلسات متتابعة، مع الحفاظ على الترابط السردي والبصري للمشهد الأصلي.
وأكدت جوجل أن Gemini Omni لا يقتصر على إنتاج مشاهد تبدو واقعية بصرياً، بل يعتمد أيضاً على فهم أعمق للسياق وما يجب أن يحدث داخل المشهد.
وذكرت أن النموذج يجمع بين فهم العوامل الفيزيائية وبين قاعدة معرفة جيميناي في مجالات مثل التاريخ والعلوم والثقافة، ما يساعد على إنتاج فيديوهات أكثر اتساقاً وواقعية.
وأضافت الشركة أن النموذج يتمتع بفهم محسّن لعناصر مثل الجاذبية والطاقة الحركية وديناميكيات السوائل، وهو ما ينعكس على جودة الحركة والتفاعل داخل الفيديوهات المُنشأة بالذكاء الاصطناعي.
كما أشارت إلى أن Gemini Omni قادر على الربط بين اللغة والصور والمعاني بطريقة تتجاوز أساليب مطابقة الأنماط التقليدية، بما يسمح بإنتاج محتوى بصري أكثر ترابطاً من الناحية السردية.
تنوع المدخلات
ومن بين أبرز المزايا التي كشفت عنها جوجل قدرة Gemini Omni على إنشاء فيديوهات اعتماداً على أي نوع تقريباً من المدخلات، سواء كانت صوراً ثابتة أو نصوصاً أو رسومات أو ملفات صوتية أو مقاطع فيديو مرجعية.
وأوضحت الشركة أن النموذج يستطيع دمج هذه العناصر داخل مشهد موحد ومتناسق بصرياً، مع دعم تطبيق الأنماط البصرية والمؤثرات والحركات المختلفة باستخدام أوامر نصية مباشرة.
كما أعلنت الشركة تطوير ميزة جديدة تحمل اسم Avatars، تتيح للمستخدمين إنشاء شخصيات رقمية تحاكي أصواتهم لاستخدامها في إنتاج الفيديوهات.
مخاوف التضليل
وقالت "جوجل إنها تعمل على تطوير هذه الميزة بصورة مسؤولة، مع وضع ضوابط واضحة للحد من إساءة الاستخدام، موضحة أن التقنية ستتيح مستقبلاً إنشاء نسخة رقمية من المستخدم يمكنها الظهور داخل الفيديوهات وكأنها شخصية حقيقية.
وفي إطار جهود مكافحة التضليل والمحتوى الزائف، أكدت جوجل أن جميع الفيديوهات التي يتم إنشاؤها باستخدام Gemini Omni ستتضمن تقنية SynthID، وهي علامة مائية رقمية غير مرئية تساعد على التحقق من أن المحتوى تم إنشاؤه أو تعديله بواسطة الذكاء الاصطناعي.
وأضافت أن أدوات التحقق ستتوفر عبر تطبيق Gemini ومتصفح Chrome ومحرك بحث جوجل، إلى جانب أدوات إضافية لشرح كيفية إنشاء المحتوى وتحريره.
وبدأت جوجل طرح أول نموذج ضمن عائلة Omni تحت اسم Gemini Omni Flash، إذ أصبح متاحاً لمشتركي خطط Google AI Plus وGoogle AI Pro وGoogle AI Ultra عبر تطبيق جيميناي ومنصة Google Flow وYouTube Shorts، على أن يصل أيضاً إلى مستخدمي YouTube Create خلال الفترة المقبلة.
ويأتي إطلاق Gemini Omni في ظل المنافسة المتسارعة بين شركات التكنولوجيا الكبرى لتطوير أنظمة ذكاء اصطناعي قادرة على إنتاج الفيديوهات اعتماداً على الأوامر النصية، في سباق يشمل شركات مثل OpenAI وميتا وعدداً من الشركات الناشئة المتخصصة في أدوات توليد الفيديو بالذكاء الاصطناعي.










