جوجل تطلق Gemini Embedding 2 لدمج فهم النصوص والصور والفيديو معاً

2026-03-12

دقيقة واحدة

أول نموذج تضمين متعدد الوسائط من Google

أعلنت Google عن Gemini Embedding 2، وهو نموذج ذكاء اصطناعي جديد قادر على تحليل النصوص والصور والصوت والفيديو داخل مساحة تضمين موحدة تسمح بفهم البيانات بطريقة متماسكة.

يربط Gemini Embedding 2 أنواع المحتوى داخل مساحة تضمين واحدة، ما يمكّن النموذج من فهم المفاهيم سواء ظهرت ككلمات مكتوبة أو صوت مسموع أو صورة أو مقطع فيديو.

وتؤكد Google أن هذه التقنية ستجعل نماذج اللغة الكبيرة تفهم المعلومات بشكل أكثر تكاملاً وتساعدها على تنفيذ مهام أكثر تعقيداً مقارنة بالأنظمة السابقة.

كيف يعمل نظام Gemini الموحد لمعالجة المحتوى

عادةً تستخدم نماذج الذكاء الاصطناعي أنظمة منفصلة لمعالجة أنواع البيانات المختلفة، فالنصوص تُخزّن وتُعالج في نظام، والصور في آخر، وكذلك الفيديو والصوت في أنظمة متعددة، وهذا يجعل استخراج المعلومات من مصادر مختلفة أمراً أكثر تعقيداً.

يهدف Gemini Embedding 2 إلى حل هذه المشكلة عبر بنية تعتمد على مساحة تضمين موحدة تعالج النصوص والصور والفيديو والصوت داخل نظام واحد، ما يمكّن النموذج من تحليل مستند يحتوي على نصوص وصور في آن واحد كما يفعل البشر مع مصادر متعددة.

تطبيقات واسعة للنموذج الجديد

يمكن استخدام Gemini Embedding 2 في تقنيات Retrieval-Augmented Generation المعروفة اختصاراً باسم RAG، إضافة إلى تحسين البحث الدلالي داخل قواعد البيانات، وتحليل المشاعر في النصوص، وتنظيم البيانات وتجميعها ضمن مجموعات متشابهة.

قدرات تقنية متقدمة

على مستوى النصوص، يمتلك النموذج نافذة سياق تصل إلى 8192 رمز إدخال.

يمكنه تحليل حتى ست صور في الطلب الواحد بصيغ PNG وJPEG.

بالنسبة للفيديو، يمكنه معالجة مقاطع تصل مدتها إلى 120 ثانية بصيغ MP4 وMOV.

ويتميز بإمكانية معالجة البيانات الصوتية مباشرة دون تحويلها إلى نص مكتوب، مما يسرّع عملية التحليل، كما يمكنه تضمين ملفات PDF يصل طولها إلى ست صفحات.

تابعنا على

صفحتنا الرسمية على فيسبوك

لمتابعة آخر الأخبار العاجلة والتغطيات الجديدة أولاً بأول.

تابع الصفحة على فيسبوك