3 اختراعات جديدة من جوجل.. قدرات مذهلة لصناعة الفيديو والبحث عن الصور

محمد جمال آخر تحديث: مايو 15, 2024

04:44 م

الأربعاء 15 مايو 2024

أعلنت جوجل دمج مساعد الذكاء الاصطناعي التوليدي Gemini في تطبيقاتها الأساسية الموجهة للمستخدمين.

أبرز المنصات التي ستحصل على Gemini، خدمة البريد الإلكتروني Gmail للمساعدة في كتابة رسائل البريد الإلكتروني وتلخيصها، والبحث المتقدم في صندوق البريد، والمساعدة في تنفيذ مهام أكثر تعقيدًا، مثل مقارنة أسعار المنتجات، وتلخيص مجموعة من الرسائل، وفحص المرفقات والإجابة عن الأسئلة التي تخصها، وتلخيص الاجتماعات المصورة، وغيرها من المهام.

كما أن مساعد الذكاء الاصطناعي Gemini سيكون متكاملًا مع تطبيقات الإنتاجية الأخرى، مثل التقويم والمهام والملاحظات. وسيكون بإمكان Gemini مثلًا إضافة قائمة من الأحداث الموجودة في صورة ملتقطة مباشرةً إلى تطبيق التقويم أو المهام، وحفظ أي محتوى يقدمه Gemini مباشرة كملاحظة في تطبيق الملاحظات Keep، وسيكون ذلك متاحًا عبر امتدادات التطبيقات والخدمات الخاصة بجوجل داخل المساعد الذكي.

وستعمل جوجل على دمج قدرات Gemini في خرائط Google Maps، وتحديدًا في واجهة برمجة التطبيقات الموجهة للمطورين، إذ سيتمكن المطورون من عرض ملخصات الذكاء الاصطناعي للأماكن والمناطق في تطبيقاتهم ومواقعهم الإلكترونية، وستكون تلك الملخصات مبنية على تحليل التعليقات في مجتمع خرائط جوجل الذي يضم أكثر من 300 مليون مساهم.

وبفضل تلك الإمكانية الجديدة، لن يضطر المطورون بعد الآن إلى كتابة الأوصاف المخصصة للأماكن على نحو يدوي، كما تعمل جوجل أيضًا على جلب نتائج البحث السياقية المدعومة بالذكاء الاصطناعي إلى واجهة برمجة التطبيقات للأماكن Places API، وعندما يبحث المستخدمون عن أماكن في منتج أحد المطورين، ستُعرض التعليقات والصور ذات الصلة ببحثهم.

ومن بين ما أعلنت عنه جوجل ضمن فعاليات مؤتمر المطورين Google I/O 2024، نموذج الذكاء الاصطناعي التوليدي Veo الذي يمكنه توليد مقاطع فيديو عالية الجودة استنادًا إلى المطالبات النصية الخاصة بالمستخدمين.

وتقول جوجل إن نموذج Veo لديه القدرة على فهم اللغة الطبيعية والدلالات البصرية على نحو متقدم، لإنشاء أي فيديو يريده المستخدمون.

ويمكن إنشاء مقاطع فيديو عبر نموذج Veo لمدة تزيد على دقيقة وبدقة قدرها 1080 بكسل، وهو قادر أيضًا على فهم التقنيات السينمائية والبصرية، مثل مفهوم الفاصل الزمني.

وأعلنت جوجل أيضًا نموذج Imagen 3، وهو نموذج متطور لتحويل النص إلى صورة، وتقول الشركة إنه النموذج الأعلى جودة لتحويل النص إلى صورة، ويقدم درجة مذهلة من التفاصيل، وصورًا واقعية نابضة بالحياة، وعددًا أقل من الأخطاء.

وأضافت جوجل أن نموذج Imagen 3 بات يتعامل مع النصوص على نحو أفضل، وأنه أصبح أكثر ذكاءً في فهم التفاصيل في المطالبات الطويلة.

وطرحت جوجل ميزة جديدة في تطبيق الصور الخاص بها تسهل عملية البحث عن الصور بمساعدة الذكاء الاصطناعي.

ومن المنتظر أن يطالب تطبيق الصور Google Photos بالحصول على أذونات جديدة لتفعيل تلك الميزة التي تُطلق عليها جوجل اسم Ask Photos.

وتهدف الميزة الجديدة إلى مساعدة المستخدمين في الوصول إلى الصور المطلوبة على نحو دقيق وسريع عن طريق استخدام جوانب تعريفية مميزة للصور.

ويمكن لميزة Ask Photos المساعدة في الحصول على بعض المعلومات وتلقي إجابات لبعض الأسئلة الخاصة بالصور عبر مساعد الذكاء الاصطناعي من جوجل Gemini.

وطرحت جوجل مثالًا للبحث باستخدام رقم لوحة سيارة موجود في إحدى الصور، للحصول على العديد من المعلومات بشأن الترخيص وطراز السيارة وغيرها.

وفي مثال آخر، تمكن مساعد Gemini من خلال بعض الصور لطفل يسبح من تحديد الوقت الذي كان الطفل يتعلم السباحة فيه بالإضافة إلى عمر الطفل بناءً على الصور المتاحة.

وتعتمد ميزة Ask Photos أيضًا على معرفات أخرى للصور مثل تاريخ التحميل والموقع الجغرافي لتسريع عملية البحث.

وستكون تلك الميزة متاحة للاستخدام مع مقاطع الفيديو أيضًا. ومع ذلك، لم تقدم جوجل عرضًا توضيحيًا مباشرًا أو مثالًا عمليًا على ذلك.

ومن المتوقع بدء طرح الميزة في الأشهر المقبلة، ولم تحدد جوجل إذا كانت تتطلب اتصالاً بالإنترنت للعمل أم لا.

الوسوم