من OpenAI’s Sora إلى نموذج الذكاء الاصطناعي gemini 1.5 أهم أخبار التكنولوجيا.

من OpenAI’s Sora إلى نموذج الذكاء الاصطناعي gemini 1.5 أهم أخبار التكنولوجيا.

بينما يتقدم العالم التكنولوجي بخطى ثابتة نحو المستقبل، لا تنقطع مفاجآت الابتكار والتطورات الملفتة التي تنطلق من كبرى الشركات التقنية. هذا الأسبوع، تمثلت أهمية الأخبار التكنولوجية في تحقيقات OpenAI's Sora ونموذج الذكاء الاصطناعي Google's gemini 1.5 pro، حيث قدمت كلا التقنيتين من الشركة المصنعة ثورة في مجال الذكاء الاصطناعي والتعلم الآلي. دعونا نستعرض سوياً هذه الأحداث الملهمة ونلقي نظرة على كيفية تأثيرها المحتمل على مستقبل التكنولوجيا والابتكار. وكيف تستطيع أدوات وتطبيقات وخدمات الذكاء الاصطناعي التوليدي تسهيل الحياة البشرية.

ما هو سورا sora؟

سورا (sora) هي أداة تعتمد على التعلم الآلي العميق و تقنيات الذكاء الاصطناعي الجديد ، حيث أنها أداة جديدة للذكاء الاصطناعي قادرة على إنتاج مقاطع فيديو احترافية واقعية جداً ومُتخيلة ابتداءً من مقطع نصي يصف فيه المستخدم الفيديو. والأمر المثير للإعجاب، هو كمية الدقة والتفاصيل الواقعية التي يعطيها sora. حيث أنك سوف تحصل على شخصيات واقعية وليست جرافيكية، ومناظر تبدو وكأنها تم جلبها عبر تصوير مشهد واقعي بالطائرة. كل شيء يبدو حقيقياً بشكل مفرط!. وفي سياق ذلك علقت open ai على الأداة الجديدة قائلةً: ” نحن نقوم بتعليم الذكاء الاصطناعي كيفية فهم ومحاكاة العالم المادي المتحرك، وذلك بهدف إنتاج نماذج التدريب التي تساعد الأشخاص على حل المشكلات التي تتطلب تفاعلًا في العالم الحقيقي.”.

ويُعد سورا النموذج الأول من open ai لتحويل النص إلى فيديو. ويمكن أن تصل مدة الفيديوهات إلى دقيقة كاملة مع الحفاظ على جودة الفيديو، ودقة المعطيات، وتوظيف الوصف النصي بشكل عملي وعميق.

هل sora مُتاح للاستخدام؟

كلا. مازال النموذج سورا ضمن مرحلة التقييم وفي أيادي تكنولوجية قيمة. والتي كما تسميها openai الفريق الأحمر أو ” red teamers”. بالإضافة إلى ذلك، صرّحت أوبن ايه آي بأنها أعطت النموذج لبعض الفنانين التشكيليين، والمصممين، وصانعي الأفلام المميزين، وذلك بهدف الحصول على تعليقاتهم حول جودة عمل النموذج.

sora
sora

ما هي قدرات سورا (Sora)

يمكن تلخيص الميزات الخاصة ب sora من open ai فيما يلي:

· إنشاء فيديوهات واقعية

يمكن ل تقنية الذكاء الاصطناعي sora أن تقوم بإنشاء مقاطع فيديو عالية الجودة، مع شخصيات حقيقية مختلفة في كل مرة، وأنواع معينة من الحركة. بحيث تراعي التأثيرات العاطفية الواضحة، تفاصيل الخلفيات، وتأثير العالم الخارجي. ففي إحدى المحاولات لإنشاء فيديو من قبل الفريق الخاص بsora ، طلبوا من النموذج أن يقوم بإنشاء فيديو حول فتاة جميلة، ترتدي نظارات سوداء مع معطف أسود وتحمل حقيبة سوداء. وتسير الفتاة بثقة، تضع أحمر الشفاه. وبحيث أن الواجهة هي طرقات طوكيو، والشارع رطب وعاكس للضوء. وكانت النتيجة مذهلة لكمية التفاصيل التي تم إنتاجها!. مما يؤكد أن النموذج يفهم ماهية الأشياء المتخيلة وجودتها في العالم المادي. وهذا بنفسه إبداع وتقدم تكنولوجي عميق.

· إنشاء لقطات متعددة

يمكن ل نموذج للذكاء الاصطناعي سورا أيضاً إنشاء وتصميم فيديو بلقطات متعددة، مع وجوه أحداث ووجوه مختلفة في كل لقطة.

· اتباع اختبارات السلامة

وكما صرحت شركة openai يتم تدريب النموذج حالياً على إجرائيات خاصة بالسلامة، مثل رفض تقديم أي فيديو لمقترح نصي ينتهك حقوق معينة. كالمقترحات، و المعلومات الخاطئة، والمحتوى الذي يحض على الكراهية والتحيز، وبذلك تمنع التعامل المسيء من خلال الأداة.

نقاط ضعف سورا الحالية

بالرغم من أن أداة الذكاء الاصطناعي sora هي نموذج فائق الذكاء، ويمكنه التعامل مع الواقع وتصميم فيديوهات تبدو وكأنها تم تصويرها باستخدام كاميرا الهاتف المحمول. إلا أنه يعاني من بعض نقاط الضعف والتي من أبرزها:

· عدم معالجة النتيجة وفقاً للسبب

أي في حال طلبت من النموذج القيام بحدث ما داخل الفيديو، لن تلاحظ وجود نتيجة لهذا الحدث في حال لم تكتبها في النص المُقدم لسورا. على سبيل المثال قد يعض شخص ما تفاحة، إلا أن أثر القضمة لن يكون موجوداً في حال لم تكتب ذلك.

· أخطاء في التفاصيل الوجودية

قد يخلط النموذج بين اليسار واليمين عند التعامل مع التفاصيل المكانية للوجه.

· صعوبة في تقديم وصف الفيديو للأحداث المستمرة

عند وجود حدث مستمر يحدث مع مرور الوقت، قد يعاني النموذج من أخطاء في تقييم الوصف النصي بشكل دقيق.

ما هو جيمني ؟

يمثل جيميني (Gemini) كما تقول شركة جوجل عنه “الذكاء الاصطناعي الأكثر قدرة من Google”. وهو نموذج يستطيع معالجة الصور، الفيديوهات، النصوص، التعليمات البرمجية، الصوت وغيرها. وبالتالي فهو نموذج لغة متعدد الوسائط. وقد تم تطويره من خلال شركة Google ومختبرات Deep Mind. ومن ثم تم طرحه في عالم الإنترنت ليتم استخدامه من قبل العامة.

وقد تم تقسيم Gemini إلى فروع أصغر هي:

· جيمني الترا (Gemini Ultra) أكبر نموذج، وهو الأكثر قدرة على التعامل مع المهام المعقدة.

· جيمني برو (Gemini Pro): ويساعد في معالجة نطاق واسع من المهام.

· جيمني نانو (Gemini Nano): وهو الأكثر كفاءة للمهام الخاصة بالأجهزة المحمولة.

gemini
gemini

هل جيمني (gemini) نفسه جوجل بارد (Google Bard)؟

لا، جيمني ليس هو جوجل بارد نفسه. جوجل بارد كان الاسم الأول لمشروع نموذج اللغة الكبير الذي طورته Google AI والذي تم الإعلان عنه لأول مرة في عام 2022. وكان يُستخدم بشكل داخلي من قبل Google لاختبار قدرات نماذج اللغة الكبيرة. أما جيمني هو الاسم الجديد لنفس المشروع لكن بشكل متقدم، حيث تم الإعلان عنه في ديسمبر 2023. ويمثل جيمني الجيل الثاني من نموذج اللغة الكبير من Google، مع قدرات محسنة وذكاء اصطناعي أكثر قوة.

بالتالي، يمكن القول أن جيمني هو خليفة جوجل بارد. وها هي بعض الاختلافات الرئيسية بين جوجل بارد وGemini:

القدرة: يمكن لـ نموذج gemini معالجة قدر أكبر من المعلومات فهو أكثر قدرة من جوجل بارد، مع إمكانيات معالجة لغة طبيعية أقوى، وذكاء اصطناعي أكثر ذكاءً.

التوفر: جيمني متاح للمستخدمين الخارجيين من خلال برنامج تجريبي، بينما كان جوجل بارد متاحاً فقط لفريق Google AI.

الاسم: تم تغيير اسم جوجل بارد إلى Gemini لتجنب الخلط مع Bard، وهو نموذج لغة كبير آخر تم تطويره من قبل Microsoft.

ما هي قدرات جيمني؟

يمكن ل جيمني على عكس نماذج الذكاء الاصطناعي الأخرى، أن يقوم بمعالجة جميع أنواع الوسائط. بينما تختص النماذج الأخرى للذكاء الاصطناعي في صنف واحد من البيانات، كمعالجة النصوص، إنشاء الفيديوهات، تصميم الصور. إليك بعض المهام التي يمكن ل Gemini القيام بها:

· معالجة اللغة الطبيعية

يمكن لجيمني فهم اللغة الطبيعية البشرية بشكل عميق، بما في ذلك المعنى والسياق، وبذلك فهو ماهر في إنشاء النصوص وكتابة المحتوى بكافة أشكاله. بالإضافة إلى قدرات الترجمة بين الآلاف من اللغات المختلفة. والإجابة حول أي سؤال يخطر في بالك.

· التعلم الآلي

يمكن لهذا النموذج تلخيص النصوص الطويلة. بالإضافة إلى استخلاص النتائج المختلفة بناءً على المعطيات المقدمة. وتحليل البيانات بشكل ممتاز.

· التفاعل مع العالم المحيط

يمكن لجيمني التفاعل مع قدرات العالم المحيط. حيث يمكنه التعرف على الصوت وتحويله إلى نص. وتحليل الصور والفيديو واستخراج المعلومات المطلوبة منه.

· تحليل الصور

يمكن لأداة الذكاء الاصطناعي هذه معالجة الصور وتحليلها والتعرف على الكائنات والأشخاص. ووصف الصور بدقة، مع إمكانية استخراج النص من الصورة.

· تحليل الفيديو

ومع جيمني بالذكاء الاصطناعي يمكن التعرف على نمط الحركة في مقاطع الفيديو كالمشي على سبيل المثال. ويمكنه استخراج النص من الفيديو وتلخيص الفيديو.

· إمكانيات إبداعية

يمكن أن يقوم نموذج الذكاء الاصطناعي هذا بتأليف الألغاز، والموسيقى، والألعاب بهدف الترفيه والتسلية.

هل يتفوق Gemini على ChatGPT؟

من حيث حجم المعلومات التي يمكن معالجتها، ومن حيث الميزات المتاحة من خلال النموذج، يتفوق جيمني على شات جي بي تي بشكل كبير. من خلال قدرته على تجاوز التحليل النصي إلى تحليل الوسائط المتعددة كالصور والفيديو وغيرها. وبالرغم من ذلك، هناك العديد من الفروقات الرئيسية بينهما:

قدرات المعالجة: يتفوق Gemini على ChatGPT بإمكانية التنبؤ والتحليل، والتفاعل مع العالم المحيط.

التكلفة: يُعد الإصدار الأخير من ChatGPT مدفوعاً للاستخدام. على عكس الإصدارات السابقة والقديمة التي يمكن أن تكون محدودة المعلومات بسنة معينة، إلا أنها مجانية. بينما من المتوقع أن يبقى جيمني كما هو الآن مجانياً.

وفي حال أردت الحصول على المزيد من المعلومات عن الفروقات بين جيمني وشات جي بي تي يمكنك تصفح مقالنا التالي: ChatGPT vs Gemini اشتراك Chatbot AI الأنسب لك ؟

من خلال استعراض أبرز أحداث التكنولوجيا التي تعمل بالذكاء الاصطناعي لهذا الأسبوع. أصبح بإمكاننا أن ندرك أهمية الابتكار المستمر والتطور التكنولوجي في دفع عجلة التقدم إلى الأمام، وتهيئة مسار العالم لعصر جديد كلياً. من OpenAI’s Sora إلى نموذج Google’s Gemini1.5 Pro، يمكننا أن نرى كيف تتجاوب الشركات الرائدة في العالم مع تحديات العصر وتقدم حلولاً مبتكرة تعزز بها من قدرات الذكاء الاصطناعي، وبالتالي تعمل على تحسين تجارب المستخدمين.