نشرت من قبل تشين فريدمان على 10 مارس 2024

فئات

قانوني

العلامات

نماذج تحويل النص إلى فيديو: تغيير قواعد اللعبة في تكنولوجيا الذكاء الاصطناعي

منذ عام تقريبًا، كانت نماذج تحويل النص إلى فيديو تعتبر من أحدث التقنيات. ومع ذلك، فإن نموذجًا جديدًا يسمى Sora، تم تطويره بواسطة OpenAI، أخذ عملية تحويل النص إلى فيديو إلى مستوى جديد تمامًا. في هذه المقالة، سوف نستكشف إمكانيات Sora وتأثيرها المحتمل على إنشاء محتوى الفيديو.

قوة سورا: توليد مقاطع فيديو واقعية من النص

يعد Sora، الذي طورته شركة OpenAI، نموذجًا رائدًا يمكنه إنشاء مقاطع فيديو من موجه نصي واحد. إن مستوى التفاصيل والتماسك في مقاطع الفيديو التي تم إنشاؤها مثير للإعجاب حقًا. في الواقع، غالبًا ما يكون من الصعب التمييز بين مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي ومقاطع الفيديو الحقيقية عند عرض الأمثلة على موقع OpenAI.

إحدى المزايا الرئيسية لـ Sora هي قدرته على إنشاء مقاطع فيديو تصل مدتها إلى دقيقة واحدة، على عكس معظم العروض الأخرى في السوق التي يمكنها إنشاء بضع ثوانٍ فقط من الفيديو. تعرض مقاطع الفيديو التي تم إنشاؤها تفاصيل واقعية، مثل الانعكاسات وحركة الأشخاص داخل المشهد.

علاوة على ذلك، يمكن لـ Sora إنشاء مقاطع فيديو بزوايا وحركات مختلفة، مما يجعلها أداة متعددة الاستخدامات لمختلف التطبيقات. على سبيل المثال، يمكنه إنشاء مقاطع فيديو تشبه لقطات اللعبة أو الرسوم المتحركة ثلاثية الأبعاد، كل ذلك من خلال مطالبة نصية واحدة.

فهم النموذج: التدريب والقدرات

في مقال بحثي بعنوان "نماذج إنشاء الفيديو كمحاكاة عالمية"، تقدم OpenAI نظرة ثاقبة حول التدريب وقدرات نموذج Sora. يتم تدريب النموذج باستخدام نماذج النشر المشروط للنص على مقاطع الفيديو والصور ذات المدة والدقة ونسب العرض إلى الارتفاع المتفاوتة.

تعمل بنية محول الفيديو التي يستخدمها Sora على تصحيحات الزمكان للفيديو والرموز الكامنة للصور. وفقًا لمنشور مدونة البحث، تؤدي فترات التدريب الأطول إلى نتائج أفضل في إنشاء الفيديو. يوضح OpenAI ذلك من خلال مقارنة النموذج الأساسي مع الإصدارات التي تم تدريبها لأربعة وستة عشر ضعفًا من الحوسبة، مما يعرض تحسينات كبيرة في الجودة.

لتدريب النموذج، تتبع OpenAI نهجًا مشابهًا يستخدم لتدريب نماذج DALL-E، وإنشاء تسميات توضيحية لمقاطع فيديو مختلفة في مجموعة بيانات التدريب. يعد هذا الوصف النصي بمثابة الأساس لإنشاء مقاطع فيديو من المطالبات النصية.

توسيع القدرات: الرسوم المتحركة وتحرير الفيديو وإنشاء الصور

تمتد قدرات Sora إلى ما هو أبعد من مجرد إنشاء نص إلى فيديو. يمكن للنموذج أيضًا تحريك الصور بناءً على المطالبات النصية، مما يسمح بإجراء تحويلات إبداعية للصور الثابتة. تتضمن الأمثلة تحريك السحب مع ظهور النص بداخلها.

يمكن لـ Sora أيضًا تمديد مقاطع الفيديو التي تم إنشاؤها إما في الاتجاه الأمامي أو الخلفي في الوقت المناسب. وهذا يعني أنه يمكن إنشاء مقاطع فيديو أطول، متجاوزة الحد الأولي الذي يبلغ دقيقة واحدة والموضح سابقًا. يعرض OpenAI أمثلة لمقاطع الفيديو التي تم تمديدها إلى الوراء في الوقت المناسب، بدءًا من مقطع الفيديو الذي تم إنشاؤه، مما يؤدي إلى نقاط بداية مختلفة ولكنها تتقارب إلى نفس النهاية.

بالإضافة إلى ذلك، يتيح Sora تحرير الفيديو إلى الفيديو، مما يسمح للمستخدمين بالانتقال بسلاسة بين مقاطع الفيديو المختلفة ذات الموضوعات والمشاهد والتراكيب المختلفة. يمكن للنموذج أيضًا توصيل مقاطع الفيديو، والتحريف بسلاسة بين مقطعي فيديو إدخال لإنشاء انتقال متماسك. على سبيل المثال، يمكن دمج لقطات الطائرة بدون طيار مع لقطات الفراشة، والانتقال بسلاسة من واحدة إلى أخرى.

محاكاة ظواهر العالم الحقيقي: القدرات الناشئة

لاحظت OpenAI أن Sora يُظهر قدرات محاكاة ناشئة بسبب الكم الهائل من بيانات التدريب المستخدمة. يبدو أن النموذج قد تعلم سلوكيات معينة للأشياء المادية والأشخاص والبيئات. تتيح هذه القدرات لـ Sora محاكاة جوانب الأشخاص والحيوانات والبيئات دون أي تحيز استقرائي صريح للكائنات ثلاثية الأبعاد. تظهر هذه الخصائص كنتيجة لتعرض النموذج لمجموعة واسعة من مقاطع الفيديو.

ونتيجة لذلك، أصبح التمييز بين المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي ومقاطع الفيديو الحقيقية أمرًا صعبًا بشكل متزايد مع نماذج مثل Sora. على الرغم من أن النموذج ليس مثاليًا ولا يزال بإمكانه إنتاج نتائج غير واقعية أو نتائج غير واقعية، إلا أن OpenAI تعمل باستمرار على تحسين أدائه ومعالجة هذه المشكلات في التكرارات المستقبلية.

المخاوف والتطورات المستقبلية

من المهم ملاحظة أن Sora غير متاح حاليًا للجمهور. تتخذ OpenAI الاحتياطات اللازمة من خلال إخضاع النموذج ومخرجاته لاختبارات وتقييمات صارمة قبل إتاحته على نطاق واسع. يعد احتمال حدوث ضرر أو معلومات مضللة مصدر قلق كبير، خاصة إذا كان من الصعب تمييز مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي عن مقاطع الفيديو الحقيقية.

تسعى OpenAI جاهدة للحصول على تعليقات من مصادر خارجية ومشاركة التقدم البحثي الخاص بها لضمان التطوير المسؤول واستخدام قدرات الذكاء الاصطناعي. إنهم يستكشفون أيضًا دمج البيانات الوصفية في مقاطع الفيديو التي تم إنشاؤها لتسهيل تحديد المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي والتحقق منه.

في حين أن تاريخ إصدار Sora لا يزال غير مؤكد، فمن الواضح أن تكنولوجيا الذكاء الاصطناعي تتقدم بسرعة، مما يطمس الخطوط الفاصلة بين المحتوى الحقيقي والمحتوى الناتج عن الذكاء الاصطناعي. كمستهلكين، من الضروري التعامل مع المحتوى عبر الإنترنت بحذر وتفكير نقدي.

لمزيد من المعلومات والأمثلة عن قدرات سورا، يرجى الرجوع إلى مقاطع الفيديو المرتبطة في وصف الفيديو. ابق على اطلاع وكن يقظًا في عصر تلوح فيه قدرات الذكاء الاصطناعي في الأفق.

شكرًا لك على القراءة، وكما هو الحال دائمًا، ترقبوا المزيد من المحتوى المفيد.

أدوات AGI
لماذا؟ القضايا

قانوني

الرعاىة الصحية

الموارد البشرية

تأثير اجتماعي

نموذج SORA المذهل لتحويل النص إلى فيديو من OpenAI سيتركك مندهشًا!

تشين فريدمان

اترك تعليقاً إلغاء الرد

دعونا نتحدث

معلومات (في) agi.tools

أدوات AGI لماذا؟ القضايا