طورت OpenAI أداة لتحويل النص إلى فيديو تسمى Sora والتي يمكنها إنشاء مقاطع فيديو واقعية بناءً على مطالبات نصية بسيطة، ومع ذلك كان هناك سؤال منذ إطلاق هذه الأداة الجديدة، ما هي البيانات التي استخدمتها OpenAI لتدريب النموذج؟
سُئلت المديرة التقنية في OpenAI في إحدى المقابلات عما إذا كانوا يستخدمون مقاطع فيديو يوتيوب لتدريب النموذج، ولم يكن بوسعها سوى أن تقول “لست متأكدة من ذلك”، وفى وقت لاحق، رفض مدير العمليات أيضًا الإجابة عما إذا كانت العارضة قد تم تدريبها على محتوى من موقع يوتيوب، ومع ذلك هناك تقارير تدعي أن OpenAI استخدمت مقاطع فيديو على يوتيوب لتدريب Sora.
ورد الرئيس التنفيذي لشركة جوجل، ساندر بيتشاي، على الأمر قائلاً إنه سيحل الأمر إذا تبين أن هذه الادعاءات صحيحة، وفقًا لتقرير نشرته صحيفة نيويورك تايمز، استخدمت OpenAI أكثر من مليون ساعة من المحتوى من يوتيوب فقط لتدريب Sora.
أشار ساندر بيتشاي عند سؤاله عما إذا كان الأمر يمثل انتهاكًا لشروط وأحكام جوجل:” أعتقد أنه من الطبيعي في هذه الأمور أن نتعامل مع الشركات ونتأكد من فهمهم لشروط الخدمة الخاصة بنا”، مضيفا “وسوف نقوم بتسوية الأمر”.
يقال إن صحيفة نيويورك تايمز قد رفعت بالفعل دعوى قضائية ضد OpenAI لاستخدام محتواها المحمي بحقوق الطبع والنشر في تدريب الذكاء الاصطناعي، ومع ذلك لم يعلن كيف تخطط الأخيرة لحل هذه الأزمة.
في السيناريو المثالي، يجب أن يعرف منشئ المحتوى ويملك الحق في الاشتراك أو عدم استخدام المحتوى الخاص به من قبل شخص آخر، حيث يتطلب تدريب الذكاء الاصطناعي قدرًا كبيرًا من البيانات ومن المحتمل أن يتم جمعها من الويب، ولكن ليس بدون إذن.
في الواقع، عند سؤاله عما إذا كانت OpenAI تستخدم محتوى من يوتيوب، ألمح مدير العمليات في الشركة إلى أنه إلى جانب بناء أداة يمكنها اكتشاف الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي، فإنهم يعملون أيضًا على تطوير “نظام معرف محتوى للذكاء الاصطناعي يتيح للمبدعين فهم كيفية إنشاء الأشياء”. “أين يتجه، ومن يتدرب عليه، والقدرة على الاشتراك في التدريب والخروج منه”.