انفجرت مكالمات التكبير أثناء إغلاق فيروس كورونا الحالي. ولكن إذا كنت قد استنفدت بالفعل إمكانيات زوايا مختلفة وخلفيات لمكالمات الفيديو ، لماذا لا تحاول أن تكون شخصًا مختلفًا تمامًا؟ كما تعلم ، مثل الرئيس التنفيذي السابق لشركة Apple والمؤسس المشارك ستيف جوبز.
على الأقل ، هذا هو العرض / التجربة التقنية التي أنشأها المبرمجون علي علييف و كريم اسكاكوف. لقد طوروا أداة Animoji أو Memoji تسمى أفاتاريفي يتيح للمستخدمين تركيب قناع في الوقت الفعلي على أنفسهم أثناء مكالمات الفيديو.
كيف يعمل Avatarify؟
يعتمد Avatarify على شبكة عصبية اصطناعية تسمى نموذج الحركة من الدرجة الأولىالتي طورها باحثون في إيطاليا. تم تدريبه على أكثر من 12000 مقطع فيديو ، مما يجعل من الممكن تحريك صورة ثابتة بدون ضبط يدوي. هذا يعني أن المستخدمين يحتاجون فقط إلى إضافة صورة ثابتة للوجه. ثم يقوم Avatarify بتحويله إلى قناع متحرك.
إنه يعمل عن طريق استخراج النقاط الرئيسية من فيديو كاميرا الويب لوجهك الفعلي ، ثم تتبع النقاط الرئيسية أثناء تنقلك. يقوم بعد ذلك بتطبيق تلك المعلومات على الصورة الرمزية لتحريك أنفها ، على سبيل المثال ، في نفس الوقت مثل أنفك. يتم بعد ذلك دفق الصورة المتحركة إلى Zoom أو Skype أو أي خدمة مكالمات فيديو أخرى ترغب في استخدامها.
لتحريك شخص ما ، ما عليك سوى وضع صورته في مجلد معين ، وتشغيل تطبيق Avatarify ، ثم بدء مكالمة فيديو.
قال علييف: "جاءت هذه الفكرة بشكل عفوي عندما عثرت على نموذج الحركة من الدرجة الأولى" عبادة ماك. "لقد فوجئت بأدائها من حيث جودة الرسوم المتحركة... قررت أن أسخر من زملائي ، [و] بسرعة إنشاء نموذج أولي ، واقتحام مكالمة Zoom الأسبوعية مع [] وجه مقاتل MMA الشهير خبيب نورماغوميدوف. قدروا النكتة. كريم ، وهو زميلي أيضًا ، خطرت له فكرة. لقد نقله إلى Mac وقام بتأليف الفيديو باستخدام Elon Musk المزيف ".
يمكن رؤية النتائج المقنعة بشكل مدهش أدناه.
الإعداد المسبق لستيف جوبز
عندما قررا نشر Avatarify ، اتخذ الزوجان قرارًا بتضمين مجموعة مسبقة من الصور الرمزية. قال علييف: "نحن معجبون بستيف لالتزامه بالأفكار العظيمة ، لذلك أراد بالتأكيد أن يكون في الصورة الرمزية مسبقًا".
النتائج ليست مثالية بالطبع. تم تدريب النموذج على محاصيل صورة 256 × 256 ، مما يعني أن الجودة - رغم أنها مقبولة تمامًا لمكالمات Zoom - لن تصمد تمامًا أمام فحص HD. من شأن التدريب الأفضل للذكاء الاصطناعي ، خاصة مع زوايا الوجه القصوى ، أن يساعد في تحسين ذلك.
الأهم من ذلك ، على عكس مقاطع الفيديو المشهورة التي ربما شاهدتها ، فإن Avatarify يعمل مع الصور ثنائية الأبعاد. كما قال علييف ، لا يعرف شيئًا عن العالم ثلاثي الأبعاد. هذا هو الأبرز عندما يتعلق الأمر بتدوير الرأس. (مرة أخرى ، فكر في هذا كما لو كان مرتديًا قناعًا مسطحًا من الورق المقوى ، بدلاً من قناع ثلاثي الأبعاد.)
![زووم باحثو قناع الزيف العميق باحثو قناع الزووم العميق 1](/f/b7e770bf07801ca9dde340ab1e2392c0.jpg)
تصوير: كريم اسكاكوف / علي علييف
لكن لدى Avatarify بعض القيود
قال "الجانب الآخر من المشكلة هو الأداء". "في الوقت الحالي ، أنت بحاجة إلى جهاز كمبيوتر يعمل بنظام GPU لتشغيل Avatarify بمعدل معقول يبلغ 30 إطارًا في الثانية. تشغيله على جهاز CPU فقط [غير كاف] لعقد مؤتمرات فيديو ممتعة. نعتقد أنه من الممكن تسريع النموذج بحيث يعمل في الوقت الفعلي على جهاز CPU [مثل] MacBook. لكنها مشكلة بحثية كثيفة الاستخدام للموارد وتتطلب الكثير من الجهد والوقت. هناك خيار آخر لتحسين الأداء نتطلع إليه وهو استخدام وحدات معالجة الرسومات السحابية. [قد يعني ذلك] أن جميع العمليات الحسابية الثقيلة تتم في مكان آخر ، ولكن ليس على الكمبيوتر المحمول. "
المشكلة الأخيرة - التي لا مفر منها لأي شخص ينظر إلى عرض Elon Musk التجريبي - هي أن الصوت ينطفئ. في نهاية اليوم ، لا يزال صوتك يخرج من وجه شخص آخر. كانت هناك في الواقع بعض العروض التوضيحية المثيرة للإعجاب (والمخيفة) لـ deepfake الصوت في الآونة الأخيرة ، قادرة على تكرار صوت المشاهير. لكن لا يمكن استخدامها بسهولة هنا. لذلك ربما تبدأ في ممارسة انطباعاتك!
أفاتاريفي يمكن تنزيله من مستودع الأكواد عبر الإنترنت Github. إنه مجاني ومفتوح المصدر ، على الرغم من أنك ستحتاج إلى القليل من فهم الترميز الأساسي لتنشيطه وتشغيله. بعد ذلك؟ إنها مجرد مسألة انتظار مكالمة Zoom التالية ...