Google-ის AI კვლევითი ლაბორატორია DeepMind აცხადებს, რომ AI ტექნოლოგიის განვითარებაზე მუშაობს, რომელიც ვიდეოებისთვის მუსიკის გენერირებას შეძლებს. ამას შემოკლებულად V2A-ს (video-to-audio) უწოდებენ. მართალია, უკვე უამრავი მოდელი გაჩნდა, რომელსაც ვიდეოების გენერირება შეუძლია, თუმცა ასე ვერ ვიტყვით ხმის ეფექტებზე, რის მოგვარებასაც ახლა სწორედ DeepMind გვპირდება — „ვიდეოს გენერირების მოდელები საოცარი ტემპით ვითარდება, მაგრამ უმეტესობა მხოლოდ უხმო შედეგებს გვთავაზობს, V2A ტექნოლოგია კი საიმედო მიდგომას გვაცნობს, რომელიც გენერირებულ ფილმებს გააცოცხლებს“.
აღნიშნული ტექნოლოგია სიმღერის ტექსტს ვიდეოსთან დააწყვილებს, რათა შექმნას მუსიკა, ხმოვანი ეფექტები ან თუნდაც დიალოგი, რომელიც კადრებსაც ემთხვევა და ვიდეოს ტონსაც. რაღა თქმა უნდა, მსგავსად გენერირებულ ვიდეოებზე DeepMind-ის ნიშანს იხილავთ, რაც SynthID ტექნოლოგიითაა განსაზღვრული. აღსანიშნავია, რომ V2A მოდელი როგორც ხმების, ისე დიალოგების ტრანსკრიპტებზე გაწვრთნეს.
„ვიდეოზე, აუდიოსა და დამატებით ანოტაციებზე გაწვრთნით, ჩვენი ტექნოლოგია სწავლობს კონკრეტული აუდიოს განსხვავებულ ვიზუალურ სცენებთან შესაბამისობას, ამასთან, პასუხობს ინფორმაციებს, რომლებიც ანოტაციებისა და ტრანსკრიპტების სახითაა მოწოდებული“, — აცხადებენ DeepMind-ში.
ისიც უნდა ითქვას, რომ ხმის გენერირების ხელსაწყო სულაც არ არის ახალი ინდუსტრიისთვის. აი, მაგალითად გასულ კვირას Stability AI-მ ჩაუშვა ერთ-ერთი, მაისში ElevensLabs-მა. არც ხმის ეფექტებია სიახლე, რდაგან აქამდე Microsoft-მა Pika-სა და GenreX-ზე დაიწყო საუბარი… თუმცა გუგლის მტკიცებით, თავისი V2A ტექნოლოგია უნიკალურია იმით, რომ შეუძლია, ვიდეოდან RAW პიქსელებიც გაიაზროს და მიღებული ხმები მას ავტომატურად შეუსაბამოს.
თუმცა V2A ჯერ იდეალური რომ არ არის, ეს DeepMind-შიც იციან. გამომდინარე იქიდან, რომ მის უკან არსებული მოდელი არ გაწვრთნილა ბევრ ვიდეოზე, რომელსაც არტეფაქტებიც ექნებოდა და ხარვეზებიც, იგი მსგავსი კონტენტისთვის მაღალი ხარისხის აუდიოს ვერ ქმნის. ზოგი იმასაც ამბობს, რომ გენერირებული ხმა ნაკლებად დამაჯერებელია და სტერეოტიპულად ჟღერს… ამ მიზეზების გამო კი DeepMind-მა გადაწყვიტა, ტექნოლოგია ჯერ საჯაროდ არ ჩაუშვას.
„იმისათვის, რომ დავრწმუნდეთ V2A ტექნოლოგიას პოზიტიური გავლენა ექნება შემოქმედებით საზოგადოებაზე, ჩვენ ვაგროვებთ მრავალფეროვან პერსპექტივებსა და ინსაითებს წამყვანი კრეატორებისა და რეჟისორებისგან. ვიყენებთ ამ ღირებულ უკუკავშირს კვლევისა და განვითარებისთვის. მანამ, სანამ ღია წვდომას განვიხილავთ, V2A მკაცრ უსაფრთხოებისა და ტესტირების ფაზებს გაივლის“, — ვკითხულობთ DeepMind-ის განცხადებაში.