ალბათ, უკვე ფიქრობთ, რომ ეს ყალბი კონტენტის გავრცელებას კიდევ უფრო გაამწვავებს, მაგრამ კომპანია დაჟინებით ამბობს, რომ ამ საქმეს პასუხისმგებლიანად უდგება. შესაბამისად, არც შეშფოთების საფუძველი უნდა არსებობდეს იმის გამო, რომ OpenAI ავითარებს ტექნოლოგიას, რომლის გამოყენებაც ხმების კლონირებისთვის შეგვიძლია…
სულ ახლახან OpenAI-მ Voice Engine-ის დებიუტი შემოგვთავაზა, არსებული ტექსტის მეტყველებად გარდაქმნის API-ს გაუმჯობესებული ვერსია. ამაზე ორი წელი მუშაობდნენ, ახლა კი Voice Engine მომხმარებლებს საშუალებას აძლევს, ატვირთონ 15-წამიანი ხმის ჩანაწერის მაგალითი, რათა მოდელმა ამ ხმის სინთეტიკური ასლი აწარმოოს. თუმცა ეს საჯაროდ ხელმისაწვდომი როდის გახდება, ჯერ არ აცხადებენ, რაც კომპანიას მიღებულ შეფასებებზე პასუხის გაცემის საშუალებას მისცემს.
„გვინდა დავრწმუნდეთ, რომ ყველა გრძნობს თავს კარგად ამ ტექნოლოგიის განვითარების გამო, ვიაზრებთ იმ ლანდშაფტის არსებობას, სადაც ეს ტექნოლოგია სახიფათოა და ამის თავიდან ასაცილებლად შესაბამისი ბერკეტებიც გვაქვს“, — აცხადებს ჯეფ ჰარისი, OpenAI-დან.
Voice Engine ზუსტად იმ მოდელს ეყრდნობა, რომელიც ChatGPT-ში ხმისა და ხმამაღლა წაკითხვის შესაძლებლობებს უდევს საფუძვლად, იმას, რომელსაც Spotify-ც იყენებს პოდკასტებისთვის. რაც შეეხება მონაცემებს, როგორც ჰარისი ამბობს, მოდელი ლიცენზირებული და საჯაროდ ხელმისაწვდომი მონაცემების ერთობლიობისგან შედგება. ეს მოიცავს ხმოვანი ჩანაწერების უამრავ რესურსს, რომლებიც საჯარო საიტებსა და, ზოგადად, ინტერნეტში მოიძებნება.
თუმცა იმის გამო, რომ გენერაციული ხელოვნური ინტელექტის ავტორები გამოყენებულ მონაცემებს კონკურენტულ უპირატესობად მიიჩნევენ, მასთან დაკავშირებული ინფორმაციების გაჟღერებისგან თავს იკავებენ. თანაც ეს ხშირად იქცევა ხოლმე IP-სთან დაკავშირებული სარჩელების პოტენციურ წყაროდ, რაც OpenAI-სთვის უცხო არ არის…
ცოტა უცნაურია, მაგრამ Voice Engine მომხმარებელთა მონაცემებზე არ არის გაწვრთნილი, შესაბამისად, მასზე კარგად მორგებულიც არ არის. ეს კი ნაწილობრივ იმ დიფუზიური პროცესისა და ტრანსფორმერის კომბინაციითაა გამოწვეული, რომლითაც მოდელი მეტყველებას აგენერირებს — „ჩვენ ავიღეთ პატარა აუდიო ნიმუში და ტექსტი, და გარდავქმენით რეალისტურ მეტყველებად, რომელიც სპიკერის ხმას ემთხვევა. გამოყენებული აუდიო ქრება მოთხოვნის დასრულების შემდეგ“.
როგორც განმარტავენ, მოდელი ერთდროულად აანალიზებს მეტყველებისა და ტექსტის მონაცემებს, ისე დააგენერირებს ხმას, რომ თითოეულ სპიკერზე ცალკე მოდელის შექმნა არ მოუწიოს. მართალია, ეს ახალი ტექნოლოგია არ არის და ამას უკვე გუგლი, მაიკროსოფტი და სხვებიც იყენებენ, მაგრამ OpenAI ამბობს, რომ იგი ყველაზე მაღალი ხარისხის მეტყველებას შემოგვთავაზებს. რაც შეეხება ფასს, სავარაუდოდ, 162 500 სიტყვა 15 დოლარი ეღირება. უფრო მარტივად რომ წარმოიდგინოთ, 18-საათიან აუდიოში საათში 1 დოლარის გადახდა მოგიწევთ. ეს კი, არსებულ ტექნოლოგიებთან შედარებით, გაცილებით იაფია…
ამ ეტაპისთვის OpenAI ელოდება, რა გამოხმაურებას მიიღებს ეს ამბავი საზოგადოებისგან, შესაბამისად, საჯაროდ გაშვების გეგმებიც ამ საკითხს უკავშირდება. თან ჰარისი ამბობს, რომ OpenAI ახლა უსაფრთხოების მექანიზმს ცდის, რომელიც მომხმარებლებს საშუალებას მისცემს, გაიგონ, როგორ გამოიყენება მათი ხმა. ასე კი კომპანიამ, შესაძლოა, ის ნდობაც მოიპოვოს, რომელიც Voice Engine-ს უფრო მეტი მომხმარებლის დაინტერესებაში დაეხმარება.
„ჩვენი წინსვლა დამოკიდებული იქნება იმაზე, თუ რას ვისწავლით საპილოტე ვერსიისგან, რას შევიტყობთ უსაფრთხოების საკითხებზე, რომლებიც გამოვლინდა და როგორ იმუშავებს ჩვენ მიერ შემუშავებული შემარბილებელი ფაქტორები. არ გვინდა, რომ ადამიანებს ხელოვნური და რეალური ხმების ერთმანეთისგან გარჩევა გაუჭირდეთ“, — აცხადებენ OpenAI-ში.
ეს უკანასკნელი კი ზუსტად ის არის, რაშიც OpenAI-ს აუცილებლად უნდა დავეთანხმოთ…