Meta-ს უახლესი პროგრამა, სახელწოდებით Voicebox AI, ხმოვანი გზით ურთიერთობის ფორმას სრულად შეცვლის. როგორც კომპანია ირწმუნება, მომხმარებლებს ტექსტის ხმოვან ჩანაწერად ქცევა კონკრეტული ინდივიდის ხმით შეეძლებათ.
განსხვავებით ტრადიციული text-to-speech სისტემებისგან, რომლებიც ზოგად რობოტულ ხმებს ეყრდნობა, Voicebox მეტას ნერვული ქსელის არქიტექტურას იყენებს. ეს უკანასკნელი რეალისტურ ვოკალურ რეპლიკებს ქმნის — აღბეჭდავს დახვეწილ ნიუანსებს, ინტონაციებს და ჩვეულ მანერას.
ამგვარი სისტემის შესაქმნელად, კომპანიამ ალგორითმი 60 000 საათის ხანგრძლივობის ინგლისური აუდიოწიგნებით გაწვრთნა. ამას დაემატა 50 000 საათის ხანგრძლივობის ჩანაწერები შემდეგ ენებზე: ინგლისურ, ესპანურ, გერმანულ, პორტუგალიურ, ფრანგულ და პოლონურ. შესაბამისად, ახალი ფუნქცია მხოლოდ ერთ ენაზე მოსაუბრეთა სეგმენტს არ მოიცავს და საკმაოდ მრავალფეროვან მასშტაბს ფარავს.
Voicebox მიზნად ისახავს, გახსნას შესაძლებლობების ფართო სპექტრი, როგორც პირადი, ასევე პროფესიული გამოყენებისთვის. მაგალითად, მხედველობადაქვეითებული ადამიანები სისტემას საყვარელი ადამიანის ხმის ნიმუშს მიაწოდებენ და მოგვიანებით ამ ეფექტით მოისმენენ ტექსტებს. ამას ემატება აუდიოს რედაქტირების შესაძლებლობაც, რაც განსაკუთრებით საინტერესოა პროფესიონალი მომხმარებლებისა და კონტენტ კრეატორებისთვის — მაგალითად, ჩანაწერიდან ფონური ხმების ამოღების ფუნქცია, ხმის რეგენერაცია და ა. შ.
რა თქმა უნდა, ამ ყველაფრის მიღმა უკვე წამოიჭრა ეთიკური საკითხები… როდესაც მსგავსი გენერატორი საზოგადოების ხელშია, მრავალი მორალური დარღვევის საშიშროება არსებობს — ის ყალბი ხმოვანი ჩანაწერების შექმნას გააადვილებს. თუმცა Meta-ს მიერ გამოქვეყნებული ანგარიშის თანახმად, ორობითი კლასიფიკაციის მოდელს გენერირებული და რეალური ადამიანის ჩანაწერის გარჩევა შეუძლია.