გამოდის, ხელოვნურ ინტელექტს უკვე თავისი ხედვის შემოთავაზება შეუძლია, რაც იმას გულისხმობს, რომ მან მეტყველებისა და სმენის უნარები შეიძინა. Microsoft-ის მკვლევრები VALL-E-ს შესახებ საუბრობენ — გენერატორზე, რომელიც ტექსტს მეტყველებად აქცევს. მას ადამიანის ხმის იმიტაცია მოკლე აუდიო ნიმუშით შეუძლია. VALL-E სპიკერის ემოციებსა და ტონსაც კი ჰბაძავს.
მოწყობილობა Meta-ს შეგროვებული LibriLight-ის აუდიო ბიბლიოთეკიდან 60 000-საათიანი ინგლისურ მეტყველების პროგრამით იწვრთნება. ადამიანის მეტყველების გამეორების გარდა, შეუძლია, ტექსტის ტრანსკრიპტზე სინთეზირებული აუდიო დაამატოს სიტყვებით, რომლებიც ორიგინალი სპიკერის მიერ არ წარმოთქმულა. იგი არც არსებული გარემოდან იღებს ელემენტებს, არამედ ხელახლა ქმნის მას.
საინტერესოა ისიც, რომ Microsoft-მა VALL-E-ს ზოგიერთი შედეგი სპეციალურ ვებსაიტზე გამოაქვეყნა. გარეგნულად თუ ხმით, ხელოვნური ინტელექტი საკმაოდ დამაჯერებელ ანიმაციურ ვიდეოს გვთავაზობს. თანაც, არ დაგავიწყდეთ, რომ ყველა ეს ჩანაწერი სამწამიანი ვიდეოებით არის შექმნილი. VALL-E-ს კი უფრო მდიდარი მონაცემები რომ ჰქონოდა, ბუნებრივია, შედეგებიც უკეთესი იქნებოდა.
Microsoft მოწყობილობის საჯაროდ გამოტანას არ აპირებს, რადგან ჯერ უამრავი საფრთხე არსებობს. მათ შორისაა Deepfake — როცა ადამიანის ხმა და სახე ციფრულად არის ჩანაცვლებული და ყალბ მასალასთან გვაქვს საქმე. თანაც, ჯერ კიდევ მრავალი კრიმინალი იმალება სხვადასხვა სახისა და ხმის გაყალბების ტექნოლოგიის უკან, რათა რეკრუტირების პროცესი, კონფიდენციალური ინფორმაციის მოპარვის იმედით, გადალახონ.
„რადგანაც VALL-E-ს მეტყველების სინთეზირება შეუძლია, რომელიც სპიკერის იდენტობას ინარჩუნებს, შესაძლოა, მისი ბოროტად გამოყენების პოტენციური რისკები არსებობდეს, როგორიცაა ხმის იდენტიფიკაციის გაყალბება ან კონკრეტულ სპიკერად გახდომა“, — აცხადებენ Microsoft-ში.
თუმცა კომპანია გვეუბნება, რომ შეუძლია შეიმუშაოს სისტემა, რათა დაადგინოს, რომელი აუდიოა შექმნილი VALL-E-ს მიერ და რომელი, არა…