in ,

ქართული AI მოდელი, რომელიც, შესაძლოა, Zoom-ში ფონური ხმაურის დასახშობად გამოიყენონ

პანდემიის პირობებში, საგრძნობლად გაიზარდა ჯგუფური ვიდეოზარებისთვის შექმნილი პლატფორმების მოხმარება. იზოლაციისას, მათით სარგებლობის საჭიროების წინაშე დავდექით ყველა – ჟურნალისტი, სტუდენტი, სკოლის მასწავლებელი და ა.შ. ვიდეოზარებისთვის განკუთვნილი პლატფორმების მიმართ გაზრდილი მოთხოვნა, რა თქმა უნდა, არ გამორჩენიათ ტექნოლოგიურ გიგანტებს – Facebook-ს, Google-ს და ა.შ. მათ ვიდეოკონფერენციებისთვის განკუთვნილი პლატფორმები შექმნეს ან განაახლეს. ცოტა ხნის წინ კი, დიდი გამოხმაურება დაიმსახურა Google Meet-ის მიერ ფონური ხმაურის დახშობის ფუნქციის ამოქმედებამ. შეიძლება, ძაღლის ყეფა და მეზობლის ბურღის ხმა ვიდეოზარისას პრობლემა აღარ არის, თუმცა ეს, ჯერჯერობით, მხოლოდ ერთ პლატფორმაზე ვრცელდება.

ვიდეოზარისას ხელისშემშლელი ხმაურის დახშობის ფუნქციაზე იფიქრეს ქართველმა მკვლევარებმა. იფიქრეს და როგორც ამბობენ, რამდენიმე კომპონენტში ერთდროულად გააუმჯობესეს ის შედეგი, რასაც Google-მა Google Meet-ში ჩაშენებული მოდელით მიაღწია. ნაშრომი, რომელიც კორნელის უნივერსიტეტმა გამოაქვეყნა მის აკადემიურ წარმატებას მოწმობს. ნაშრომი ქართულ სტარტაპ SYSTEM CORP. -ის მკვლევართა ჯგუფს – ლევან ბეჟანიძესა და ლუკა ჩხეტიანს ეკუთვნის. სტარტაპის, რომელმაც რამდენიმე თვის წინ, ერთ-ერთი უმსხვილესი კორპორაცია NVIDIA-სგან 150 000$-იანი ინვესტიცია მიიღო და მისი ინკუბატორის წევრი გახდა.

შეგვიძლია ვთქვათ, რომ NVIDIA-ს ინვესტიციამ გაამართლა და როგორც ლუკა ჩხეტიანი ამბობს, ეს არის პირველი ნაშრომი საქართველოდან ნეირონული ქსელების დადიზაინების მიმართულებით, რომელიც უცხოურ აკადემიურ გამოცემაში გამოქვეყნდა და State of the art შედეგი აქვს. ხოლო ნაშრომის ფარგლებში შექმნილ მოდელს, სახელად SE-MelGAN აქვს პოტენციალი მალე Messenger Rooms-ში, ან Zoom-ში შეგვხვდეს. მით უფრო, როცა კვლევის თანაავტორი და SYSTEM CORP.-ის დაფუძნებელი – ლუკა ჩხეტიანი ამბობს, რომ მოლაპარაკებები უკვე დაწყებულია. 

M: რა მნიშვნელობისაა ნაშრომი? რა არის ის სიახლე, რაც კვლევას ღირებულს ხდის?
კვლევის შედეგებში მნიშვნელოვნადაა მოხსენიებული ის შედეგები, რომელიც ჩვენს კვლევას ე.წ. State of the art გადაჭრების სიაში ყველაზე მაღალ პოზიციაზე აყენებს. კონკრეტულად, არსებული კვლევებისა და კომერციული გადაჭრების გაუმჯობესება ორ სეგმენტად მოვახერხეთ: 1. ხარისხი ; 2. სისწრაფე. კვლევა აჩვენებს, რომ ჩვენი არქიტექტურა სტანდარტულ 4 ბირთვიან პროცესორზე 30 ჯერ სწრაფია ვიდრე რეალური დრო – ანუ 1 წამში 30 წამ აუდიოს შეგვიძლია მოვაშოროთ ხმაური მაღალი ხარისხით. გუგლის ბოლო პროდუქტი, რომელიც Google Meets-ში დააინტეგრირეს იმდენად მძიმეა, რომ უზარმაზარ გამოთვლით ძალას ხარჯავენ თავიანთ სერვერებზე სუფთა აუდიოს მიწოდებისათვის – როცა ჩვენი კვლევით აუდიოს გასუფთავება ლაივ რეჟიმში, თქვენსავე ლეპტოპზევეა შესაძლებელი.

ეს ყველაფერი მოწმობს, რომ ჩვენმა კვლევითმა გუნდმა გაამართლა 1 წლის წინ NVIDIA-საგან კვლევებისათვის მიღებული ინვესტიციის მიზანი და რაც მთავარია – პიონერები გავხდით საქართველოს საზღვრებში შექმნილი ხელოვნური ნეირონული ქსელების კვლევებით მსოფლიოში state of the art შედეგების ექსპორტით“.

M: კონკრეტულად, რის საშუალებას იძლევა თქვენ მიერ შექმნილი AI მოდელი?
SE-MelGAN-ს შეუძლია უამრავი ტიპის უკანა, ან პარალელური ხმაურის ჩახშობა. ანუ, თუ თქვენ გაქვთ შეხვედრა ხმაურიან ადგილას, შეგიძლიათ ჩვენი პროდუქტის გამოყენებით მშვიდად იყოთ – რადგან თქვენი ხმა იზოლირდება და ყველანაირი ფონური ხმაური ქრება. საუბარია 300 სახეობის ხმაურზე, სადაც შედის: უკანა ფონზე ლაპარაკი, მანქანების ხმაური, წვიმის ხმა, აბაზანის ხმა, ცხოველების ხმები, ბავშვის ტირილი და ა.შ. 

ნიმუშების მოსმენა შემდეგ ბმულზე შეგიძლიათ. 

M: როგორი იყო მოდელზე მუშაობის პროცესი? რა გამოცდილება გქონდათ აქამდე?
შენი ქვეყნიდან პიონერობა დიდ რისკებს, ჩაფლავებებსა და თავჩახრილ მუშაობას მოიცავს, განსაკუთრებით ისეთ სფეროში, როგორიც ხელოვნური ნეირონული ქსელებია. რა თქმა უნდა, გაგვიკეთებია კვლევები და მსოფლიო ბაზარზე კონკურენტუნარიანი პროდუქტები შეგვიქმნია, თუმცა მსოფლიოში ყველაზე შედეგიან კვლევაზე ამდენი ნაბიჯით მოგება პირველი იყო. თანაც, აქამდე აკადემიურ კვლევებს ისევ უშუალოდ კომერციალიზაციისათვის ვიყენებდით, ამჯერად კი სამეცნიერო ჟურნალებშიც გავგზავნეთ. პრეპრინტის ნახვა შეგიძლიათ ბმულზე.

M: გეგმავთ, თუ არა მოდელის შეთავაზებას ისეთი კომპანიებისთვის, რომლებიც ვიდეოზარების ბაზარზე არიან. მაგალითად Zoom ან Messenger Rooms?
ამჯერად აკადემიური წარმატება გვქონდა განსაკუთრებულ მიზნად, თუმცა რადგან პროდუქტი კომერციალიზაციისათვის იდეალური გამოდგა, რა თქმა უნდა მოლაპარაკებები დავიწყეთ Facebook-ის მესენჯერის გუნდთან, ასევე Microsoft-ის Skype-ს გუნდთან და რაღა თქმა უნდა – Zoom-თან. ყველაფერი საინტერესოდ მიდის, რაც გარდაუვალია, როცა მსოფლიო ბაზარზე არსებული მსგავსი პროდუქტები რამდენჯერმე გავაუმჯობესეთ.

ავტორი: ხატია თორდუა

ადამიანები იმაზე მეტად შემოქმედებითები ვართ, ვიდრე ვფიქრობთ

5G მხარდაჭერის მქონე პირველი ლეპტოპი გამოვიდა – Lenovo Yoga 5G