შესაძლოა ამ ტექნოლოგიის დახვეწის შემდეგ სტატია ხელით კი აღარ ავკრიფოთ ტექსტურ ედიტორებში, არამედ ეს ჩვენ მაგივრად პროგრამამ გააკეთოს, თუმცა, გამომდინარე იქიდან, რომ ის ჯერ დასახვეწია, სტატიის წერის სტანდარტულ მეთოდს ვიყენებთ. მიზანი კი ისაა, რომ ცნობიერება ავამაღლოთ და მეტი მოხალისე მოვიწვიოთ იმ ინიციატივაში მონაწილეობისთვის, რასაც ქართული ენის განვითარება ჰქვია.
არ ვიცი, გახსოვთ თუ არა, მაგრამ სკოლაში ყველას გვასწავლიდნენ, რომ ენა ცოცხალი ორგანიზმია, რომ ის სულ უნდა განვითარდეს, დაიხვეწოს და თანამედროვეობასაც უნდა აუწყოს ფეხი. ეს თუ არა, ის მაინც გემახსოვრებათ, როგორ გვეუბნებოდა ჩვენი ქართულის მასწავლებელი, რომ ქართული ენა ერთ-ერთ უძველეს ენათა რიცხვს მიეკუთვნება, რომ იშვიათია მისნაირი უნიკალური ენა და რომ მას ისე უნდა მოვუფრთხილდეთ, როგორც საუნჯეს. აბა? გაგახსენდათ სკოლის მერხი და ქართულის გაკვეთილები?
21-ე საუკუნეში ყველანი ტექნოლოგიებზე ლაპარაკობენ და ამ სფერომ თითქოს სხვა ყველაფერი მოიცვა. სწავლება იმაზე, რომ ქართულ ენას დაცვა და განვითარება სჭირდება, მხოლოდ ცარიელ სიტყვებად დარჩება, თუ მასზე რეალურად არ იმუშავეს შესაბამისმა ჯგუფებმა, ენათმეცნიერებმა, ტექნოლოგიების ექსპერტებმა და უბრალოდ, რიგითმა ადამიანებმაც.
სწორედ ამ მიზნით, ცოტა ხნის წინ მოხალისეთა თემი გაჩნდა, რომელიც ქართული ენის Speech to text მოდელის შექმნაზე მუშაობს და ცდილობს, რომ თავისი წვლილი შეიტანოს ენის განვითარების საქმეში. შუა საუკუნეებში „ვეფხისტყაოსნის” გადამწერები არსებობდნენ და რომ არა ისინი, ალბათ, ქართული ლიტერატურის ეს შედევრი ჩვენამდე ვერც მოაღწევდა, დღეს კი სასიცოცხლოდ მნიშვნელოვანია, ქართული ენა გაციფრულდეს, რადგან თუ ის ტექნოლოგიებს არ დაუმეგობრდება, დიდი შანსია, რომ დროს ჩამორჩეს, რაც მრავალ სხვა პრობლემას გამოიწვევს.
როგორ შეიძლება გახდეთ მოხალისე?
ძალიან მარტივად! უბრალოდ გახსენით ვებგვერდი https://commonvoice.mozilla.org/ka/speak , გაახმოვანეთ მოცემული ტექსტი, შეამოწმეთ ჩანაწერი და ეგაა, მისია შესრულებულია. თუ ამას ყოველდღე ერთხელ მაინც გააკეთებთ, ქართული ენის გაციფრულებაში დიდ წვლილს შეიტანთ.
მოხალისე რაზმიკ ბადალიანი გვიხსნის, თუ რა მნიშვნელობა აქვს ამ პროექტს:
„თქვენ ალბათ იცნობთ პროგრამებს, რომლებსაც ზეპირი მეტყველების ტექსტად გადაქცევა შეუძლია. უცხო ენებზე და, განსაკუთრებით, ინგლისურზე ეს კარგად მუშაობს, მაგრამ ქართულისთვის მსგავსი ტიპის პროგრამები ჯერ კიდევ უცხოა. მართალია, Google-ის დოკუმენტებს აქვს ეს ფუნქცია, მაგრამ ისინი ბოლომდე არაა ქართულს მორგებული და შეცდომებით მუშაობს, მაშინ როცა იგივე Google არაჩვეულებრივად ამუშავებს ინგლისურენოვან ტექსტებს.
ჩვენი ინიციატივის მიზანია, გავაუმჯობესოთ ქართული ენის Speech To Text უნარები. ეს საქმეს გაუმარტივებს როგორც ტექსტებზე მომუშავე ადამიანებს, ისე უბრალოდ დაინტერესებულ პირებს, რომლებიც გამოიყენებენ მას როგორც პროფესიულ, ისე ყოფით ცხოვრებაში”.
მოხალისეებს ყველა შეიძლება შეუერთდეს და დღეში სულ მცირე დროის გამოყოფით, დიდ საქმეში მიიღოთ მონაწილეობა. ჯგუფი უკვე არსებულ და სხვადასხვა ენაზე მორგებულ პლატფორმას, Common Voice Mozilla-ს იყენებს. მისი გამოყენება მარტივია – უბრალოდ ხსნით ვებსაიტს, აწკაპებთ მიკროფონზე და ახმოვანებთ იმ სიტყვას ან წინადადებას, რომელიც გამოჩნდება მონიტორზე. შემდეგ შეინახავთ ჩანაწერს და მოუსმენთ, რამდენად კარგად და გარკვევით ისმის ხმა. ამის გარდა, თქვენ შეგიძლიათ სხვისი გაკეთებული ჩანაწერებიც მოისმინოთ, შეამოწმოთ და დააფიქსიროთ, სწორია ჩანაწერი თუ არა. ეს ყველაფერი მხოლოდ რამდენიმე ღილაკით კეთდება და ნამდვილად ძალიან ცოტა დრო მიაქვს, დაახლოებით იმდენი, რამდენიც ფეისბუკის ერთ ჩასქროლვას.
„იმისათვის, რომ პროგრამა კარგად გაიწვრთნას, 1000 საათი მაინც უნდა იყოს ჩაწერილი. ამ დროისთვის მხოლოდ 146 საათის ჩანაწერი გვაქვს გაკეთებული, რაც იმაზე მეტყველებს, რომ მოხალისეთა აქტიური ჩართულობა გვჭირდება. ამ ეტაპზე აქტიურ მოხალისეთა რიცხვი, ალბათ, 20-ს არ აღემატება, რაც, სამწუხაროდ, ძალიან ცოტაა. მინდა აღვნიშნო, რომ თავის მხრივ გვეხმარება სახელმწიფო ენის დეპარტამენტიც, რომელიც ხშირად აზიარებს პოსტებს თავის სოციალურ ქსელში და ხელს გვიწყობს ენათმეცნიერებთან კომუნიკაციის დამყარებაში.
მოხალისეობრივ აქტივობებს ზოგადად დიდი მნიშვნელობა აქვს. მაგალითად, როდესაც მივდივართ ბუნებაში და ვასუფთავებთ მას ნაგვისგან, ჩვენ ამით ვიცავთ გარემოს. იმავე მნიშვნელობისაა ენის სამომავლო განვითარებაში წვლილის შეტანაც. მით უმეტეს, აქვე დავსძენ, რომ ეს საქმე ბევრად უფრო მარტივია, ვიდრე ტყეში წასვლა და იქაურობის დალაგება. სულ რომ დღეში 5 წუთი დაუთმოთ, უბრალოდ გახსნათ საიტი და რაღაც გაახმოვანოთ ან შეამოწმოთ სხვისი გახმოვანებული, უკვე დიდი საქმე კეთდება. თანაც, კარგად უნდა გავიაზროთ ის მასშტაბურობა, რაც ამ პროექტს აქვს, რადგან კრებულები, რომლებზეც ჩვენ ახლა ვმუშაობთ, მუდმივად იარსებებს და უამრავი გამოყენება შეიძლება ჰქონდეს. აქედან გამომდინარე, ეს შეიძლება იყოს საშვილიშვილო საქმე, რადგან ის მიმართულია პრობლების საფუძვლის მოგვარებაზე და არა სიმპტომების მოშუშებაზე”, – რაზმიკ ბადალიანი.
თუ რა გამოყენება შეიძლება ამ კრებულებს ჰქონდეს, რატი სხირტლაძემ აგვიხსნა, კომპანია „ენაგრამის” დამფუძნებელმა, რომელიც ქართული ენის გაციფრულების საკითხებით ბოლო რამდენიმე წელია დაინტერესებულია და აღნიშნული კრებულების გამოყენებაც დაიწყო თავისი პროდუქტის დახვეწაში:
„ჩვენ ყველანი ვიცნობთ ისეთ პროდუქტებს, როგორებიცაა, მაგალითად, SIRI, Google Assistant. როცა რაღაცას ვეძებთ ინტერნეტში, ხელით აღარ ვკრეფთ, პირდაპირ ვეუბნებით პროგრამას და ის ჩვენს ბრძანებას ასრულებს, მაგრამ ეს ძირითადად ინგლისურად ხდება, რადგან ქართულ ენაზე მსგავსი ხარისხის ციფრული პროდუქტი ჯერ არ გვაქვს, რის გამოც ქართული ენა გვერდზე რჩება, რადგან ამ თანამედროვე ტექნოლოგიების ეპოქაში ინგლისურად გვიწევს გარკვეული საქმეების კეთება იმის გამო, რომ ჩვენს ენაზე მსგავსი პროდუქტი არ გაგვაჩნია. ეს პროგრამები, რომლებიც მოხალისეობრივად ახლა კეთდება, Speech To Text მოდელის ასაწყობად გამოდგება, რომელსაც მრავალმხრივი გამოყენება შეიძლება ჰქონდეს. Speech To Text არის მოდელი, რომელიც ჩვენს საუბარს აქცევს ტექსტად. ეს რაში შეიძლება საზოგადოებამ და სხვადასხვა სფერომ გამოიყენოს: მაგალითად, გსურთ ტექსტის აკრეფა ფაილში, თქვენ შეგიძლიათ უკარნახოთ ტექსტი და პროგრამა თავისით დაწერს მას, პლუს ჩვენ იმაზეც ვმუშაობთ, რომ ამას ჰქონდეს spell checker, რომელიც ნაკარნახევს გრამატიკულად გაასწორებს.
ასევე, დავუშვათ, კომპანიას აქვს ცხელი ხაზი, სადაც საუბარი იწერება. პრობლემების შემთხვევაში, ამ საუბრების გაშიფრვა საკმაოდ დიდ შრომასა და დროსთანაა დაკავშირებული. ასეთი პროგრამების გამოყენებით კი, ბევრად მარტივდება მსგავსი საუბრების გარჩევაც, ინსაითების ამოღებაც და კლასიფიცირებაც.
ბევრი სხვა სფერო არსებობს, სადაც STT პროგრამების წარმატებით გამოყენებას შევძლებთ. ის დაეხმარება ჟურნალისტებს, რომ მათ ჩაწერილი ინტერვიუ ტექსტად აქციონ ან, მაგალითად, კომიტეტის სხდომას აშუქებენ და სჭირდებათ ციტატების ამოღება. იგივე პროგრამა შეიძლება დაინერგოს სასამართლოში. დღეს თუ სტენოგრაფისტები დიდ დროს ხარჯავენ იმაზე, რომ ჩაიწერონ ჩვენებები, საუბრები, ამ ყველაფრის გაკეთება STT პროგრამის მეშვეობით გაცილებით მოკლე დროშია შესაძლებელი და ნაკლები შრომის ფასადაც.
კიდევ ერთი მნიშვნელოვანი გამოყენება ამ პროგრამამ შეიძლება სამედიცინო სფეროში მოიპოვოს. მოგეხსენებათ, დღეს, როცა რადიოლოგთან მივდივართ, მას უწევს დიდი რაოდენობით ტექსტის ხელით აკრეფა იმისთვის, რომ შეავსოს პაციენტის ანკეტა, დაწეროს იმის აღწერა, რაც კვლევაზე დაინახა და დიაგნოზი. ამ პროგრამის მეშვეობით, ეს პროცესიც გამარტივდება. კიდევ შემიძლია მაგალითად მოვიყვანო შშმ პირებისთვის საქმეების გამარტივება. ხომ არის შემთხვევები, რომ ვიღაცას ხელი აქვს დაზიანებული და ვერ კრეფს ტექსტს, რომ არ იწვალოს და არ შეფერხდეს, საუბრით შეუძლია წერილობით ტექსტად გადააკეთოს.
ერთი სიტყვით, ამის გამოყენება საკმაოდ მრავალმხრივი და ფართოა და ყველაფრის ჩამოთვლა შორს წაგვიყვანს. მთავარი ახლა ისაა, რომ რაც შეიძლება მეტი ჩანაწერი გაკეთდეს და მეტად შეივსოს ის საათები, რაც საჭიროა პროგრამის დასახვეწად. საჭიროა არა მხოლოდ ერთი და ორი, არამედ სხვადასხვა სქესის, ასაკის, საუბრის მანერის მქონე ადამიანთა საუბრის ჩაწერა, რათა პროგრამა უფრო გაიწვრთნას და მისი მეშვეობით უკეთესი ხარისხის STT მოდელი შეიქმნას”.
ავტორი: მარიამ გოჩიაშვილი