წარმოიდგინეთ, რომ რთული ლაშქრობის შემდეგ მთის წვერზე დგახართ. დაღლილი ხართ, მაგრამ ბედნიერი. ქვემოთ გადაშლილი ქალაქის ხედი იმდენად შთამბეჭდავია, რომ გინდათ, ეს მომენტი ფოტოზე აღბეჭდოთ, თუმცა უკვე ბინდდება. საბედნიეროდ, თქვენს სმარტფონს ხელოვნურ ინტელექტზე დაფუძნებული „ღამის რეჟიმი“ აქვს, რომელიც მზის ჩასვლის შემდეგაც კი საოცარ კადრებს იღებს.
თუმცა, არის ერთი დეტალი, რომელიც შესაძლოა არ იცოდეთ: ეს „ღამის რეჟიმი“, დიდი ალბათობით, სინთეტიკურ, კომპიუტერულად გენერირებულ გამოსახულებებზე გაიწვრთნა – სცენებზე, რომლებიც რეალობაში არასდროს მომხდარა და კამერას არასდროს დაუფიქსირებია.
საქმე ისაა, რომ ხელოვნური ინტელექტის მკვლევრებს ინტერნეტსა და ციფრულ არქივებში არსებული რეალური მონაცემები ეწურებათ, ამიტომ სულ უფრო ხშირად მიმართავენ „სინთეტიკურ მონაცემებს“ – ხელოვნურად შექმნილ მაგალითებს, რომლებიც რეალურს ჰგავს. აქ კი ერთგვარ პარადოქსს ვაწყდებით: მეცნიერებაში მონაცემების გამოგონება დიდ ცოდვად ითვლება. ყალბი ინფორმაცია ისედაც ძირს უთხრის ნდობას ციფრულ სამყაროში. მაშ, როგორ შეიძლება სინთეტიკური მონაცემი „კარგი“ იყოს? ხომ არ არის ეს უბრალოდ ლამაზად შეფუთული სიცრუე?
მანქანური დასწავლის ექსპერტები მიიჩნევენ, რომ პასუხი მიზანსა და გამჭვირვალობაშია. სინთეტიკური მონაცემები, როგორც წესი, შედეგებით მანიპულირებისთვის არ იქმნება. პირიქით, ხშირად სწორედ ეთიკა მოითხოვს მათ გამოყენებას. მაგალითად, ადამიანების რეალური სახეების გამოყენებამ შესაძლოა კონფიდენციალურობის დარღვევა გამოიწვიოს, მაშინ როცა სინთეტიკური სახეები იგივე შედეგს იძლევა ისე, რომ არავის პირად სივრცეს არ ეხება.
როგორ იქმნება სინთეტიკური მონაცემები?
ხელოვნური ინტელექტის მოდელის გასაწვრთნელად დიდი რაოდენობით ინფორმაციაა საჭირო. როცა მონაცემები საკმარისი არაა, მკვლევრები ტრადიციულად „მონაცემთა აუგმენტაციას“ იყენებდნენ. სინთეტიკური მონაცემები კი ამ მეთოდის ბევრად უფრო დახვეწილი, „სტეროიდებზე შესმული“ ვერსიაა, სადაც მცირე ცვლილებების ნაცვლად, სრულიად ახალი გამოსახულებები იქმნება.
ამის ორი ძირითადი გზა არსებობს. პირველი ეყრდნობა ფიზიკის კანონებსა და წესებს – მაგალითად, ოპტიკის კანონების გამოყენებით სიმულირდება, თუ როგორ უნდა გამოიყურებოდეს კონკრეტული სცენა. მეორე გზა კი გენერაციული ხელოვნური ინტელექტია (Generative AI), რომელსაც ტექსტის, აუდიოსა და ვიდეოს საოცარი სიზუსტით შექმნა შეუძლია. ორივე მიდგომას ერთი პრინციპი აერთიანებს: თუ მონაცემი პირდაპირ რეალური სამყაროდან არ მოდის, ის სამყაროს რეალისტურ მოდელს უნდა ეფუძნებოდეს.
რა გამოწვევები ახლავს სინთეტიკური მონაცემების გამოყენებას
აუცილებელია მკაფიო ზღვარის გავლება მოდელებსა და რეალურ სამყაროს შორის. AI-ს საწვრთნელად სინთეტიკური მონაცემები შეუფასებელია, მაგრამ როცა საქმე რეალურ გარემოში მოდელის გაშვებას ეხება, მისი ტესტირება აუცილებლად რეალურ მონაცემებზე უნდა მოხდეს. ეს ტექნიკურადაც და ეთიკურადაც კრიტიკულად მნიშვნელოვანია.
საბოლოო ჯამში, ხელოვნური ინტელექტი მონაცემებში კანონზომიერებებს ეძებს, მაგრამ მას არ აქვს იმის განცდა, თუ რა არის „სიმართლე“. რეალობასთან კავშირის შენარჩუნება ადამიანების პრეროგატივაა. როცა თქვენს სმარტფონში AI-ფუნქციას გამოიყენებთ, გაიხსენეთ, რომ მას სინთეტიკური მონაცემები ეხმარება, თუმცა ჩვენი ცოდნის საბოლოო წყარო და შემფასებელი მაინც რეალობაა.
წყარო: Fastcompany












