სულ რაღაც ორი წლის წინ, ადამიანის მიერ შექმნილი და ხელოვნური ინტელექტის დაგენერირებული გამოსახულებების გარჩევა ძალიან მარტივი იყო. მაშინ პრაქტიკულად შეუძლებელი გახლდათ, AI-სთვის, მაგალითად, მექსიკური რესტორნის მენიუს დიზაინი მიგენდოთ ისე, რომ ტექსტში გაუგებარი, გამოგონილი კერძების სახელები და აბსურდული ასოთა წყობები არ შეპარულიყო. დღეს კი რეალობა რადიკალურად შეიცვალა. ახალი ChatGPT Images 2.0 მოდელი უკვე ქმნის ისეთ ვიზუალებსა და მენიუებს, რომელთა გამოყენებაც ბიზნესში დაუყოვნებლივ შეიძლება და მომხმარებელი ვერანაირ უზუსტობას ვერ შეამჩნევს – თუ არ ჩავთვლით ფასებს, რამაც ლოგიკურობის კუთხით შესაძლოა მცირე ეჭვი გააჩინოს. შედარებისთვის, სულ რაღაც ორი წლის წინანდელი DALL-E 3 მსგავს ამოცანას აბსოლუტური ქაოსით პასუხობდა.
სურათების გენერატორებს სიტყვების სწორად დაწერა ყოველთვის უჭირდათ. ტექნოლოგიური ექსპერტები ამას იმით ხსნიდნენ, რომ ტრადიციული დიფუზიური მოდელები გამოსახულებას ფაქტობრივად ხმაურიდან აღადგენდნენ. ვინაიდან ტექსტი ფოტოს პიქსელების მხოლოდ უმცირეს ნაწილს იკავებს, გენერატორი უფრო მარტივად სწავლობდა დიდ პატერნებს, ვიდრე ასოების ზუსტ წყობას. მას შემდეგ მკვლევრებმა სხვა მექანიზმებიც გამოსცადეს, მათ შორის ავტორეგრესიული მოდელები, რომლებიც წინასწარმეტყველებენ გამოსახულების დეტალებს და უფრო მეტად ჰგვანან LLM-ს. OpenAI ჯერჯერობით თავს იკავებს დაკონკრეტებისგან, თუ ზუსტად რა ტიპის მოდელი უდევს საფუძვლად ახალ Images 2.0-ს.
სამაგიეროდ, კომპანია აქტიურად საუბრობს მოდელის განვითარებულ „აზროვნების უნარებზე“. ახალ ვერსიას შეუძლია დამოუკიდებლად მოიძიოს ინფორმაცია ინტერნეტში, ერთი მოთხოვნით შექმნას რამდენიმე ვარიანტი და გენერირების შემდეგ საკუთარი ნამუშევარი თავადვე გადაამოწმოს. ეს განსაკუთრებით მნიშვნელოვანია მარკეტერებისთვის, რადგან ახლა უკვე შესაძლებელია სხვადასხვა ზომის სარეკლამო მასალებისა და მრავალპანელიანი კომიქსების მარტივად შექმნაც.
გარდა ამისა, ახალ მოდელს ბევრად უკეთესად ესმის არალათინური დამწერლობები, მათ შორის იაპონური, კორეული, ჰინდი და ბენგალური. თუმცა, გასათვალისწინებელია, რომ მისი ცოდნის ბაზა 2025 წლის დეკემბრით შემოიფარგლება, რამაც შესაძლოა გავლენა იქონიოს უახლეს მოვლენებთან დაკავშირებული ვიზუალების სიზუსტეზე. OpenAI-ის ხედვით, Images 2.0-ს გამოსახულების შექმნის პროცესში უპრეცედენტო სპეციფიკა და სიზუსტე შემოაქვს. ის არა მხოლოდ აღიქვამს რთულ კონცეფციებს, არამედ ზუსტად მიჰყვება ინსტრუქციებს და ინარჩუნებს ისეთ წვრილმან დეტალებს, რომლებიც აქამდე მოდელებს ანგრევდა – იქნება ეს პატარა ტექსტები, ხატულები, UI ელემენტები თუ რთული კომპოზიციები, და ეს ყველაფერი 2K რეზოლუციით ხორციელდება.
ასეთი რთული პროცესების დამუშავებას ოდნავ მეტი დრო სჭირდება, ვიდრე უბრალო ტექსტურ კითხვაზე პასუხის გაცემას, თუმცა ისეთი რთული ამოცანებიც კი, როგორიც მრავალკადრიანი კომიქსის შექმნაა, სულ რაღაც რამდენიმე წუთს იკავებს. სიახლე სამშაბათიდან უკვე ხელმისაწვდომი ხდება ChatGPT-ისა და Codex-ის ყველა მომხმარებლისთვის, ფასიანი პაკეტის მფლობელები კი კიდევ უფრო განვითარებული შესაძლებლობებით ისარგებლებენ. პარალელურად, კომპანია უშვებს gpt-image-2 API-ს, რომლის ფასიც გენერირებული ვიზუალის ხარისხსა და რეზოლუციაზე იქნება დამოკიდებული.
წყარო: Techcrunch














