Sztuczna inteligencja i głębokie uczenie mogą znaleźć wiele zastosowań. Od niedawna wiemy, że mechanizmy te świetnie radzą sobie z generowaniem portretów nieistniejących ludzi, podmienianiem twarzy w filmach, czy przygotowaniem tła do wyścigów samochodowych. NVIDIA dowodzi, iż SI może niedługo zagrozić pracy fotografów, fotoedytorów i rozchwiać w posadach imperium Adobe, zbudowane na Photoshopie. Wystarczy, że współpracujące ze sobą sieci GAN, w których skład wchodzą generatory i dyskryminatory połączą swoje wysiłki w przetwarzaniu obrazów. Nawet, jeśli nie rozumieją one fizycznej natury świata, którego odbicie próbują zrekonstruować.

Po ThisPersonDoesNotExist GAN-y szykują dla nas piękne krajobrazy, których nie uświadczymy w rzeczywistości. NVIDIA ma już opracowane oprogramowanie do szkicowania ujęć z wymarzonych wakacji…

Co by było, gdyby dziecinne rysunki, jak za dotknięciem magicznego ołówka zamieniały się w ich wyobrażenia – złożone obrazy pełne detali, poprawnie poskładanych z części elementów występujących w naturze? Nic nie dzieje się bez algorytmów, a wiec właściwe pytanie brzmi: co wydarzyłoby się, gdyby zaprząc mechanizmy sztucznej inteligencji do wypełniania prostych kształtów treściwymi, fotorealistycznymi ujęciami, będącymi kompozycją obiektów ze zdjęć. Brzmi to trochę jak opcja wypełniania z uwzględnieniem zawartości (content aware fill) w Photoshopie? To coś więcej, bo w tym przypadku sztuczna inteligencja konstruuje obraz od podstaw, na podstawie szkicu, który moglibyśmy nakreślić w kilka sekund w Paincie.

Do stworzenia kompozycji niezbędne są tzw. GAN-y – sieci algorytmów sztucznej inteligencji, wykorzystywane przy nienadzorowanym uczeniu się. Stąd i nazwa narzędzia dla malarzy GauGAN (będąca również nazwiskiem francuskiego malarza, impresjonisty, Paula Gaugana). Zastosowania aplikacji, w której rola człowieka sprowadza się do wskazania obszarów wypełnionych obiektami różnego typu, mogą być różnorodne – od błyskawicznego projektowania pejzaży stanowiących tło prezentacji, przez widoczki z wakacji (do pokazania w serwisach społecznościowych), po zgrabne projekty zagospodarowania terenów zielonych. Ważne jest to, że sztuczna inteligencja dba o poprawne łączenia obiektów – trudno na pierwszy rzut oka dostrzec różnice pomiędzy obrazem wygenerowanym przez GauGAN a zdjęciem będącym zapisem prawdziwego ujęcia – SI dba o każdy detal.

Generatory w GauGAN zostały przyuczone do swojej roli na na milionach prawdziwych fotografii. aby poprawnie generować elementy natury, takie jak las, chmury, niebo, góry, trawy, zbiorniki wodne, obszary piaszczyste, miejsca pokryte śniegiem, czy pagórki i wzgórza. Dyskryminatory (również szkolone na fotografiach) odpowiadają za poprawne połączenie poszczególnych elementów. Do nich należy dbałość o szczegóły, takie jak zaburzenia wody spływającej z wodospadu do oczka wodnego, czy odbicia skał wystających z wody. Nie jest to więc rozwiązanie, które służy wyłącznie do poprawnego łączenia elementów obrazu, a raczej program generujący realistyczne pejzaże na bazie szkicu stworzonego przez człowieka. Strach pomyśleć, jak fotorealistyczne rysunki za kilka lat będą przynosić nasze dzieci z przedszkola.

 

 

Źródło: Blogs NVIDIA, purepc