Sztuczna inteligencja ożywi rysunki
Mało przewidywalne dane – wyzwanie dla AI
Niedługo dzieci będą mogły zobaczyć, jak bohaterowie ich rysunków „ożywają". Zespół zajmujący się sztuczną inteligencją w koncernie Meta pracuje nad tym trudnym zadaniem. Sztuczna inteligencja (artificial intelligence, AI) potrafi już wiele, ale zwykle bazuje na zestawie (foto)realistycznych danych. Wtedy nie ma problemów z rozpoznawaniem obiektów na obrazach i rysunkach. Nie tak łatwo jest jednak z twórczością dziecięcą.
Spod pióra (kredki, farbki) dziecka wychodzą zazwyczaj postaci unikatowe, owszem przypominające człowieka, ale o nietypowych proporcjach ciała, pozach, rozmiarach i kolorach. I to już jest wyzwanie dla systemów AI. Stopy ustawione w niewłaściwym kierunku czy obie ręce po jednej stronie ciała dezorientują nawet najnowocześniejsze algorytmy. Naukowcy z Meta AI chcą pokonać to wyzwanie.
Automatyczna animacja
Zespół badaczy opracował metodę automatycznej animacji postaci ludzi (i obiektów podobnych do ludzi) rysowanych ręcznie przez dzieci. System potrafi w kilka minut ożywić rysunkowych bohaterów.
Ze względu na wysoki poziom różnorodności i nieprzewidywalności dziecięcych rysunków zespół zastosował czteroetapowy model szkolenia AI.
Wykryć obiekt
Najpierw badacze nauczyli system wykrywania obiektów, czyli odróżnienia postaci ludzkich od tła oraz innych typów postaci na obrazku. Użyli do tego modelu wykrywania opartego na konwencjonalnej sieci neuronowej opracowanej przez Meta AI – Mask R-CNN.
Model ten jest wstępnie wytrenowany na jednym z największych publicznych zbiorów danych dotyczących segmentacji, ale w jego skład wchodzą zdjęcia rzeczywistych obiektów, a nie rysunki. Dlatego badacze specjalnie dopasowali go do nowego zadania i przetrenowali na rysunkach utworzonych przez dzieci pracowników Mety (około 1000 projektów).
Oddzielić od tła
Kolejnym krokiem było oddzielenie wyodrębnionej postaci od innych części tła w procesie zwanym maskowaniem. Powstała maska następnie używana jest do utworzenia siatki, którą deformuje się w celu wyprodukowania animacji. Prawidłowo wykonana maska zawiera wszystkie elementy postaci i żadnego elementu tła.
Badacze napotkali na swojej drodze wiele problemów technicznych, np. maski nie uwzględniały elementów niepokolorowanych, przedstawionych tylko jako kontury. To powodowało pominięcie narysowanych w ten sposób części ciała niektórych postaci. Dlatego naukowcy sięgnęli po klasyczne podejście oparte na przetwarzaniu obrazu. Efekty były zadowalające, ale system nadal generował sporo błędów.
Ożywić postać
Na etapie tworzenia animacji wykorzystany został z kolej model AlphaPose wyszkolony do wykrywania póz przyjmowanych przez ludzkie ciało w trakcie ruchu. Miał on zidentyfikować kluczowe punkty w wyodrębnionych postaciach: biodro, ramię, łokieć, kolano itd. Model wytrenowany na obrazach prawdziwych ludzi badacze dostosowali, by radził sobie ze zmiennością charakterystyczną dla rysunków dzieci.
Szczegóły na temat kolejnych etapów prac i ich efektów można przeczytać tutaj.
Zespół Meta AI zaprasza do wypróbowania możliwości animacyjnych jego systemu poprzez przesłanie rysunków dzieci do wykorzystania w prototypowym modelu. Badacze mają nadzieję, że udostępnią większy zbiór danych i informacji jeszcze w tym roku.
fot. Meta