Sądzę, że współczesne komputerowe systemy rozpoznawania obrazu są niewłaściwie zaprojektowane. Działają lepiej niż cokolwiek innego, ale to nie znaczy, że działają dobrze. Śmiałe stwierdzenie, ale gdy wypowiada je Geoff Hinton, jeden z twórców maszynowego głębokiego uczenia się, to warto się nad jego słowami zastanowić.

Współczesne systemy rozpoznawania obrazów korzystają z olbrzymich zbiorów danych, na podstawie których uczą się, jak wygląda dany przedmiot. Po przeanalizowaniu tysięcy, a czasem milionów zdjęć wykonanych w różnych warunkach, pod różnymi kątami, są w stanie stwierdzić, że obiekt na zdjęciu, z którym dotychczas nie miały do czynienia, to np. samochód. Oczywiście znalezienie odpowiedniej ilości danych nie jest obecnie żadnym problemem. Jednak za każdym razem gdy chcemy maszynę nauczyć rozpoznawania kolejnego obiektu, musimy zapewnić jej dostęp do odpowiedniej ilości danych, których przetworzenie wymaga z kolei olbrzymich farm obliczeniowych. Komputery działają więc znacznie gorzej niż np. ludzie, którzy po jednokrotnym obejrzeniu obiektu potrafią go później rozpoznać.

Hinton opublikował ostatnio dwa artykuły, w których postuluje stworzenie znacznie bardziej wydajnego systemu rozpoznawania obrazów. Jego największą zaletą jest fakt, że nie będzie on potrzebował tak wielkiej ilości danych jak systemy obecne.

Hinton postuluje stworzenie czegoś, co nazywa „sieciami kapsułowymi”. Każda z takich sieci składałaby się z grupy sztucznych neuronów zajmujących się tylko jednym z wielu elementów obrazu. System stworzony z połączenia takich kapsuł działałaby podobnie do tego, w jaki sposób ludzie przetwarzają i przechowują informacje wzrokowe. To zaś pozwoliłoby mu na zrozumienie, że ołówek odwrócony o 180 stopni nadal jest ołówkiem. I do wysunięcia takiego wniosku system nie potrzebowałby analizowania wcześniej tysięcy obrazów ołówka.

Polecane: