Rozpoznawanie mowy, to żadne novum, prawda? Rozwiązania z zakresu sztucznych inteligencji zdolnych do rozpoznawania mowy są powszechnie znane, wystarczy choćby wymienić inteligentnych asystentów Google’a, Amazona, Apple czy Microsoftu. Wyszukiwarkowy gigant opracował jednak ciekawy algorytm, który bardzo pomoże komputerowemu rozpoznawaniu mowy.

Badacze i eksperci od maszynowego uczenia w Google opracowali rozwiązanie, które umożliwi maszynie automatyczne i samodzielne wyizolowanie pojedynczego głosu konkretnego rozmówcy praktycznie w dowolnych warunkach akustycznych. Oczywiście pod warunkiem, że dany głos, nawet przytłumiony głosami innych i szumem otoczenia, również zostanie zarejestrowany.

Na oficjalnym blogu badawczym Google’a opublikowany został wpis dokładniej opisujący maszynowo wyuczony algorytm: audiowizualną separację mowy. O co chodzi? Poniższy film doskonale to ilustruje.

Na nagraniu widzimy dwóch artystów stand-upowych, którzy w oryginalnym nagraniu mówią w zasadzie jednocześnie. Gdy zapis ten został poddany analizie przez maszynowo wyuczony komputer Google’a, bez najmniejszych problemów możliwe jest skuteczne i płynne odseparowanie mowy każdego z komików niezależnie. Ważne: efekt nie jest rezultatem postprodukcji, lecz jest separacją konkretnego źródła mowy wykonywaną w czasie rzeczywistym.

Co ważne, maszyna analizuje nie tylko dźwięk, ale również obraz, a dokładniej mimikę danego rozmówcy, jego gestykulację itp. Wszystkie te informacje pozwalają sztucznej inteligencji skutecznie odizolować dowolnego rozmówcę zarejestrowanego na tego typu filmie. Co prawda na powyższym wideo jest tylko dwóch facetów. To może coś trudniejszego?

Kolejne nagranie przedstawia mówiącego człowieka na pierwszym planie, którego niestety trudno zrozumieć. Wypowiada on słowa w głośnej kawiarni, a to co mówi jest dość mocno zagłuszane przez gwar innych osób. Widać (i słychać) to szczególnie na początku nagrania. W momencie, gdy – nomen omen – do głosu dochodzi maszynowo wyuczony algorytm audiowizualnej separacji mowy, gwar w tle milknie niczym ucięty nożem, a rozmówcę na pierwszym planie można doskonale zrozumieć.

Schemat ilustrujący opracowany model separacji głosu (graf. Google Research Blog).

Powyższy schemat dokładniej pokazuje co się dzieje. Jak widać algorytm analizuje zarówno dane audio (zielone bloki) jak i dane wideo. Wszystkim informacjom przyporządkowywane są wagi mające znaczenie w procesie uczenia konwolucyjnej sieci neuronowej. W zależności od tego, którego rozmówcę chcemy lepiej słyszeć, algorytm maskuje i tworzy wyizolowane spektrogramy, które następnie są przetwarzane w wyjściowy, odseparowany strumień audio zawierający wyizolowaną mowę wybranego mówcy.

Google usłyszy to co chce i kogo chce – w połączeniu ze zdolnością rozpoznawania mowy, potencjał tego rozwiązania wydaje się naprawdę olbrzymi. Można go wykorzystać dobrze lub źle. Jak będzie? Czas pokaże.

 

 

 

 

Źródło: chip