Badacze z Microsoftu pochwalili się pobiciem kolejnego rekordu w dziedzinie rozpoznawania mowy. Za pomocą testu Switchboard udowodnili, że ich system rozpoznawania mowy popełnia jedynie 5,1% błędów, co oznacza, że sprawuje się równie dobrze jak człowiek.

Switchboard to zestaw nagranych rozmów telefonicznych, który od ponad 20 lat używany jest do testów dokładności systemów rozpoznawania mowy. Zadaniem testowanego systemu jest przełożenie rozmowy na tekst pisany. Rozmowy dotyczą bardzo różnych tematów, w tym sportu i polityki.

W porównaniu z ubiegłym rokiem ekspertom udało się zmniejszyć odsetek błędów o około 12% i osiągnąć tym samym poziom rozumienia tekstu przez człowieka. Dokonano tego dzięki całej serii udoskonaleń w modelach akustycznych i językowych, wprowadzono nowy model o nazwie CNN-BLSTM (konwolucyjna sieć neuronowa połączona z dwukierunkową pamięcią długo- i krótkoterminową). Sukces stał się możliwy dzięki wykorzystaniu oprogramowania Microsoft Cognitive Toolkit 2.1 oraz chmury Azure, na której trenowano modele i sprawdzano nowe pomysły.

Prace nad systemami rozpoznawania mowy równie sprawnymi jak człowiek trwają od ponad 25 lat. W 1995 roku IBM zaprezentował najdoskonalszy wówczas system rozpoznawania mowy, w którym odsetek błędów wynosił 43%. Od tamtej pory oprogramowanie jest ciągle udoskonalane.

Eksperci Microsfotu cieszą się ze swojego osiągnięcia, ale zauważają, że przed nimi jeszcze sporo pracy. Systemy rozpoznawania mowy słabo sobie radzą w środowisku pełnym innych dźwięków, gdy mikrofon jest oddalony od mówiącego, gdy słowa wypowiadane są z wyraźnym obcym akcentem, nie radzą sobie też, gdy mają do dyspozycji małą bazę danych, na której mogą się uczyć.

Zupełnie inną kwestią jest też nauczenie komputerów rozumienia mowy, a nie tylko jej rozpoznawania. Przejście od rozpoznawania do rozumienia to kolejne wielkie wyzwanie stojące przed specjalistami zajmującymi się rozpoznawaniem mowy, czytamy na blogu Microsoftu.

Polecane: