Firma Microsoft pochwaliła się, że udało jej się osiągnąć najniższą w historii wyrazową stopę błędów przy cyfrowej transkrypcji mowy.
System Microsoftu słyszy i zna wypowiadane słowa. W najnowszym teście jego oprogramowanie do rozpoznawania mowy osiągnęło „efektywność na poziomie ludzkiego transkryptora”.
Jest nagranie wywiadu, wykładu lub jakiejkolwiek innej wypowiedzi. Trzeba przelać te słowa na papier. Na co dzień zajmują się tym profesjonalni transkryptorzy. Technologiczni giganci, tacy jak IBM czy właśnie Microsoft, starają się jednak osiągnąć ten efekt, wykorzystując oprogramowanie komputerowe. Między innymi dzięki usprawnieniu drzemiących w nim algorytmów sztucznej inteligencji firma z Redmond osiągnęła o 12 proc. lepszy wynik niż rok temu.
260 godzin nagrań pochodzących z 2400 rozmów telefonicznych pomiędzy 540 anglojęzycznymi rozmówcami – taki materiał do transkrypcji otrzymało oprogramowanie Microsoftu. Poradziło sobie dosłownie świetnie, osiągając wyrazową stopę błędu na poziomie zaledwie 5,1 proc. Najmniejszą w historii.
WER, czyli wyrazowa stopa błędu, służy do określania skuteczności systemu rozpoznawania mowy, a zasada jest taka, że im niższa, tym lepiej. Wylicza się ją ze wzoru: (S+D+I)/N, gdzie S to liczba pomylonych słów, D – liczba pominiętych słów, I – liczba wstawionych słów, a N – liczba wszystkich słów. Dotychczasowy rekord należał do firmy IBM, której Watson mógł pochwalić się WER na poziomie 5,5 proc.
Po co nam w ogóle taka technologia? Niektórzy widzą w niej przede wszystkim szansę na udoskonalenie narzędzi do inwigilacji. Jeśli jednak odsunie się takie scenariusze, to wyłoni się wizja komputerów i urządzeń mobilnych, z którymi można by się bez większych problemów komunikować za pomocą głosu (na poziomie znacznie wyższym niż oferują obecny asystent Google czy Siri od Apple).
Oprócz takiej bezpośredniej komunikacji, systemy rozpoznawania mowy mogą także uzupełnić usługi konsumenckie (takie jak chatboty). Wizja rozmowy z konsultantem, który zawsze ma dobry dzień i w każdym przypadku wie, jak pomóc, wydaje się naprawdę ciekawa.
Jednak droga do doskonałego cyfrowego transkryptora jest długa. I choć nie można odmówić sukcesu firmie Microsoft, to trzeba wziąć pod uwagę, że jej system radzi sobie dobrze tak długo, jak ma do czynienia z tradycyjną rozmową. Tymczasem człowiek jest w stanie lepiej lub gorzej zrozumieć kilka osób wypowiadających się na przykład podczas imprezy. Osiągnięcie takiego poziomu byłoby prawdziwym przełomem. Na to jednak wciąż musimy czekać.
Na koniec jeszcze małe sprostowanie, słuszność określenia „efektywności ludzkiego transkryptora” na poziomie 5,1 proc. jest dyskusyjna. Niektórzy naukowcy się z tym zgadzają, inni – nie (twierdząc, że to tylko marketingowy zabieg tych, którzy chcą, by ich dzieła dorównywały ludziom). Jest zbyt wiele czynników, by rozstrzygnąć tę kwestię jednoznacznie. Czy jednak jest to faktycznie „ludzki poziom”, czy nie – sukces jest niezaprzeczalny.
Źródło: Microsoft Research AI, The Register. Ilustracja: coffeebeanworks/Pixabay
Komentarze
14Tylko żeby było PO POLSKU, bo to że komputer rozumie angielski to niech sobie w d. wsadzą.
Póki co myślę po polsku - co z tego że potrafię to powiedzieć po angielsku. Jak mam się tak zastanowić, to wolę zapisać.
A rozpoznawanie mowy to milion zastosowań. Lekarz - zamiast samemu zapisywać wyniki badania, czy dyktować sekretarce i potem sprawdzać - ciach, rozpoznało i gotowe.
Prawnik. Handlowiec. I tak bez końca.
A nawet Star Trekowy translator potrafi rozpoznać mowę kosmituf których np załoga Enterprise spotyka pierwszy raz!