Jak powstała technologia Automatycznego Rozpoznawania Mowy?

Audrey, Harpy i DragonDictate – poznaj historie programów do automatycznego rozpoznawania mowy (ASR).

Technologie rozpoznawania mowy rozwijają się od ponad pół wieku, dostarczając zarówno momentów wielkich nadziei, jak i rozczarowań. Co sprawiło, że ASR - automatic speech recognition - ma dziś realne zastosowanie komercyjne? Na co było stać technologię w przeszłości, długo zanim usłyszeliśmy o Siri od Apple’a?

Dzieje tej technologii wyznaczają przede wszystkim próby zastosowania różnych podejść do tematu. Przez dziesięciolecia badacze doszli do rozmaitych metod rejestracji języka: poprzez jego brzmienie, strukturę, z wykorzystaniem danych statystycznych. Przyjrzyjmy się początkom historii programów ASR - od lat 50. do 90. XX wieku.

Początki

Ludzie interesują się rozpoznawaniem i syntetyzowaniem mowy już od (co najmniej!) setek lat. Ale to właśnie w połowie XX wieku nasi poprzednicy stworzyli coś, co można uznać za technologię rozpoznającą ludzki głos. Do najwcześniejszych projektów należy Audrey. Ten system - stworzony przez badaczy z Bell Laboratories w 1952 roku - miał swoje angielskie określenie: digit recognizer. Był w stanie rozpoznać wymówione cyfry poprzez wyszukiwanie formantów - pasm częstotliwości, czegoś w rodzaju głosowych odcisków palców, esencji dźwięku.

Shoebox IBM-u (1961)

W latach sześćdziesiątych IBM opracował Shoebox - system, który rozpoznawał cyfry oraz wyrażenia arytmetyczne jak dodawanie czy sumowanie. Co więcej, przekazywał zagadnienie matematyczne do urządzenia dodającego, które obliczało i drukowało wynik.

W tym czasie japońscy badacze skonstruowali sprzęt rozpoznający dźwięki mowy, np. samogłoski. Inne systemy potrafiły z kolei ocenić strukturę wypowiedzi tak, by uznać, w którym momencie może skończyć się dany wyraz. Zespół z angielskiego University College opracował identyfikację czterech samogłosek i dziewięciu spółgłosek poprzez analizę fonemów - podstawowych jednostek systemu dźwiękowego języka.

Branża stopniowo się rozwijała, choć bez jasno określonego kierunku. I wtem… katastrofa: publikacja w The Journal of the Acoustical Society of America.

The Journal of the Acoustical Society of America (Październik 1969)

John Pierce zamyka skarbonkę

Tym punktem zwrotnym był list napisany w 1969 roku przez Johna R. Pierce’a - inżyniera o międzynarodowym rozgłosie, mającego na koncie wiele zasług. To właśnie on ukuł wszechobecny w inżynierii termin tranzystor i przyczynił się do wyniesienia na orbitę Echo I, pierwszego na świecie satelity telekomunikacyjnego. W 1969 roku Pierce był już na stanowisku kierowniczym w Bell Labs, gdzie znacznie inwestowano w rozwój technologii do rozpoznawania mowy.

W liście otwartym w The Journal of the Acoustical Society of America Pierce wyartykułował swoje obawy. Odwołał się do obfitego, nieodpowiedzialnego finansowania w następstwie WW2 i Sputnika, karcąc środowisko zajmujące się dziedziną za brak naukowej ścisłości. Utrzymywał, że z ASR wiąże się zbyt dużo burzliwych eksperymentów:

Wszyscy wierzymy, że jest szansa na naukowy charakter dyscypliny - mimo niedostatku osób działających jak naukowcy i rezultatów, które przypominałyby naukę.

Pierce nie był gołosłowny - wstrzymał finansowanie programów ASR przez Bell Labs. Przywrócono je dopiero, gdy zrezygnował stanowiska w 1971 roku.

Jest progres

Los sprzyjał ASR, ale gdzie indziej. We wczesnych latach siedemdziesiątych Agencja Zaawansowanych Projektów w Obszarze Obronności Departamentu Obrony Stanów Zjednoczonych sfinansowała pięcioletni program: Speech Understanding Research. Doprowadziło to do stworzenia kilku nowych systemów ASR, z których najbardziej udanym był Harpy z Carnegie Mellon University. Mieliśmy rok 1976, a Harpy był w stanie rozpoznać ponad tysiąc słów.

W międzyczasie wysiłki IBM i Bell Laboratories AT&T doprowadziły do możliwości wykorzystania technologii na polu komercyjnym. IBM traktował priorytetowo transkrypcje mowy w kontekście korespondencji biurowej. Bell zajmował się funkcjonalnością command and control, która poprzedziła znane nam głosowe wybieranie numeru i call trees - zautomatyzowany system powiadomień.

Postęp był zauważalny, ale pod koniec lat siedemdziesiątych ASR wciąż miał szansę powodzenia tylko w zawężonych przypadkach.

Lata 80.: HMM

Rewolucyjna okazała się popularyzacja ukrytych modeli Markowa (eng. Hidden Markov Models - HMM) w połowie lat osiemdziesiątych. To podejście wiązało się ze znacznym przeskokiem z nieskomplikowanych metod rozpoznawania mowy opartych na wzorcach do rozwiązań statystycznych. Oznaczało pogłębienie precyzji całego procesu.

Doskonalenie systemów rozpoznających mowę od późnych lat sześćdziesiątych to zasługa rozwiązań statystycznych oraz postępu technologii komputerowej, która zaimplementowała HMM.

Ukryte modele Markowa zawładnęły branżą, ale nie z dnia na dzień. Po raz pierwszy zaadoptował je do ASR Jim Baker we wczesnych latach siedemdziesiątych. W poprzednim dziesięcioleciu były opisywane przez Leonarda E. Bauma. W latach osiemdziesiątych Jack Ferguson wygłosił serię pouczających wykładów w Institute of Defense Analyses. Technika rozpowszechniła się wtedy szerzej.

Sukces HMM potwierdziła praca Frederika Jelinka w Watson Research Center IBM-u. Od wczesnych lat siedemdziesiątych opowiadał się on za modelami statystycznymi w rozpoznawaniu mowy - w opozycji do komputerowych prób imitacji sposobów, w jaki ludzie klasyfikują język: poprzez znaczenie, składnię, gramatykę. Samoloty nie trzepoczą skrzydłami - jak to później podsumował Jelinek.

Lata 90. i dostępność konsumencka

Programy do rozpoznawania mowy w formie kojarzonej przez nas dzisiaj poznał konsument z lat dziewięćdziesiątych. W 1990 roku na rynku pojawił się słownik DragonDictate - w szokującej cenie 9 tys. dolarów, z zasobem 80 tys. słów i funkcjonalnościami takimi jak przetwarzanie języka naturalnego.

Narzędzia te pochłaniały sporo czasu. Dragon jest znany np. z tego, że proponował użytkownikowi dostosowanie software’u do swojego głosu. Początkowo rozpoznawał tylko 30-40 słów na minutę. Przeciętny użytkownik mówi cztery razy szybciej, stąd wypowiedzi musiały być nienaturalne.

Ale program działał na tyle dobrze, że Dragon rozwinął się w firmę zatrudniającą setki pracowników, która w 1997 roku wprowadziła do sprzedaży Dragon NaturallySpeaking. Ten program rejestrował słowa wypowiadane znacznie płynniej, był też łaskawszy dla portfela (150 dolarów).

Pomruków niezadowolenia było tyle, co zachwytów. ASR częściowo zawdzięcza współczesny sceptycyzm nadmiernie entuzjastycznemu marketingowi pierwszych produktów. Jednak bez wysiłków podejmowanych przez pionierów branży - Jamesa i Janet Baker, założycieli Dragon Systems (1982) - na produkty związane z tą technologią przyszłoby nam czekać o wiele dłużej.

List Pierce'a: 25 lat później

25 lat po publikacji listu Johna R. Pierce’a IEEE opublikowała Whither Speech Recognition: the Next 25 Years autorstwa dwóch pracowników Bell Laboratories (tej samej instytucji, w której Pierce pracował). Artykuł kontrastuje z pesymizmem oryginału, analizując sytuację branży w roku swojej publikacji (1993). Oto kilka z kluczowych stwierdzeń, jakie zawiera:

Pierce zakładał, że technologia ASR może stać się użyteczna, jeśli komputery zrozumieją, co znaczą słowa - to rzecz tym bardziej niewykonalna przy technologii z jego czasów
W pewnym sensie Pierce miał rację: rozumienie języka przez komputery z 1993 roku było ubogie
Błędem Pierce’a jest niedostrzeganie szerokiego spektrum zastosowań ASR - nawet, gdy komputer nie wie, co słowa w istocie znaczą

IEEE Communications Magazine (Listopad 1993)

Whither Speech Recognition: the Next 25 Years to także prognozy na przyszłość ASR. Niektóre z nich są dość fascynujące:

Do roku 2000 więcej osób będzie pozyskiwać informacje z odleglejszych źródeł poprzez głosowy dialog, niż pisanie poleceń na klawiaturze, by dotrzeć do zdalnych baz danych
Aby korzystać z programów rozpoznających mowę, ludzie nauczą się przekształcać swoje nawyki związane z wysławianiem się. Zupełnie tak jak zmienili je zaczynając zostawiać wiadomości na automatycznej sekretarce. I nawet, jeśli dobrze poznają technologię rozpoznawania mowy, wciąż będą na nią narzekać

Artykuł ukazał się w języku angielskim na Descript.