Maciej OlanickiRedakcja Bulldogjob

VALL-E – nadeszła rewolucja w podejściu do syntezowania mowy

VALL-E ma potencjał, by wywrócić nasze rozumienie przetwarzania mowy na tekst do góry nogami.

30.01.20233 min

VALL-E – nadeszła rewolucja w podejściu do syntezowania mowy

Microsoft, który najszybciej z wielkiej internetowej czwórki zareagował na gigantyczny sukces ChatGPT, śmiało idzie za ciosem. Do Azure dopiero co trafiły pierwsze silniki opracowane przez OpenAI (choć akurat na dostępność w microsoftowej chmurze ChatGPT będziemy jeszcze musieli zaczekać), a już mamy do czynienia z kolejną ofensywą korporacji szefowanej przez Satyę Nadellę. Chodzi o nowy model przetwarzania tekstu na mowę VALL-E.

VALL-E – czym jest?

W ojczyźnie Ivony zapewne nie trzeba zbyt wiele nikomu wyjaśniać, czym są silniki przetwarzania tekstu na mowę (TTS). Niemniej z opublikowanych już przez badaczy Microsoftu prac wiadomo już, że VALL-E to coś znacznie więcej niż modele wykorzystywane dotychczas. Dotychczas do syntezy potrzebne były żmudne i długotrwałe sesje z lektorami, którzy musieli nagrywać pojedyncze głoski w wielu różnych wariantach i kombinacjach, tak aby wpisany przez użytkownika tekst brzmiał po przetworzeniu naturalnie i uwzględniał choćby pozycję danej głoski w słowie, a słowa w wyrażeniu.

VALL-E to jednak coś o wiele więcej. Nowatorstwo ma tu polegać przede wszystkim na zaangażowaniu do procesu przetwarzania kodeków audio pozwalających na odtworzenie dowolnego głosu zaledwie na podstawie kilkusekundowej próbki. Nie zachodzi tu potrzeba angażowania ludzkich aktorów, brzmienia głosek mogą być generowane maszynowo na podstawie raptem 3-sekundowego nagrania.

W przypadku wspomnianej Ivony trudno było zatem mówić o jakiejś formie zaangażowania tzw. sztucznej inteligencji – rezultaty były efektem ludzkiej pracy i oprogramowania pozbawionego mechanizmów głębokiego uczenia, sieci neuronowych, modeli konwolucyjnych czy uczenia przez wzmacnianie. Z VALL-E sprawy mają się jednak zupełnie inaczej, a możliwości samego modelu są nieporównywalne nie tylko ze Ivoną, ale także z syntezatorami największych korporacji IT: opracowanej przez Amazon Alexy (co ciekawe, w jej powstawaniu duży udział mieli właśnie twórcy Ivony), znanej z iOS-a Siri, ale też modeli TTS opracowanych przez Google.

Jak działa VALL-E?

Już teraz potencjał VALL-E określa się jako gigantyczny, nie brakuje opinii, że do czynienia mamy z prawdziwym „game-changerem”, jeśli chodzi o przetwarzanie tekstu na mowę. Kluczową rolę odgrywa tu przede wszystkim wspomniana personalizacja, dzięki której końcowy rezultat nie jest już wymawiany głosem aktora, lecz dowolnego użytkownika narzędzia, który zdecyduje się na pozostawienie próbki głosu. O ile bowiem sam proces TTS trudno w przypadku VALL-E określić szczególnie innowacyjnym, nie odbiega on jakoś zasadniczo od tego, co już znamy, tak maszynowe naśladownictwo głosu robi duże wrażenie.

Solidnie przebudowany i rozszerzony został cały model przetwarzania tekst na mowę. Dotąd najczęściej wykorzystywanym podejściem była przetworzenie fonemów do tzw. mel-spektrogramu (spektrogram skonwertowany do skali Mel, która określa wysokość dźwięków z uwzględnieniem stosunku obiektywnego odbioru poziomu w hercach do tego, jaką wysokość odbiera ludzkie ucho), a następnie już do formy fali dźwiękowej. W VALL-e jest jednak inaczej.

vall-e

Równolegle do tekstu, który konwertowany jest fonemy (choć w zasadzie to w tym momencie już na głoski), do modelu wprowadzana jest także wspomniana kilkusekundowa próbka głosu, stanowiąca enkoder. Następnie VALL-E przetwarza oba wejścia z użyciem neuronowego dyskretnego kodeku modelowania językowego, by finalnie wykorzystać dekoder tego kodeku to wygenerowania fali dźwiękowej. Biorąc pod uwagę, że minimalna długość próbki głosu to 3 sekundy, twórcy VALL-E są zdania, że systemem znacząco przewyższa możliwościami najnowocześniejsze silniki TTS wykorzystujące uczenie maszynowe typu zero-shot.

VALL-E – nadszedł przełom dla syntezy mowy

Microsoft nie pozostaje gołosłowny. Na stronie projektu na GitHubie opublikowane zostały pierwsze próbki działania spersonalizowanej syntezy i trzeba przyznać, całość prezentuje się imponująco. Można nawet powiedzieć, że maszynowo wygenerowania nagrania są zbyt bliskie doskonałości – gdy ludzcy aktorzy popełniali drobne błędy wymowy czy te związane z intonacją, VALL-E był nieomylny i brzmiał jak wysoko wykwalifikowany profesjonalny lektor. VALL-E może być dla TTS tym, czym dla konwersacyjnych silników NLP jest ChatGPT.