Reklama

Mati Staniszewski pokazał, jak ElevenLabs chce zmienić rozmowę człowieka z technologią

Mati Staniszewski, współtwórca ElevenLabs.
Mati Staniszewski, współtwórca ElevenLabs. / fot. mat. pras.
Mati Staniszewski, współzałożyciel ElevenLabs, podczas ElevenLabs Summit w Warszawie zaprezentował nowe rozwiązania AI: Dubbing D2, niewydany jeszcze model text-to-speech V4 oraz głosowych agentów dla biznesu. Wystąpienie w Teatrze Wielkim – Operze Narodowej pokazało, że ElevenLabs chce zmienić sposób, w jaki firmy, instytucje i klienci komunikują się z technologią.

Zyskaj dostęp do bazy artykułów z „My Company Polska” Zamów teraz!

Reklama

Mati Staniszewski, stojąc przed 2500 osób chciał stworzyć mały spektakl: od symboliki miejsca, przez historię założycieli, po demonstracje rozwiązań, które miały pokazać, że głos AI wchodzi w zupełnie nową fazę.

„Lubimy mówić: pokaż, nie opowiadaj” - powiedział ze sceny. I rzeczywiście, publiczność usłyszała nowe modele ElevenLabs: dubbing, który ma przenosić nie tylko słowa, ale też emocje; głosy potrafiące szeptać, zmieniać akcent i śpiewać; oraz agentów, którzy nie tylko odpowiadają na pytania, lecz wykonują zadania w imieniu użytkownika.

Staniszewski postawił jasną tezę: w świecie AI problemem nie jest już wyłącznie sama inteligencja modeli. Coraz większym ograniczeniem staje się komunikacja.

„W 2022 roku, kiedy zakładaliśmy ElevenLabs, większość ludzi w AI skupiała się na rozwiązaniu inteligencji. My zawsze wierzyliśmy, że komunikacja stanie się czynnikiem ograniczającym” - mówił.

Teatr Wielki jako scena dla technologii głosu

Wybór miejsca nie był przypadkowy. Teatr Wielki – Opera Narodowa to przestrzeń, w której głos od dekad jest narzędziem ekspresji i emocji. Staniszewski mówił o budynku jako miejscu, w którym technika, akustyka i sztuka spotykają się po to, by ludzki głos mógł wybrzmieć ponad orkiestrą. „To miejsce ekspresji idei, emocji i polskiej tożsamości” - mówił.

Był to również powrót do źródeł. Staniszewski przypomniał, że razem z Piotrem Dąbkowskim, drugim współzałożycielem ElevenLabs, dorastali niedaleko Warszawy i poznali się jako nastolatkowie. Opowiadał o przyjaźni, wspólnej nauce, podróżach i pierwszych latach pracy. „Dobrze być z powrotem tam, gdzie zaczynaliśmy” - powiedział.

Dlaczego AI musi brzmieć po ludzku

Najważniejsza biznesowa teza wystąpienia dotyczyła zaufania. Staniszewski mówił, że nawet najbardziej inteligentny system nie zostanie powszechnie przyjęty, jeśli interakcja z nim będzie nienaturalna.

„Możemy zbudować inteligentny system, ale jeśli AI brzmi robotycznie albo interakcja jest dziwna, ludzie jej nie zaufają” - podkreślał.

ElevenLabs chce przesuwać rynek. Głos nie ma być dodatkiem do chatbota. Ma być warstwą, dzięki której AI stanie się bardziej dostępna, zrozumiała i użyteczna. Staniszewski mówił, że naturalna komunikacja będzie konieczna, by przełamywać bariery językowe, zwiększać dostęp do informacji i tworzyć nowe sposoby interakcji z otaczającą nas technologią.

Model V4: głos, który szepcze, gra i śpiewa

Pierwszym elementem prezentacji był nowy model text-to-speech, nazwany w wystąpieniu V4. Staniszewski zaznaczył, że model nie został jeszcze publicznie udostępniony, a Warszawa była miejscem pierwszej prezentacji próbek. Demonstracja miała pokazać nie tyle poprawność syntezy mowy, ile zakres ekspresji. Głosy zmieniały emocje, akcenty, przechodziły w szept, brzmiały teatralnie, potrafiły też śpiewać. W pewnym momencie prezentacja bardziej przypominała pokaz aktorski niż technologiczny.

„Takich emocji jeszcze nie mieliśmy” — mówił Staniszewski.

Dubbing D2: koniec „płaskiego audio”

Dużą nowością pokazaną w Warszawie był Dubbing D2. Staniszewski przedstawił go jako odpowiedź na jeden z największych problemów tradycyjnego dubbingu i automatycznej lokalizacji treści: utratę emocji.

„Dubbing D2 rozwiązuje jeden z największych problemów tradycyjnego audio: płaskie audio” - mówił.

Według Staniszewskiego nowy model nie generuje mowy jedynie z transkryptu. Ma nową architekturę, która pozwala mu „słyszeć” oryginalne nagranie: ton, emocje, rytm, intencję i sposób wykonania. Dzięki temu dubbing w innym języku ma zachowywać nie tylko sens wypowiedzi, ale też jej energię. „Model może usłyszeć oryginalną emocję i oryginalne wykonanie, a potem przenieść je do nowego języka” - tłumaczył.

To funkcja o oczywistym znaczeniu dla mediów, reklamy, edukacji, produkcji wideo i globalnych marek. Jeśli działa zgodnie z obietnicą, może przyspieszyć lokalizację treści i obniżyć koszt wejścia na nowe rynki. Ale może też zmienić oczekiwania odbiorców. Samo poprawne tłumaczenie nie wystarczy. Treści mają brzmieć tak, jakby od początku powstały w danym języku.

Od głosu do agentów. Prawdziwa stawka jest w biznesie

Najważniejsza część wystąpienia zaczęła się jednak wtedy, gdy Staniszewski przeszedł od modeli do zastosowań. ElevenLabs chce budować nie tylko technologię mowy, ale pełną platformę agentów głosowych.

Przykłady były bardzo biznesowe: kwalifikacja leadów, obsługa klienta, przypomnienia medyczne, rozmowy po wypisie ze szpitala, umawianie spotkań, informowanie klientów, wsparcie sprzedaży i turystyka. Wspólny mianownik jest prosty: tam, gdzie dziś klient czeka, porzuca formularz albo odbija się od infolinii, ma pojawić się agent, który odpowie natychmiast, w dowolnym języku i w naturalnej rozmowie.

-W praktyce wiele firm traci zainteresowanie klienta, bo odpowiedź przychodzi za późno. Agent głosowy ma wejść dokładnie w tę lukę. Ma być dostępny w momencie, w którym klient chce rozmawiać  nie wtedy, gdy firma znajdzie wolnego konsultanta.

„Klienci mogą rozmawiać z agentem sprzedaży w każdej chwili, w każdym języku” - podkreślał.

Demo z Warszawy: agent, który rezerwuje, pamięta i prowadzi

Na koniec Staniszewski zaprezentował agenta turystycznego. Scenariusz był prosty: użytkownik chce zaplanować pobyt w Warszawie. Agent rozmawiał ze Staniszewskim, wykorzystał z kontekstu wcześniejszych interakcji, zaproponował wydarzenia, uwzględnił kalendarz, wysłał bilety przez WhatsApp, a następnie przełączał rozmowę do specjalistycznego przewodnika po teatrze. Tym przewodnikiem okazał się być głos Piotra Fronczewskiego.

„Jesteśmy dopiero na bardzo wczesnym etapie odkrywania tego, co AI umożliwia” - mówił Staniszewski.

Reklama

ZOBACZ RÓWNIEŻ

Reklama
Reklama