Reklama

Ponaddźwiękowi

Mati Staniszewski i Piotr Dąbkowski
Mati Staniszewski i Piotr Dąbkowski / Fot. materiały prasowe
Dwóch kumpli z warszawskiego liceum w dwa lata zbudowało startup wyceniany na ponad miliard dolarów. W tej historii wszystko kręci się wokół dźwięku, z wyjątkiem jednego – ich rozwoju. W tym kontekście mówimy raczej o prędkości światła. – Robimy coś niesamowitego i na generacje – mówi Mati Staniszewski, Co-founder ElevenLabs.
ARTYKUŁ BEZPŁATNY

z miesięcznika „My Company Polska”, wydanie 9/2024 (108)

Zyskaj dostęp do bazy artykułów z „My Company Polska” Zamów teraz!

Reklama

Wywiad odbył się we wrześniu 2024 roku.

Skąd nazwa ElevenLabs?

Mati Staniszewski: Szukając nazwy dla startupu, najpierw krążyliśmy wokół haseł typu SpeechLab czy VoiceLab, ale żadne z nich nie oddawało w pełni naszych ogromnych ambicji. Potrzebowaliśmy czegoś bardziej generycznego i tak dotarliśmy do jedenastki, która zawsze była naszą szczęśliwą liczbą, jest też ważna w matematyce. Ma także liczne konotacje popkulturowe i, co ważne, pasuje nam graficznie. Jedenaście to dwie proste linie obok siebie, zupełnie jak znak pauzy. Jeśli nasza wizja świata audio AI się ziści  i wszystko będzie dostępne i grające w formie audio, to ten znak zacznie się pojawiać w dowolnym momencie i kontekście.

Jak narodziła się ta wizja?

Z Piotrem (Piotr Dąbkowski, Co-founder ElevenLabs – red.) znamy się od liceum – chodziliśmy do jednej klasy w XXXIII LO Dwujęzycznym im. Mikołaja Kopernika w Warszawie. Szybko się zaprzyjaźniliśmy, razem mieszkaliśmy i podróżowaliśmy, wspólnie spędzaliśmy przez lata mnóstwo czasu! W trakcie studiów – Piotr kształcił się przede wszystkim w kierunku uczenia maszynowego, ja wybrałem studia matematyczne – razem pracowaliśmy m.in. w Operze Software ASA, która udostępnia przeglądarkę internetową Opera. Co ciekawe, najfajniejsze rzeczy zaczęły się dziać, kiedy nasze drogi zawodowe się rozeszły – co jakiś czas spotykaliśmy się weekendami na takich prywatnych hackathonach, próbując tworzyć nowe projekty.

Jakie?

Generalnie skupialiśmy się na poznawaniu konkretnych technologii – chcieliśmy sprawdzić, jak coś działa, a przy tym przetestować możliwości biznesowe. Łapaliśmy się wszystkiego: od projektów rekomendacyjnych po blockchainowe. No i pewnego weekendu zainteresowaliśmy się obszarem audio – stworzyliśmy system, który na podstawie nagranego przez ciebie głosu podpowiadał ci, jak możesz poprawić sposób mówienia. To był 2021 r., potraktowaliśmy ten projekt jako kolejny z wielu.

Co sprawiło, że do niego wróciliście?

Kilka miesięcy później mój przyszły wspólnik, wraz ze swoją dziewczyną, oglądał film, oczywiście z charakterystycznym polskim lektorem – każdą rolę czytała ta sama osoba, zero intonacji czy emocji. Piotrek wrócił do mnie i zaproponował, że skoro mamy doświadczenie w obszarze audio, może powinniśmy stworzyć coś w tej dziedzinie? Zamarzyliśmy, żeby za kilka lat wszystkie filmy były dostępne z profesjonalnym dubbingiem, w każdym języku. Problem, jaki zdiagnozowaliśmy, okazał się powszechny – koszty i stworzenie dubbingu to złożony proces w zasadzie na całym świecie. Choć nasz pierwszy pitch deck dotyczył wyłącznie dubbingu, z czasem wizja się rozrosła do tego, co teraz znacie pod nazwą ElevenLabs – staramy się ułatwiać dostęp do głosów i dźwięków.

Wydaje się, że ElevenLabs to historia spektakularnego sukcesu – w dwa lata zbudowaliście jednorożca, regularnie osiągacie kolejne kamienie milowe. A czy były – zwłaszcza na początku – jakieś naprawdę trudne momenty?

Pierwszą działką, na jakiej się sfocusowaliśmy, był dubbing. Fundusze inwestycyjne miały liczne wątpliwości z tym związane: od braku kompetencji technologicznych po naszej stronie po niewystarczająco duży rynek. Zresztą pierwsze pytanie, jakie zazwyczaj otrzymywaliśmy od potencjalnych inwestorów, brzmiało: „czy pracowaliście wcześniej w branży audio?”. Nie pracowaliśmy, więc na początku bardzo często słyszeliśmy po prostu: „nie”. Ponadto zarzucano nam, że nie przebijemy się przez konkurencję, w końcu każdy działający w tej branży twierdzi, że akurat jego technologia perfekcyjnie odwzorowuje mowę człowieka… Obecny sukces pokazuje, że zamknęliśmy usta niedowiarkom.

W początkowym etapie zaproponowano nam udział w pewnym amerykańskim akceleratorze, nas interesowała jednak długofalowa współpraca. Najpierw na pokładzie pojawiło się Credo Ventures, jeden z londyńskich funduszy, a także kilku aniołów biznesu. Stworzyliśmy fantastyczne fundamenty w niełatwej sytuacji – powszechne zainteresowanie wokół AI dopiero kiełkowało, więcej mówiło się chociażby o metawersum. Ten początkowy etap nauczył mnie jednego – pewnie zabrzmi to trywialnie, ale zanim rozwiążesz jakiś problem, musisz dobrze poznać potrzeby swoich użytkowników. Tylko tyle i aż tyle.

Jak poradziliście sobie z koniecznością ekspresowego skalowania biznesu?

To akurat problem z gatunku tych, jakie chyba chciałby mieć każdy founder. Z jednej strony zależało nam na szybkim rozroście zespołu, z drugiej – chcieliśmy zachować kulturę organizacyjną, staramy się zatrudniać wyłącznie pasjonatów. Praca w ElevenLabs jest ciężka, ale daje ogromne możliwości. Wciąż mierzymy się ze skalowaniem, pewnie nie wszystko robimy idealnie, ale wydaje mi się, iż jesteśmy na właściwej ścieżce. Z Piotrkiem czasem się śmiejemy, że naszą karierę zawodową przed ElevenLabs można streścić w jednej rozmowie, natomiast na opowiedzenie tego, co działo się od momentu założenia startupu, potrzebowalibyśmy kilku tygodni.

Jak przez ten okres zmian samego produktu zmieniała się wasza strategia biznesowa?

Jej główne założenie – upowszechnianie i ułatwianie dostępu do dźwięków – się nie zmieniło, natomiast zmodyfikowaliśmy podejście związane z adresowaniem poszczególnych potrzeb. Obecnie myślimy w taki sposób, że zastanawiamy się, w jakim obszarze nasza technologia i możliwości są już wystarczająco udoskonalone, by podbić branżę bez szczególnego wysiłku. Ponadto skupiamy się na rynkach w pełni gotowych na nasz produkt, czyli po prostu na takich, gdzie klienci faktycznie potrzebują rozwiązania ElevenLabs. No i – co chyba oczywiste – wolimy te rynki, gdzie nie ma zbyt dużej konkurencji, ponieważ skupiasz się na dopracowywaniu technologii, a nie na tym, jak możesz zrobić coś taniej od innych. Dzięki zmianie podejścia przestaliśmy skupiać się na dubbingu – i to właśnie stoi u podstaw naszego dynamicznego rozwoju.

Czym wyróżnia się wasza technologia, dlaczego akurat wam udało się tak szybko osiągnąć tak gigantyczny postęp? Jest mnóstwo syntezatorów mowy pracujących na sieciach neuronowych – już wiele lat temu Polaków zachwycił chociażby program Ivona.

Pierwszym krokiem w rozwoju produktu było stworzenie klasycznego systemu przekształcającego tekst w mowę. Zmieniliśmy powszechne podejście związane z tym, w jaki sposób algorytm rozumie to, co jest napisane, i przekłada na emocje oraz intonację. Od początku bazowaliśmy głównie na szerokim rozumieniu kontekstu danych zdań. Prosty przykład: jeśli coś jest pytaniem, trzeba odczytać to tak jak pytanie. To było nowatorskie podejście, wcześniejsze klasyczne modele skupiały się raczej na odtwarzaniu poszczególnych sylab i głosek. Może nie odkryliśmy Ameryki, gdyż w różnych krajach próbowano robić podobne rzeczy, ale jako pierwsi wprowadziliśmy w świat audio rozumienie kontekstu w sposób efektywny.

Drugim przełomem była reprodukcja i klonowanie głosów, którą opanowaliśmy w zasadzie do perfekcji. Zmieniliśmy sposób kodowania, co pozytywnie wpłynęło na otrzymane efekty.

Wyjaśnisz?

Dotychczasowe syntezatory mowy starały się zachować kilka predefiniowanych charakterystyk takich jak płeć czy wiek mówiącego. Nasz model nie ma zakodowanych żadnych charakterystyk, więc tak naprawdę sam definiuje cechy, które są dla niego istotne – dzięki temu jesteśmy w stanie tworzyć dźwięki po prostu świetnie brzmiące.

Czy jest coś, z czym sztuczna inteligencja w zakresie dźwięku jeszcze sobie nie radzi i prawdopodobnie długo nie poradzi?

Najtrudniejsze w tej chwili wydają się pozasłowne komunikaty takie jak śmiech czy krzyk – modele AI, choć działają coraz sprawniej, wciąż mają z nimi niemały problem. Natomiast jeśli myślimy w kontekście przyszłości, ogromnym wyzwaniem jest szybkość generowania głosów – robimy wszystko, żeby ten proces w pełni odbywał się w czasie rzeczywistym. Żebyście swobodnie mogli rozmawiać z kimkolwiek w nieznanym dla siebie języku.

Drugim wielkim wyzwaniem jest możliwość kontroli i edycji uzyskanego dźwięku. Chcemy dostarczyć narzędzia, które z każdego zrobią trochę reżysera dźwięku umiejącego – dzięki najprostszym wskazówkom i komendom – modyfikować uzyskane efekty audio. Powiedzmy, że wpisuję w ElevenLabs zdanie: „jaki piękny mamy dzień”. Obecnie algorytm najprawdopodobniej stwierdzi, że to pozytywne zdanie, więc taki głos wygeneruje. A co w przypadku, jeśli użyłem tych słów sarkastycznie? Inny przykład: jak pewnie się już zorientowaliście, mówię dosyć szybko, zdarza się, że się zająknę, więc najchętniej wpisałbym komendę niwelującą wszelkie zawahania. Pracujemy nad tego typu rozwiązaniami – kiedy uda się je wdrożyć, będziemy mogli mówić o kolejnym przełomie.

Na ile jesteście w stanie wytrenować algorytmy, jeśli chodzi o emocje? Kiedy wypuściliście narzędzie umożliwiające tworzenie muzyki, mnóstwo osób pisało w mediach społecznościowych, że utworom brakuje duszy – są poprawne, ale nie mają podjazdu do twórczości człowieka. Uwielbiamy Amy Winehouse – jej płyta „Back to Black” to w największym stopniu efekt bolesnych doświadczeń. Czy jest możliwe uzupełnienie algorytmów właśnie o jakieś „historie z przeszłości”, które wpłyną na to, jak będzie brzmiał wygenerowany dźwięk?

Niestety nie znam odpowiedzi na to pytanie, ale mogę podzielić się pewną ciekawostką. Kilkanaście lat temu will.i.am wypuścił klip, gdzie opowiada o podobnej technologii do naszej – że wrzuca swój głos w maszynę tworzącą gotowe dźwięki. Przy okazji premiery wideo wywiązała się dyskusja na temat tego, kto jest autorem utworu – maszyna czy osoba dostarczająca głos i instruująca ją, jakich efektów oczekuje. Patrzę na ElevenLabs w podobny sposób – by efekt miał wartość artystyczną, niezbędna jest ingerencja człowieka. W tym zakresie nie spodziewam się rewolucji w najbliższych latach, jeśli pytacie o moją osobistą opinię, to uważam, iż sztuczna inteligencja nigdy nie zastąpi ludzkiej kreatywności.

To zresztą coś, na czym bardzo nam zależy – oczywiście każda technologia w jakiś sposób zmienia dostępne miejsca pracy, niektóre odchodzą i pojawiają się nowe, natomiast częścią misji ElevenLabs jest nauczenie ludzi korzystania z innowacyjnych rozwiązań w celu optymalizowania własnych obowiązków i zasad oraz rozszerzenie dostępu do treści w formie audio, które nie byłyby dostępne bez tej technologii. Stworzyliśmy na przykład marketplace z głosami, na którym lektorzy mogą odpłatnie udostępniać swój głos innym – już teraz tysiące ludzi zarabia dzięki tej platformie.

Rozmawiając o audio AI, nie sposób nie dyskutować o deep fake’u, który staje się coraz realniejszym zagrożeniem. Jak długo jeszcze świat będzie w stanie wygrywać z deep fake’ami? Bo, nie tylko naszym zdaniem, doszliśmy do granicy.

Już teraz treści wygenerowanych przez sztuczną inteligencję jest mnóstwo, a ta liczba stale rośnie i będzie rosnąć, dlatego firmy pracujące nad tą technologią muszą tworzyć również odpowiednie zabezpieczenia, dzięki którym przygotujemy się na nadchodzące wyzwania. Najważniejszym długoterminowym zadaniem będzie potwierdzanie autentyczności materiałów tworzonych przez człowieka, a także odpowiednia autoryzacja treści wyprodukowanych przez algorytm. Życzyłbym sobie powstania efektywnego systemu, który tropiłby negatywne użycie sztucznej inteligencji, a następnie informował o tym fakcie np. osoby, których wizerunek został bezprawnie wykorzystany. Jako ElevenLabs sami budujemy i wspieramy wszelkie tego typu inicjatywy, współpracujemy z innymi organizacjami nad wypracowaniem skutecznego oprogramowania.

Są głosy, że deep fake w najbliższych miesiącach może wpłynąć na wyniki wyborów w niektórych krajach. Twoim zdaniem to realne zagrożenie czy straszak rzucany przez technosceptyków?

Sądzę, że to realne zagrożenie, zwłaszcza że na świecie – w oderwaniu od jakichkolwiek restrykcji i zasad – działają open source’owe organizacje oferujące produkt, pod względem jakości, zbliżony do najlepszych rozwiązań na rynku.

Pytamy o to, ponieważ taka sytuacja mogłaby sprawić, iż rządy staną się skłonniejsze do wprowadzania regulacji dotyczących sztucznej inteligencji. A te mogłyby zahamować rozwój między innym waszej firmy.

Jako ElevenLabs uważamy, że przejrzystość i transparentność jest kluczowa, dlatego jesteśmy w pełni otwarci na współpracę w zakresie wypracowania odpowiednich regulacji, choć oczywiście będziemy musieli mieć także na uwadze interes całej branży.

W tym procesie powinniśmy zachować zdrowy balans, dlatego nie możemy przenosić odpowiedzialności wyłącznie na dostawców usług bądź twórców aplikacji. Zasady muszą być klarowne i takie same dla wszystkich – liczę, że opracujemy je szybko, ale rozsądnie.

A czy daleko jesteśmy od rzeczywistości rodem z filmu „Ona” czy serialu „Black Mirror”, w której człowiek, prowadząc rozmowę z algorytmem, po prostu się w nim zakochuje? Albo inny przykład: umiera bliska mi osoba i chcąc zachować choć odrobinę kontaktu z nią, klonuję jej głos i „rozmawiam” z algorytmem.

Odpowiem tak: gdybyś miał na słuchawkach kogoś doskonale cię znającego, mającego wiedzę o przedmiotach i tematach, które znasz, a z którymi masz problemy, kogoś, kto na bieżąco podpowiadałby ci np. kierunki rozwoju albo tłumaczył nieznajome konteksty w nauce jako personalny tutor, to byłoby to fantastycznym użyciem technologii – i raczej w tym kierunku pchałbym rozwój, a nie w stronę „Black Mirror”. Oczywiście use case’y, o których wspomnieliście ,z pewnością będą możliwe, natomiast trzeba będzie się solidnie zastanowić, na ile są one dobre moralnie. Ja nie chciałbym w tym momencie odpowiadać na to pytanie.

Pięknie opisujesz możliwości i innowacyjność ElevenLabs, my się jednak zastanawiamy, na ile faktycznie jesteście technologicznie przygotowani na rywalizację z bigtechami. Nie jest tajemnicą, że najwięksi pracują nad własnymi rozwiązaniami z zakresu AI i audio.

Najbliższy czas będzie dla nas decydujący. Sądzimy, że by zbudować firmę na kolejne generacje – jeszcze nie jesteśmy w tym momencie – potrzebujemy minimum kolejnych 12-18 miesięcy. Przewaga konkurencyjna, jaką wypracowaliśmy, jeszcze nie jest wystarczająca.

Jak więc zamierzacie odjechać reszcie stawki?

Stworzyliśmy unikalny, wyróżniający się jakością produkt, co dało nam lepszą pozycję startową, jednak nie wystarczy do utrzymania pozycji lidera. Obecnie musimy przenieść nasze doświadczenia na klasyczną przewagę produktową, sprawiającą, że staniemy się powszechni i w pełni dostępni dla każdego. Jednak tym, co zdeterminuje fakt, czy rzeczywiście staniemy się firmą generacyjną, będzie wypracowanie sprawnego ekosystemu, w którym będą działać zarówno konsumenci, jak i twórcy. Wchodząc na ElevenLabs, musisz mieć dostęp do jak najszerszej oferty dźwięków, stworzonych przez bardziej doświadczonych użytkowników – to m.in. głosy różniące się stylem, językiem, a nawet akcentem charakterystycznym dla danych regionów. Najprościej mówiąc, chcemy dostarczyć wartość, jakiej nie znajdziesz w żadnym innym miejscu. Nieważne, czy jesteś mniej popularnym autorem tworzącym treści na YouTubie, czy gigantycznym koncernem medialnym – produkując coś za pomocą naszej technologii, masz mieć dostęp do największej bazy audio. Osiągnęliśmy już wiele, jednak wciąż musimy budować rozpoznawalność ElevenLabs.

W wywiadzie dla „Sifted” stwierdziłeś, że jedyną konkurencję, której oddech faktycznie czujecie na plecach, jest OpenAI.

Z OpenAI rywalizujemy nie tylko w kontekście jakości technologii, ale także w wyszukiwaniu największych talentów. Naszą przewagą jest fakt, że skupiamy się na świecie audio AI, dla innych to najczęściej jeden z wielu priorytetów. Obawiamy się

OpenAI, ponieważ pokazali, jak sprawnie łączyć różne modele – nie wszystkie aspekty działają równie sprawnie, ale ogólny efekt jest więcej niż satysfakcjonujący. Osiągnięcia firmy Sama Altmana trochę też sprawiły, że sami zaczęliśmy myśleć o rozwoju ElevenLabs w kontekście takiej właśnie multimodułowości. Jeśli nam się to nie uda, rywalizacja z OpenAI – a być może również z innymi podmiotami - będzie jeszcze trudniejsza.

W których aspektach OpenAI radzi sobie lepiej?

Chociażby tych związanych z tworzeniem dźwięku w czasie rzeczywistym – ostatnio zaprezentowane przez nich rozwiązanie znacząco przybliżyło świat do swobodnego tłumaczenia „real time”, o którym rozmawialiśmy wcześniej. W książce „Autostopem przez galaktykę” jest przedstawiona funkcjonalność, dzięki której przykładasz urządzenie do ucha i rozumiesz każde zdanie w danym języku. Sądzę, iż tego typu rozwiązanie stało się Świętym Graalem dla większości firm działających w branży audio AI. To nic innego jak dubbing w czasie rzeczywistym, dlatego już teraz tworzymy prototyp podobnej technologii.

Planujecie przejęcia konkurencji?

Oczywiście prowadzimy pewne rozmowy, choć raczej nie z konkurencją. Powtórzę – chcemy być najlepszą platformą do tworzenia czegokolwiek w świecie audio AI, dlatego wchodząc w nowe branże czy obszary, raczej myślimy o przejmowaniu organizacji podnoszących jakość naszych produktów, niekoniecznie bezpośrednio z nami rywalizujących. Jeśli będziemy chcieli stworzyć w pełni efektywne narzędzie konwertujące mowę na tekst, na razie nie widzę potrzeby, żebyśmy musieli od podstaw budować właściwy moduł, można tego dokonać poprzez współpracę z innym podmiotem. Analizujemy w takim kontekście wiele innych obszarów.

A może to wy zostaniecie przejęci? Co jest bardziej prawdopodobne – debiut na giełdzie czy wejście pod skrzydła giganta rozrywkowego pokroju Disneya?

Chcemy stworzyć coś niesamowitego, generacyjnego, dlatego jedynym rozwiązaniem w przyszłości jest IPO. Ale to raczej odległa wizja, gdyż mamy jeszcze wiele do zrobienia!

Kiedy pierwszy hollywoodzki film z dubbingiem zrobionym dzięki ElevenLabs?

Jest niewielka szansa – jeśli uda nam się wprowadzić nowe innowacje – że już w przyszłym roku.

Na zakończenie chcielibyśmy cię zapytać o to, jak postrzegasz polski ekosystem startupowy. Jak sam stwierdziłeś, na początku otrzymaliście ogromne wsparcie ze strony aniołów biznesu. Czy teraz ty planujesz pomóc w ten sposób innym młodym spółkom?

Chętnie wspieramy rodzime środowisko startupowe. Czego szukam? Ambitnych founderów i founderki, którzy pasjonują się konkretnym problemem i chcą poświęcić większość swojej energii na rozwój własnego pomysłu. Jeśli ktoś jest gotowy na ciężką pracę, da się rozwiązać w zasadzie każdy problem.

My Company Polska wydanie 9/2024 (108)

Więcej możesz przeczytać w 9/2024 (108) wydaniu miesięcznika „My Company Polska”.


Zamów w prenumeracie

Reklama

ZOBACZ RÓWNIEŻ

Reklama
Reklama