Głosy jak zapachy. Wywiad z twórcą Elevenlabs

ElevenLabs
ElevenLabs
Chcemy zbudować największy hub dźwiękowy w strefie audio. Zależy nam na prostocie i przejrzystości. Już w czerwcu zamierzamy wypuścić funkcjonalność, dzięki której stworzenie jakościowego, oryginalnego audiobooka zajmie dosłownie kilka kliknięć – deklaruje Mateusz Staniszewski, współzałożyciel ElevenLabs.

Kiedy sztuczna inteligencja nauczyła się czytać?

Choć narzędzia znane od dawna – takie jak Ivona – już wiele lat temu pokazały niemałe możliwości AI, sądzę, że dopiero ostatnie miesiące przyniosły gigantyczny przełom. Razem z moim wspólnikiem wzięliśmy kilka modeli oraz pomysłów z innych obszarów związanych ze sztuczną inteligencją - generowaniem chociażby obrazów - a następnie wykorzystaliśmy je w ElevenLabs do stworzenia potężnej technologii syntezy mowy.

Jakich pomysłów?

Związanych np. z rozumieniem przez AI emocji. Od początku chcieliśmy sprawić, żeby nasze rozwiązanie potrafiło rozpoznawać kontekst czytanych zdań – to się udało i sądzę, że to największa przewaga ElevenLabs. Jeśli napiszesz coś, co jest śmieszne – np. żart – to nasza AI przeczyta to zupełnie inaczej niż poważne, formalne oświadczenie. 

Moim zdaniem sztuczna inteligencja wciąż uczy się czytać, na razie świetnie radzi sobie z audiobookami czy podcastami, za to wciąż wiele do zrobienia mamy w przypadku reklam czy przemysłu filmowego. Tak naprawdę rewolucja w naszym obszarze dopiero się zaczyna – wiele działo się w związku z generowaniem obrazów czy tekstu, ale trochę przysnęliśmy w kwestiach związanych z dźwiękiem. 

Jak AI uczy się czytać? Człowiek zaczyna od prostych słów typu: mama. Algorytmom również podsyłacie najpierw lżejsze dane?

Jest zupełnie odwrotnie – od początku prac nad ElevenLabs podrzucaliśmy im jak najwięcej danych, najlepiej w doskonałej jakości. Nasz model zetknął się już z ogromną liczbą dźwięków, dzięki czemu potrafi tworzyć ciekawe syntetyczne głosy, o różnej charakterystyce.

Nie wystarczy mu jakaś ograniczona liczba dźwięków? Bo przecież ile tak naprawdę głosów jest w stanie rozróżnić człowiek?

Bardziej odpowiada mi porównanie do zapachów – po iluś tam zapachach nie potrafisz wskazać różnic między poszczególnymi, zwłaszcza, jeśli są do siebie podobne. Ale my dążymy do absolutnej perfekcji. Już teraz zdecydowanie wyróżniamy się – zwłaszcza w stosunku do darmowych narzędzi – w kwestii powielania istniejących głosów. I wciąż się rozwijamy, bo niedługo udostępnimy nową funkcjonalność, dzięki której na podstawie 30-minutowego fragmentu swojego głosu będziesz w stanie wygenerować nagranie nie do odróżnienia od prawdziwego.

Nie potrafię mówić „r” i mam duży kompleks z tym związany. Sztuczna inteligencja mi pomoże?

Jako ElevenLabs będziemy wkrótce wdrażać funkcjonalność, dzięki której zmienisz charakterystykę głosu – np. na bardziej entuzjastyczny. Albo będziesz mógł poprosić nasz system: „Spraw, żebym brzmiał jak podczas formalnej prezentacji przed ważnym klientem”. Jeśli mam konkretnie odpowiedzieć na twoje pytanie, to powiedziałbym, że syntezatory mowy jeszcze nie sprawią, że zaczniesz wyraźnie wypowiadać „r”, ale możesz obejść ten problem – wpisujesz tekst w instrukcji i prosisz AI, żeby odczytała go twoim głosem. Powinna sobie poradzić.

Jednym z głównych zarzutów pod kątem takich technologii jak wasza jest to, że poszerzacie możliwości potencjalnych nadużyć – telefon i oszustwo „na wnuczka” jeszcze nigdy nie były takie proste.

Efektem ubocznym rozwoju każdej technologii są również negatywne use case’y, które nie powinny mieć miejsca. Z naszych obserwacji wynika, że próba oszustw za pomocą ElevenLabs to absolutny margines, mniej niż 1 proc. Przykładamy mnóstwo uwagi do kwestii bezpieczeństwa.

W jaki sposób?

Mamy trzy „wentyle bezpieczeństwa”. Po pierwsze, wszystko, co jest generowane przez naszą platformę, można łatwo odszukać i zbanować. Po drugie, żeby mieć dostęp do opcji klonowania głosów, musisz przejść proces weryfikacji, więc nigdy nie będziesz w pełni anonimowy. I w końcu – mocno wspieramy wszelkie działania edukacyjne, walczymy o zwiększanie świadomości użytkowników, zwłaszcza że treści generowanych przez AI będzie coraz więcej. Niebawem wypuścimy program, dzięki któremu będziesz mógł sprawdzić, czy nagranie zostało wygenerowane przez ElevenLabs, czy nie. W idealnym świecie np. wszyscy operatorzy komórkowi powinni wdrażać tego typu rozwiązania, dzięki którym każda rozmowa jest automatycznie weryfikowana, czy jest wygenerowana przez AI – a jeśli jest, informować o tym odbiorcę.

Deep fake powinien być zabroniony?

To oczywiście zależy od tego, jak deep fake jest...

Artykuł dostępny tylko dla prenumeratorów

Masz już prenumeratę? Zaloguj się

Kup prenumeratę cyfrową, aby mieć dostęp
do wszystkich tekstów MyCompanyPolska.pl

Wykup dostęp

Co otrzymasz w ramach prenumeraty cyfrowej?

  • Nielimitowany dostęp do wszystkich treści serwisu MyCompanyPolska.pl
  •   Dostęp do treści miesięcznika My Company Polska
  •   Dostęp do cyfrowych wydań miesięcznika w aplikacji mobilnej (iOs, Android)
  •   Dostęp do archiwalnych treści My Company Polska

Dowiedz się więcej o subskrybcji

My Company Polska wydanie 6/2023 (93)

Więcej możesz przeczytać w 6/2023 (93) wydaniu miesięcznika „My Company Polska”.


Zamów w prenumeracie

ZOBACZ RÓWNIEŻ