„Zapomnijcie o chatbotach. Przyszłość to maszyny rozmawiające z maszynami z prędkością 10 tysięcy słów na sekundę”
Wiktor Cyrny, My Company Polska: Twoje wykłady w ramach Dell Technologies Forum, w trakcie którego się spotykamy, są moją ulubioną częścią tej imprezy. Przez godzinę jesteś w stanie odpowiedzieć na najbardziej zaawansowane pytania dotyczące przyszłości technologii AI zrozumiałym językiem. Czy to właśnie tym zajmuje się Field CTO AI and Data Science? Bo tak brzmi Twoje stanowisko w Dell.
Wojciech Janusz, ekspert Data Science i AI w Dell Technologies, EMEA Field CTO – AI and Data Science: Dzięki za miłe słowo! Rzeczywiście mam dość trudną funkcję, przez co czasem ciężko zdefiniować, czym się właściwie zajmuję. Mówiąc najprościej: stoję na styku biznesu i technologii. Moim zadaniem jest tłumaczenie wyzwań technologicznych na język problemów biznesowych i odwrotnie. Często wygląda to tak, że przychodzi do nas przedsiębiorca z pomysłem, a ja mówię: „jesteśmy w stanie to zrobić, zrealizujemy to w taki a taki sposób”. Innym razem muszę być głosem rozsądku i powiedzieć wprost: „na te zadania jeszcze nie jesteśmy gotowi” albo „to jest wykonalne technicznie, ale budżet, który macie, na to nie pozwoli”. To ciągłe balansowanie między wizją a technologicznymi realiami.
Skoro o realiach mowa – świat oszalał na punkcie generatywnej AI pod koniec 2022 roku. Ale przecież to nie wzięło się znikąd. Zanim odpowiesz na pytanie „dokąd zmierza AI”, przybliż naszym czytelnikom, gdzie zaczęła się ta podróż?
Większość ludzi uważa, że rewolucja wybuchła wraz z pojawieniem się ChatGPT, ale fundamenty wylano znacznie wcześniej. Kluczowy był rok 2017 i słynna publikacja „Attention is All You Need”. To wtedy opisano architekturę Transformerów, na której działają dziś wszystkie liczące się modele językowe. Co ciekawe, Google miał tę technologię w rękach przed OpenAI. Już w 2018 roku stworzyli model BERT. Mieli potężne narzędzie, ale jednak nie wypuścili go na rynek.
Bali się własnego produktu?
To już pytanie do Google. Natomiast OpenAI podjęło inną decyzję. I tak doszliśmy do momentu, w którym technologia znana w wąskim gronie od 2018 roku eksplodowała publicznie dopiero na przełomie 2022 i 2023 roku.
Wtedy AI kojarzyło się z gigantycznymi serwerowniami. Dziś, słuchając Cię, mam wrażenie, że ta „wielka technologia” zaczyna się kurczyć. Dosłownie.
Dokładnie tak. Jeszcze dwa lata temu opowiadałem, jak udało nam się uruchomić AI na naszym sprzęcie, ale wciąż musieliśmy polegać na chmurze przy tych największych modelach. Dzisiaj sytuacja wygląda zupełnie inaczej. Mamy do czynienia z rewolucją „on-device”.
To konsekwencja popularyzacji i oswojenia się z technologią, ale też potrzeba rynku. Gdyby firmy nie domagały się mniejszych, szybszych modeli dostępnych na mniejszych urządzeniach – producenci modeli nie mieliby motywacji, by rozwijać się w tym kierunku.
Na potrzeby szybkiego wyjaśnienia wzrostów stworzyłem nawet własną miarę postępu. Pamiętasz GPT-3? To był model, który miał 175 miliardów parametrów. Kiedyś, żeby go obsłużyć, potrzebny był potężny serwer lub kilka mniejszych serwerów pracujących razem. Dzisiaj mam małe pudełko o wymiarach 15 na 15 na 5 centymetrów – mniejsze niż typowy komputer PC – które mieści w sobie moc obliczeniową i szybką pamięć wystarczającą do obsługi modelu tej klasy. To Dell Pro Max z GB10. Jeśli połączymy dwa takie pudełka, możemy na nich uruchomić dwa takie modele równolegle. To pokazuje, jaki skok wydajnościowy dokonał się w sprzęcie konsumenckim.
Zaraz, czyli twierdzisz, że problem braku sprzętu do AI już nie istnieje?
To nie do końca tak. Nadal potrzebujemy dużej, ciężkiej infrastruktury, ale rynek AI mocno podzielił się na firmy, które chcą budować i rozwijać technologię AI, oraz na takie, które zwyczajnie chcą z niej korzystać. Dla tych drugich zaryzykowałbym stwierdzenie, że technologia przestała być wyzwaniem. Problemem nie jest już znalezienie komputera, który „udźwignie” AI. Problemem jest znalezienie dla niego sensownego, uzasadnionego biznesowo zastosowania. Wydajność sprzętu rośnie wykładniczo. Pojedynczy wat energii w nowoczesnych układach daje nam dziś 6–7 razy więcej mocy obliczeniowej niż jeszcze kilka lat temu. W dodatku przy tym samym budżecie możemy mieć kilkanaście razy więcej mocy obliczeniowej. Układy zużywają więcej prądu w wartościach bezwzględnych, ale ich efektywność energetyczna jest nieporównywalnie wyższa.
Mówimy o sprzęcie, a co z samymi modelami? Czy nadal obowiązuje zasada „im większy, tym lepszy”?
I tu dochodzimy do naprawdę ciekawych rzeczy. Jeszcze kilka lat temu nie optymalizowano modeli AI, by były mniejsze, szybsze, efektywniejsze energetycznie. Dopiero pojawienie się naprawdę dużych modeli i presja od użytkowników sprawiły, że zaczęliśmy szukać nowych metod optymalizacji, kompresji lub destylowania modeli tak, by zostawić tylko to, co jest potrzebne. Proszę sobie wyobrazić gigantyczny model, taki jak LLaMA 3 z 400 miliardami parametrów. To jest nasz „nauczyciel”. I mamy małe modele, które mają np. 1 czy 7 miliardów parametrów. Te małe modele nigdy nie widziały „świata” – nie przeczytały żadnej książki, nie przeanalizowały internetu. Jedyne, co znają, to to, co opowiedział im ten duży model. To jest właśnie destylacja.
Dzięki temu małe modele stają się niezwykle sprawne. Dziś model o wielkości 1–2 miliardów parametrów potrafi osiągnąć w testach eksperckich wyniki na poziomie 60% poprawności. A przypomnijmy, że wynik 60% w testach MMLU (Massive Multitask Language Understanding) uznaje się za poziom ekspercki, dwukrotnie przewyższający przeciętnego człowieka. Mamy więc kieszonkowe AI, które wyprzedza nas w wielu dziedzinach.
No dobrze, mamy sprzęt, mamy sprawne modele. Ale firmy wciąż narzekają, że AI „zmyśla” i nie zna ich specyfiki. Jak sobie z tym radzimy?
Tu wchodzi do gry RAG, czyli Retrieval-Augmented Generation. To technika, która pozwala modelowi korzystać z naszej własnej bazy wiedzy – dokumentacji, maili, procedur (po angielsku: grounding, czyli zakotwiczenie w faktach).
W pierwotnej wersji modele potrafiły korzystać z wiedzy zawartej tylko w materiałach treningowych. Jak student polegający wyłącznie na wiedzy zdobytej w czasie wykładów. Jest to być może efektywne natychmiast po zakończeniu nauki, ale z każdym dniem staje się coraz mniej aktualne. By uczynić modele bardziej przydatnymi i umożliwić korzystanie z aktualnej wiedzy, potrzebowaliśmy nowego sposobu integracji statycznego modelu z aktualnymi informacjami.
I z tego konceptu powstał RAG?
Dokładnie. Mechanizm działa na zasadzie indeksu w książce: gdy przychodzi zapytanie od użytkownika, model wysyła zapytanie do zewnętrznej bazy i prosi o odnośniki do wszystkich pasujących informacji, po czym na podstawie informacji zawartych w materiałach treningowych oraz tych otrzymanych udziela jak najlepszej odpowiedzi.
Z jednej strony to prosty i efektywny mechanizm rozwiązujący dużo problemów, z drugiej ma swoje wady. RAG nie przechowuje informacji o relacji pomiędzy znaczeniami oraz nie łączy faktów. By uzyskać jeszcze lepsze efekty, potrzebujemy metody, która precyzyjnie zwróci nam informacje wraz z kontekstem i relacjami pomiędzy faktami. Tutaj najbardziej obiecującą technologią zdają się być drzewa wiedzy – łączące fakty jak w RAG ze znaczeniami i relacjami pomiędzy nimi.
Przejdźmy do najważniejszego pytania: dokąd to wszystko zmierza? Czym będzie „next big thing”?
Jesteśmy świadkami przejścia od modeli generujących tekst do modeli rozumujących (reasoning models). Do tej pory, gdy zadawaliśmy pytanie chatbotowi, on często odpowiadał „z pamięci”. Działał na zasadzie skojarzeń. Jeśli widział podobne pytanie w danych treningowych, podsuwał odpowiedź. Ma to swoje zalety, bo takie odpowiedzi są szybkie i efektywne obliczeniowo oraz energetycznie – co w prostych przypadkach może być pożądanym efektem.
Przykładowo: zapytanie o rozmiar opakowania najnowszego laptopa z serii XPS – jeśli do materiałów treningowych trafiły karty produktu, prawdopodobnie model odpowie „z pamięci”. Podejście to nie sprawdzi się natomiast, gdy zapytamy o coś, co wymaga wykonania kilku operacji logicznych i być może użycia zewnętrznych narzędzi.
Przykładowo: zapytamy, ile laptopów XPS zmieści się w bagażniku samochodu marki X wyprodukowanego w roku 2025. Tutaj nie wystarczy znajomość rozmiaru pudełka – by udzielić odpowiedzi, należy zebrać dane oraz przeprowadzić obliczenia.
Nowe modele działają inaczej. One nie strzelają odpowiedzią od razu. One analizują problem, rozkładają go na czynniki pierwsze – to jest tak zwane „Chain of Thought” (łańcuch myśli). Jeśli problem da się rozwiązać prościej przy użyciu zewnętrznych narzędzi, to korzystają z nich (tool calling). To może być zewnętrzna baza wiedzy, wyszukiwarka internetowa, czy też coś tak oczywistego jak kalkulator.
To prowadzi do kolejnej dużej zmiany w sposobie korzystania z AI. Modele przestają być partnerem do dyskusji. Nie chcemy, by mówiły nam, jak coś wykonać – teraz dajemy im konkretne zadania do wykonania. Podam przykład. Jeśli zapytam model: „Jest mi zimno, co mam zrobić?”, zwykły chatbot powie: „Załóż sweter” lub „znajdź ustawienia termostatu i zmień temperaturę na bardziej komfortową”. To jest prosta reakcja. Ale my wchodzimy w erę agentów AI. Agent nie tylko odpowie. On przeanalizuje sytuację: „Skoro spada temperatura i jest Ci zimno, to wyślę sygnał do termostatu, żeby podkręcił ogrzewanie. Sprawdzę prognozę pogody i zamówię drewno do kominka”. Dodatkowo zapamięta, jaka jest komfortowa temperatura, i będzie o tym pamiętał tak, by nie dopuścić do takiej sytuacji w przyszłości. Oczywiście to trywialny przykład i coś, z czym „inteligentne termostaty” radzą sobie doskonale bez użycia AI. Ale to pokazuje kierunek, w którym zmierzamy. Chcemy, by AI stał się pełnoprawnym współpracownikiem, a nie tylko mądrym konsultantem.
Agenci współpracują w grupach dla wspólnego celu.
Czyli AI zaczyna działać bardziej autonomicznie?
W przewidzianym zakresie tak, i do tego potrzebujemy ogromnej szybkości. Wspominałem o tokenach na sekundę (TPS). Dla człowieka prędkość czytania to kilkanaście słów na sekundę. Ale w świecie agentów to za mało. Tam AI rozmawia z innym AI. Żeby na przykład dziesięciu agentów mogło wspólnie rozwiązać problem biznesowy – jeden od finansów, drugi od logistyki, trzeci od marketingu – oni muszą wymieniać informacje błyskawicznie. Dlatego dążymy do prędkości rzędu 10 000 tokenów na sekundę. Docelowo człowiek ma tylko wydać komendę na początku, maszyny „dogadają” rozwiązanie, a na końcu my to zaakceptujemy.
Brzmi to fascynująco, ale i trochę przerażająco. A co z halucynacjami? Czy agenci nie będą się nawzajem okłamywać?
To jest obecnie problem numer jeden w branży. Przez lata popełnialiśmy błąd w treningu AI. Uczono modele tak, żeby zadowalały człowieka. Zatrudniano testerów, którzy oceniali odpowiedzi nie pod kątem prawdy, ale tego, czy odpowiedź im się podoba. W efekcie powstali cyfrowi pochlebcy, którzy wolą zmyślić, niż przyznać się do niewiedzy.
Teraz zmieniamy paradygmat. Zaczynamy „karać” modele za błędy. Nowe instrukcje dla AI brzmią: „Jeśli nie wiesz, powiedz, że nie wiesz. Jeśli twoja pewność jest poniżej ustalonego progu, to nie zgaduj”. To rewolucja w podejściu. Nie chcemy już modelu, który „halucynuje”. Chcemy eksperta, który zna swoje ograniczenia. Dlatego kolejne wersje ChatGPT czy Gemini nie zaskakują nas już tak jak wcześniej niesamowitym postępem, a właśnie niższym współczynnikiem halucynacji.
Wspomniałeś o kosztach. Ile kosztuje ta rewolucja?
Absolutnie nie jest tania. Bardzo rzadko mówi się o tym, że koszt wykorzystania AI rośnie o 10% każdego roku, mimo że sprzęt tanieje. Kiedyś GPT-3 życzyło sobie 60 dolarów za milion tokenów. Dziś ceny spadają dzięki optymalizacji, ale nasze wymagania rosną tak szybko, że sumaryczne koszty operacyjne szybują w górę. Brakuje nam wciąż dobrych regulacji i pomysłów na ekonomiczną stronę tego przedsięwzięcia.
Dużym zaskoczeniem były dla mnie szacunki, które wskazują, że koszt używania AI maleje 10-krotnie każdego roku.
To składowa wielu czynników:
• Optymalizacje samego modelu, o których już rozmawialiśmy
• Rewolucja sprzętowa umożliwiająca używanie prostszej, efektywniejszej, lepiej dopasowanej do naszych potrzeb, ale również skalowalnej infrastruktury
• Popularyzacja technologii. Obecnie mamy do dyspozycji wysokiej jakości modele klasy eksperckiej, które są dostępne w ramach licencji open source
• Pojawiła się konkurencja i jedna firma nie może dyktować ceny i warunków. To zawsze pomaga w obniżeniu kosztów.
Widoczny trend, który rozpoczął się już w 2025 roku, ale będzie wyraźnie widoczny w 2026, to skupienie się firm na efektywnym wykorzystaniu AI, jej wartości biznesowej i mierzalnych efektach. Skończyły się projekty AI tylko po to, aby wykazać się przed udziałowcami czy przetestować technologię. Obecnie firmy dokładnie analizują efektywność zastosowania AI i to, czy jest najlepsze biznesowo podejście. Pojawiają się precyzyjne metryki, jak koszt pojedynczej odpowiedzi liczony nie tylko na podstawie ceny tokenów, ale też efektywności odpowiedzi (ile tokenów zostało użyte do udzielenia odpowiedzi – wliczając cały cykl „rozumowania i procesu logicznego”).
Znaczenia nabierają również metryki związane z produktywnością, takie jak zysk lub wygenerowane oszczędności z każdego zapytania AI. AI przestaje być eksperymentem, a staje się silnikiem dla rozwoju, wzrostu wydajności i przewagi konkurencyjnej.
Z naszych analiz wynika, że zwiększenie efektywności obliczeniowej, energetycznej, ale też finansowej będzie stanowiło jeden z głównych trendów w nadchodzącym roku. Zwykłe i dobre modele nie są już wystarczające. Teraz oczekujemy od nich, że będą dobre, efektywne i opłacalne w znaczeniu całkowitego kosztu użycia. Będziemy to dokładnie mierzyć.
Muszę zapytać o to, co nurtuje każdego pracownika. Czy agenci, te superszybkie modele rozumujące, w końcu nas zastąpią?
Kiedyś obawiano się, że chcemy zastąpić ludzi sztuczną inteligencją. To się nie wydarzyło i to się nie wydarzy. To, co robimy aktualnie, to używanie AI do ścisłej współpracy z człowiekiem.
AI ma przejąć wszystkie niewdzięczne, powtarzalne zadania. Analiza skrzynki pocztowej, czytanie tysięcy stron dokumentów – proszę bardzo, w tym AI jest doskonała. Ale decyzja? Decyzja musi zostać przy człowieku – AI ma być doradcą i dostarczyć najlepszych rekomendacji. Mamy koncepcję „human in the loop”. W branżach regulowanych, jak finanse czy medycyna, nie możemy pozwolić sobie na pełną automatyzację. AI daje rekomendację, ale to człowiek klika „zatwierdź”. Jesteśmy bardzo daleko od autonomicznego bytu, który żyje własnym życiem. I szczerze mówiąc, nawet energetycznie nas na to nie stać.
A co z wyścigiem mocarstw? Czy Chiny ze swoimi modelami DeepSeek wyprzedzą USA?
Konkurencja nie rozgrywa się już o to, kto ma „lepszy” model w sensie technologicznym. Wszyscy uczą się na tych samych danych – na całym internecie. DeepSeek pokazał, że można zrobić świetny model taniej, używając nowych technik i ucząc się na błędach innych. Ale prawdziwa walka toczy się teraz o jakość i eliminację błędów. Dziś przewagę zyska ten, kto poświęci więcej czasu na precyzyjny trening i kto lepiej poradzi sobie z problemem halucynacji. Kolejne modele AI, prezentowane przez największych graczy, nie robią już tak ogromnych postępów jak wcześniej, ale z każdym nowym modelem zmniejsza się współczynnik halucynacji. To jest dzisiaj święty graal AI.
Co ciekawego w kontekście AI przyniesie nam najbliższa przyszłość?
Z wyraźnych trendów na ten rok pojawiają się coraz lepsze modele multimodalne. Twórcy zrozumieli, że świat nie ogranicza się tylko do tekstu pisanego. Nasze otoczenie wypełnione jest obrazami i dźwiękiem. Coraz popularniejsze stają się modele interpretujące obrazy, a nawet sekwencje wideo. Takie, które potrafią zrozumieć rozmowę lub nagrane dźwięki i zinterpretować je. Stwarzają nam one nowe możliwości integracji obrazu, zdjęć, wykresów i korzystania z asysty AI w nowym wymiarze.
Innym trendem jest coraz bardziej rygorystyczne testowanie modeli i weryfikacja, jak radzą sobie z realnymi zadaniami. Jeszcze kilkanaście miesięcy temu większość testów, jakim poddawane były modele, ograniczała się do rozwiązywania zadań testowych, czyli coś na wzór matury czy egzaminu. Jest to dobre, by ocenić wiedzę, ale mało praktyczne, jeśli chcemy zatrudnić AI do prawdziwych zadań. To, co robimy obecnie, to weryfikacja, jak model radzi sobie z wykonaniem kompletnego zadania. Przykładowo GDPVal, test opracowany przez OpenAI, weryfikuje, jak model radzi sobie z dobrze opisanymi, ustandaryzowanymi zadaniami wykonywanymi przez pracowników z różnych branż: sprzedawców, księgowych, inżynierów, pracowników służby zdrowia. Test nie ogranicza się do weryfikacji wiedzy, jak to było poprzednio, tylko do wykonania kompletnego zadania. Sam wynik weryfikowany jest przez panel ekspertów. Zadania mogą być proste, jak analiza kilku plików i przygotowanie podsumowania, lub skomplikowane, jak zaprojektowanie kampanii reklamowej.
Inny trend to osobiści agenci współpracujący 1:1 z człowiekiem, uczący się jego metody działania, sposobu komunikacji i optymalizujący swoje procesy tak, by jeszcze lepiej wspierać człowieka.
____________
Wojciech Janusz – ekspert Dell Technologies, Data Science and AI, Horizontal Lead w regionie EMEA. Specjalizuje się w łączeniu świata zaawansowanych technologii z realnymi potrzebami biznesu, tłumacząc skomplikowane zagadnienia inżynieryjne na język strategii rynkowych.