Rewolucja od OpenAI. GPT-4o wkracza na wyższy poziom rozwoju AI

OpenAI, fot. mat. prasowe
OpenAI, fot. mat. prasowe
OpenAI zaprezentowało 13 maja nową odsłonę Chata GPT. Efekty? Oszałamiające, AI potrafi rozpoznawać obraz wideo i komunikować się głosowo.

Zyskaj dostęp do bazy artykułów z „My Company Polska” Zamów teraz!

Litera "o" w haśle "GPT-4o" oznacza omni - i jak tłumaczą przedstawiciele OpenAI, to ważny krok w kierunku rozwoju naturalnej komunikacji pomiędzy człowiekiem a komputerem. W dużym uproszczeniu rozwinięty model potrafi analizować zarówno tekst czy obraz, jak i pliki dźwiękowe - oraz jednocześnie potrafi generować włąsne odpowiedzi. Zgodnie z badaniami OpenAI, w przypadku plików audio (czyli nowości w ofercie OpenAI), czas reakcji AI wynosi średnio 320 milisekund - podobnie jak w przypadku czasu reakcji ludzi. 

Zobacz możliwości GPT-4o na filmie OpenAI:

GPT-4o i nowe możliwości

OpenAI odsłoniło nieco szczegółów technicznych dotyczących rozwiniętego modelu. W odróżnieniu od poprzednika, który umożliwiał przekazywanie komunikatów głosowych, nowy system działa nie tylko szybciej, ale także zmienił dotychczasowy system opierający się na trzech modelach - jeden potrafi transkrybować dźwięk na tekst, drugi reaguje na tekst i generuje własny a trzeci konwertuje odpowiedź na dźwięki. GPT-4o robi to w ramach jednego modelu "end-to-end", łącząc tekst, dźwięk i wideo. - Ponieważ GPT-4o to pierwszy taki model, dopiero zaczynamy odkrywać możliwości i ograniczenia systemu - podało OpenAI.

Zgodnie z deklaracjami OpenAI, nowy model jest na nieco wyższym poziomie, niż zwykły GPT-4. Ma także bardziej rozwinięty model rozpoznawania mowy oraz przyspieszony moduł generowania plików dźwiękowych. Firma rozwinęła także kwestie bezpieczeństwa - m.in. w zakresie filtrowania danych oraz zabezpieczeń przed cyberatakami.