Google ujawnia Gemini AI. To bezpośredni konkurent ChatGPT

Sylwia Koźmińska 07.12.2023

Gemini to najbardziej zaawansowany model AI Google'a. Firma twierdzi, że jest lepszy niż GPT-4 w prawie każdym przetestowanym benchmarku, choć na razie nie ma jeszcze niezależnych testów.

Zyskaj dostęp do bazy artykułów z „My Company Polska” Zamów teraz!

Twórca GPT-4, OpenAI, wciąż dochodzi do siebie po wewnętrznych zmaganiach, które doprowadziły do zwolnienia i ponownego zatrudnienia dyrektora generalnego Sama Altmana w ciągu zaledwie kilku dni. Kiedy w jednej firmie trwają zawirowania, druga - w tym przypadku Google - decyduje się na wprowadzenie nowego produktu, dodając więcej presji OpenAI. Powitajmy Gemini.

Google udostępniło już kilka nagrań na YouTube, Twitterze oraz obszerny post na swoim blogu. Sundar Pichaci, dyrektor generalny Google'a, twierdzi że Gemini jest doskonałym rozwiązaniem AI, a jednym z najlepszych filmów demonstrujących jego możliwości jest prawdopodobnie ten:

Seeing some qs on what Gemini *is* (beyond the zodiac :). Best way to understand Gemini’s underlying amazing capabilities is to see them in action, take a look ⬇️ pic.twitter.com/OiCZSsOnCc
— Sundar Pichai (@sundarpichai) December 6, 2023

Na filmie chatbot wzbogacony o Gemini pokazuje, że rozumie kilka rodzajów danych wejściowych - w tym przykładzie głównie audio i wizualnych. Jednak Gemini jest "multimodalny", co oznacza, że potrafi rozumieć dane tekstowe, obrazowe i wideo.

Na przykład AI Google'a potrafi dokładnie identyfikować obiekty na zdjęciach lub filmach, transkrybować wypowiedziane słowa na tekst oraz generować spójną odpowiedź na złożone zapytanie. Może odróżniać różne tryby komunikacji i wyjaśniać znaczenie, gdy używane są jednocześnie liczne dane wejściowe. Podobnie może odpowiadać, używając wielu rodzajów danych wyjściowych.

Gemini w kilku wersjach

Model AI występuje w trzech wariantach. Gemini Ultra jest najbardziej skomplikowanym modelem przeznaczonym głównie dla centrów danych. Gemini Pro jest idealne do skalowania dla konkretnych zadań. Wreszcie Gemini Nano zostało zaprojektowane dla zadań "na urządzeniu". Na przykład Google ogłosiło plany integracji Gemini Nano z Pixel 8 Pro.

Gemini uzyskało w branży najwięcej, bo 90% w benchmarku MMLU, który mierzy ogromne wielozadaniowe zrozumienie języka w 57 tematach, takich jak matematyka, fizyka, prawo i etyka. Google twierdzi, że to wynik lepszy niż GPT-4, który osiągnął 86,4%. Benchmark wykorzystuje tylko dane tekstowe, ale wysoki wynik wskazuje na to, że Gemini ma lepsze zrozumienie języka w różnych tematach, co czyni je potencjalnie bardziej wszechstronnym i praktycznym w różnych zastosowaniach. Nie są to jednak testy niezależne, lecz przeprowadzone przez Google'a.

Gemini jest wdrażana na różnych platformach. Google Bard już otrzymał integrację Gemini Pro. To najważniejsza aktualizacja asystenta chatbota i jest dostępna w ponad 170 krajach, ale tylko po angielsku. Google mówi, że więcej języków jest w planach.

Tematy: