GPTBot - nowe narzędzie OpenAI do scrapowania danych
Sztuczna inteligencja, fot. ShutterstockOpenAI uruchomiło GPTBot, nowy bot sieciowy, którego zadaniem jest ulepszenie LLM-ów, takich jak GPT-4 i zapowiadany na koniec roku GPT-5. GPTBot przeszukuje ogromne ilości danych w sieci, aby poprawić dokładność, możliwości i bezpieczeństwo technologii AI. Gigant technologiczny twierdzi, ze działa w oparciu o ścisłe zasady - dokładnie filtruje źródła, nie ma dostępu do danych, które mogą naruszać zasady OpenAI.
Według Janusz Mieloszyka, pierwszego wiceprezesa Nest Banku, wraz z wielką mocą przetwarzania danych przychodzi wielka odpowiedzialność. Rozpoznając potencjalne implikacje takiego narzędzia, OpenAI dało również administratorom stron internetowych wybór przyznania lub ograniczenia dostępu GPTBot do ich stron internetowych. Jest to strategiczny ruch, zapewniający przestrzeganie praw twórców treści internetowych, z którymi OpenAI miało do tej pory problem.
Jeśli właściciele witryn chcą ograniczyć dostęp GPTBota do swojej stronie, mogą zablokować mu dostęp w plikach robots.txt. Natomiast ci, którzy chcą przyznać mu częściowy dostęp, mogą to również dostosować w swoich katalogach.
Względy prawne i etyczne
Jak to bywa z każdą przełomową technologią, GPTBot nie jest pozbawiony kontrowersji. Najnowsze wiadomości z OpenAI wywołały debatę na temat etyki i legalności wykorzystywania zbieranych danych do szkolenia zastrzeżonych systemów sztucznej inteligencji.
OpenAI twierdzi, że GPTBot usunie dane osobowe i treści, który naruszają zasady spółki. Niemniej jednak niektórzy etycy technologii twierdzą, że podejście polegające na rezygnacji z działań wiąże się z problemami dotyczącymi zgody na ich działanie. Wprowadzenie GPTBota jest konsekwencją krytyki OpenAI związanej z przetwarzaniem danych bez zgody ich właściciela w celu szkolenia dużych modeli językowych (LLM), takich jak ChatGPT. OpenAI zaktualizowało swoją politykę prywatności w kwietniu w odpowiedzi na te obawy.
W praktyce, administratorzy sieci mogą blokować działanie GPTbota, ale niektórzy eksperci twierdzą, że zezwalanie na pobieranie danych nie przynosi wymiernych korzyści. Jednak istotnym problemem jest wykorzystywanie treści chronionych prawem autorskim bez podawnia źródła, a obecnie ChatGPT ich nie podaje.
Pojawiają się również pytania dotyczące sposobu, w jaki GPTBot obsługuje licencjonowane multimedia, w tym obrazy, filmy, muzykę i inne znalezione na stronach internetowych. Jeśli te media będą danymi do szkolenia modeli językowych (LLMs), może to stanowić naruszenie praw autorskich. Niektórzy eksperci uważają, że dane generowane przez roboty indeksujące mogą pogorszyć modele językowe, jeśli treść napisana przez sztuczną inteligencję zostanie ponownie wykorzystana do szkolenia.
I odwrotnie, niektórzy uważają, że OpenAI ma prawo do swobodnego korzystania z publicznych danych internetowych, porównując to do osoby uczącej się z treści online. Jednak inni twierdzą, że OpenAI powinno dzielić się zyskami, jeśli zarabia na danych internetowych w celu uzyskania korzyści komercyjnych.
GPTBot otworzył kolejną puszkę Pandory na temat własności intelektualnej, dozwolonego wykorzystania i zachęt dla twórców treści internetowych. Chociaż przestrzeganie pliku robots.txt to dobry krok, nadal brakuje przejrzystości. Społeczność technologiczna zastanawia się, w jaki sposób ich dane będą wykorzystywane w miarę szybkiego rozwoju produktów AI.