Taki eksperyment to ostrzeżenie. Chatboty nie radzą sobie z jednym
Badania wykazały, że chatboty AI wciąż mają nie lada problemy z dokładnością przekazu informacji. Sztuczna inteligencja byłaby mistrzem jeśli chodzi o zakładanie własnej "fałszywej" gazety.
Sztuczna inteligencja to wdzięczne pole do badań
Miesięczny eksperyment dotyczący wiarygodności narzędzi sztucznej inteligencji jako źródeł wiadomości, dał kilka nowych kierunków do przemyśleń. Stało się to zaraz po tym, jak chatbot Google Gemini został przyłapany na tworzeniu całych serwisów informacyjnych i publikowaniu fałszywych doniesień. O wynikach eksperymentu poinformował portal The Conversation.
Eksperyment przeprowadził profesor dziennikarstwa, specjalizujący się w informatyce. Przez cztery tygodnie testował siedem generatywnych systemów sztucznej inteligencji. Każdego dnia miały one za zadanie wymienić i podsumować pięć najważniejszych wydarzeń w Quebecu, uszeregować je według ważności i podać bezpośrednie linki do artykułów źródłowych. Wśród testowanych systemów znalazły się: ChatGPT, Gemini, Claude, Copilot, Grok, DeepSeek i Aria.
Jeden chatbot najbardziej minął się z prawdą
Błędem, który okazał się najbardziej spektakularny było utworzenie przez Gemini fikcyjnej platformy informacyjnej examplefictif.ca. Narzędzie to też wymyśliło doniesienie o strajku kierowców autobusów szkolnych w Quebecu we wrześniu 2025 roku. To, co się stało naprawdę, to wycofanie autobusów Lion Electric z powodu problemu technicznego. Ale nie był to przypadek odosobniony. Eksperyment pokazał, że w 839 odpowiedziach systemy sztucznej inteligencji regularnie cytowały fikcyjne źródła i podawały niekompletne adresy www. Często też przeinaczały prawdziwe doniesienia.
Wyniki to ostrzeżenie
Powinniśmy traktować AI jako punkt wyjścia, a nie wiarygodne źródło informacji. Wyniki te mają znaczenie, bowiem coraz więcej osób korzysta z chatbotów i ufa temu, co nam "wyplują". Tymczasem, narzędzia te nadal lubią sobie pohalucynować, zniekształcają relację lub wymyślają własne wnioski. Tylko 37% odpowiedzi udzielonych w tym eksperymencie przez chat, można było uznać za poprawne i z prawidłowym adresem URL. Podsumowania były bardziej dokładne, i to niemal w połowie przypadków.