Góra 69 procent prawdy. One kłamią jak z nut, a i tak im wierzymy
Aplikacje 15 GRU 2025

Góra 69 procent prawdy. One kłamią jak z nut, a i tak im wierzymy

Nawet jeśli nie korzystasz na co dzień z chatbotów AI, nieustannie trafiasz na treści przez nie wygenerowane. Tymczasem w najlepszym wypadku w zaledwie 69% mówią one prawdę. Google pochwalił się badaniem, które zmusza do smutnej refleksji Google opublikował w zeszłym tygodniu badanie, które powinno zmrozić krew w żyłach każdemu użytkownikowi chatbotów AI. Korzystając z narzędzia FACTS Benchmark Suite, Google wykazał, że nawet najlepsze modele sztucznej inteligencji osiągają zaledwie 69 procent faktograficznej dokładności w odpowiadaniu na pytania. To oznacza, że na każde trzy pytania, jedna odpowiedź będzie błędna – niezależnie od tego, jak pewnie i płynnie chatbot formułuje swoją wypowiedź.​ Google chciał się pochwalić, ale czy jest już czym? Wyniki badania ujawniły ogromne różnice między modelami. Google Gemini 3 Pro zajął pierwsze miejsce z wynikiem 69 procent, a modele konkurencji zaoferowały dramatycznie mniejszą skuteczność. ChatGPT-5 osiągnął około 62 procent, Claude 4.5 Opus około 51 procent, a Grok 4 około 54 procent. Te liczby są alarmujące, biorąc pod uwagę szerokie rozpowszechnienie narzędzi AI w biznesie i edukacji oraz fakt, że zdecydowana większość osób korzysta z darmowych wersji, o jeszcze niższej skuteczności niż ich płatnych odpowiedników. FACTS Benchmark Suite testuje dokładność faktyczną w czterech rzeczywistych scenariuszach użycia. Pierwsza kategoria to wiedza parametryczna – zdolność do udzielania odpowiedzi na pytania faktyczne, korzystając wyłącznie z wiedzy zdobytej podczas treningu. Druga to efektywność wyszukiwania, mierząca, jak dobrze modele wykorzystują narzędzia internetowe do pobrania dokładnych informacji. Trzecia kategoria to ukorzenienie, czyli czy model pozostaje wierny dostarczonemu dokumentowi bez dodawania fałszywych szczegółów. Czwarta dotyczy zrozumienia multimodalnego – na przykład prawidłowego odczytywania wykresów, diagramów i obrazów.​ Najtrudniejszą sferą dla wszystkich modeli okazały się zadania multimodalne, gdzie dokładność z reguły spadała poniżej 50 procent. Przerobienie np. zdjęcia tabeli na arkusz i potem wykorzystanie takiego dokumentu niesie tym samym za sobą duże ryzyka dla użytkowników. Pełne wyniki badania w języku angielskim znaleźć można pod tym adresem.

0
LECH OKOń
1.

Tech

Więcej nowości

Sony PlayStation wprowadza własny zegarek. Zamiast konsoli
Sprzęt 15 GRU 2025

Sony PlayStation wprowadza własny zegarek. Zamiast konsoli

2
MIESZKO ZAGAńCZYK
1.
Google może zagrozić NVIDII. Jest coraz więcej chętnych na nowe TPU
Sprzęt 15 GRU 2025

Google może zagrozić NVIDII. Jest coraz więcej chętnych na nowe TPU

2
PRZEMYSłAW BANASIAK
1.
One UI 8.5 ma ukryte funkcje. Samsung trzyma najlepsze dla Galaxy S26
Oprogramowanie 15 GRU 2025

One UI 8.5 ma ukryte funkcje. Samsung trzyma najlepsze dla Galaxy S26

0
MIESZKO ZAGAńCZYK
1.
Już nie tylko RAM i SSD. Drożeje kolejna popularna elektronika
Sprzęt 15 GRU 2025

Już nie tylko RAM i SSD. Drożeje kolejna popularna elektronika

2
PRZEMYSłAW BANASIAK
1.
6500 mAh w małym smartfonie Vivo. Konkurencja może mieć problem
Sprzęt 15 GRU 2025

6500 mAh w małym smartfonie Vivo. Konkurencja może mieć problem

4
MARIAN SZUTIAK
1.
Nie masz pomysłu na prezent dla gracza? Ten kosztuje 202 zł i ucieszy każdego
Telepolis.pl
Sprzęt 15 GRU 2025

Nie masz pomysłu na prezent dla gracza? Ten kosztuje 202 zł i ucieszy każdego

0
PAWEł MARETYCZ
1.
Awaria Spotify. Tysiące osób z całej Polski zgłasza problemy
Aplikacje 15 GRU 2025

Awaria Spotify. Tysiące osób z całej Polski zgłasza problemy

1
PAWEł MARETYCZ
1.
Aktualizacja Apple Watch nie jest jakaś odkrywcza, ale chce nam pomóc
Aplikacje 15 GRU 2025

Aktualizacja Apple Watch nie jest jakaś odkrywcza, ale chce nam pomóc

0
ANNA KOPEć
1.
Toyota w końcu pękła. Odpalisz ją iPhone'em i Apple Watchem
Moto 15 GRU 2025

Toyota w końcu pękła. Odpalisz ją iPhone'em i Apple Watchem

0
PAWEł MARETYCZ
1.
Orange i Vivo z nową promocją. Zyskasz na niej 1700 zł
Sprzęt 15 GRU 2025

Orange i Vivo z nową promocją. Zyskasz na niej 1700 zł

0
MIESZKO ZAGAńCZYK
1.
Świetny zegarek z GPS i funkcją odtwarzacza mp3 kupisz dziś za 374 zł
Telepolis.pl
Sprzęt 15 GRU 2025

Świetny zegarek z GPS i funkcją odtwarzacza mp3 kupisz dziś za 374 zł

0
PAWEł MARETYCZ
1.
Biedronka kończy z hegemonią Glovo. Podrzuci zakupy też Uberem
Aplikacje 15 GRU 2025

Biedronka kończy z hegemonią Glovo. Podrzuci zakupy też Uberem

0
DOMINIK KRAWCZYK
1.
Smartfony cofną się w rozwoju? W 2026 roku będzie mniej RAM
Sprzęt 15 GRU 2025

Smartfony cofną się w rozwoju? W 2026 roku będzie mniej RAM

7
MARIAN SZUTIAK
1.
Jedna niewinna wiadomość sprawiła, że z jej konta odpłynęła spora suma
Bezpieczeństwo 15 GRU 2025

Jedna niewinna wiadomość sprawiła, że z jej konta odpłynęła spora suma

1
ANNA KOPEć
1.
Oficjalny kalendarz NASA 2026 całkowicie za darmo. Jest jednak mały haczyk
Nauka 15 GRU 2025

Oficjalny kalendarz NASA 2026 całkowicie za darmo. Jest jednak mały haczyk

0
PAWEł MARETYCZ
1.
Telepolis - gif