Meta twierdzi, że nie kradnie bo tylko pobiera dane
Właściciele Facebooka na potęgę korzystali z torrentów, pobierając ponad 82 TB danych w celu szkolenia własnego modelu AI. Teraz tłumaczą się przed sądem.

Meta, gigant branży technologicznej odpowiedzialny m.in. za platformę Facebook, znalazł się w ogniu krytyki po ujawnieniu informacji o pobraniu ogromnego, 82-terabajtowego zbioru danych zawierających rzekomo nielegalnie skopiowane, chronione prawem autorskim materiały. Dane miały posłużyć do trenowania modelu sztucznej inteligencji LLaMA.
To nie pierwsza tego typu sprawa w świecie AI
W złożonych w tym tygodniu dokumentach sądowych prawnicy Meta przekonują, że firma co prawda wykorzystała torrenty do pobrania plików, jednak jej pracownicy mieli podjąć kroki, by w trakcie tego procesu nie "seedować" (czyli nie udostępniać dalej) ściąganego materiału. W świecie torrentów każdy użytkownik pobierający pliki może je jednocześnie wysyłać kolejnym osobom - jest to podstawa działania sieci peer-to-peer.



Meta argumentuje, że nie ma dowodów na to, by firma seedowała pobrane książki. Mimo to Michael Clark - jeden z dyrektorów w Meta - przyznał przed sądem, że konfiguracja oprogramowania służącego do pobierania danych została tak zmodyfikowana, aby ograniczyć do minimum, choć niekoniecznie całkowicie wyeliminować, udostępnianie plików. W odpowiedzi na pytanie dlaczego zdecydowano się jedynie na minimalizację seedingu, powołano się na tajemnicę adwokacką.
Dodatkową kontrowersję budzi wewnętrzna wiadomość od Franka Zhanga, badacza z Meta, w której sugerowano ukrywanie potencjalnego seedingu, by uniknąć "ryzyka wyśledzenia" serwerów Facebooka. To kolejne ogniwo w łańcuchu dowodów, które mogą wskazywać na to, że Meta nie tylko próbowała ograniczyć udostępnianie, ale być może też świadomie ukryć swój udział w sieci peer-to-peer, zdając sprawę z tego co robi.
Tymczasem autorzy skopiowanych materiałów utrzymują, że Meta celowo "zrezygnowała z legalnych sposobów uzyskania licencji i stała się świadomym uczestnikiem nielegalnej sieci peer-to-peer". Rozstrzygnięcie tej sprawy może więc mieć duży wpływ na przyszłe procesy dotyczące naruszeń praw autorskich w kontekście trenowania modeli sztucznej inteligencji. Ponieważ postępowanie sądowe jest w toku i żadna ostateczna decyzja nie zapadła, należy spodziewać się kolejnych odwołań.
Na koniec warto przypomnieć, że to nie pierwsza tego typu sprawa w świecie AI. Wcześniej OpenAI zostało pozwane przez grupę pisarzy, a także przez New York Times i Microsoft za skopiowanie "milionów" artykułów. Fala podobnych procesów prawdopodobnie będzie się nasilać, ale obecnie kwestia odpowiedzialności za korzystanie z chronionych treści przy trenowaniu modeli językowych pozostaje otwarta.