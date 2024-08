Akademickie Centrum Komputerowe Cyfronet AGH udostępniło zasoby obliczeniowe dwóch najszybszych superkomputerów w Polsce – Heliosa i Atheny – do stworzenia Bielika, nowego polskiego modelu językowego.

Bielik to efekt współpracy zespołu fundacji SpeakLeash oraz Akademickiego Centrum Komputerowego Cyfronet AGH. Jest to duży model językowy (LLM) z 11 miliardami parametrów, stworzony z myślą o języku polskim.

Fundacja SpeakLeash zrzesza ludzi z różnych profesji, którzy postawili sobie za cel stworzenie największego polskiego zbioru danych tekstowych, wzorując się na zagranicznych inicjatywach jak The Pile. Zespół projektowy składa się z pracowników polskich przedsiębiorstw, badaczy oraz studentów związanych z obszarami sztucznej inteligencji. Prace nad modelem trwały ponad rok i obejmowały zbieranie, przetwarzanie oraz klasyfikację danych.

Najtrudniejsze zadanie polegało na pozyskaniu danych w języku polskim. Musimy operować wyłącznie na danych źródłowych, co do których mamy pewność, jakie jest ich pochodzenie.

– powiedział Sebastian Kondracki ze SpeakLeash,pomysłodawca Bielika

Kluczową rolę w rozwoju Bielika odegrały superkomputery Helios i Athena z Akademickiego Centrum Komputerowego Cyfronet AGH. Współpraca z AGH umożliwiła wykorzystanie odpowiednich mocy obliczeniowych oraz wsparcie eksperckie, co gwarantowało sukces projektu. Zespół ACK Cyfronet wspierał optymalizację i skalowanie procesów treningowych, rozwój metod generowania danych syntetycznych oraz testowanie modeli.

Zasoby Heliosa, najszybszej aktualnie maszyny w Polsce, wykorzystaliśmy do uczenia modeli językowych. Nasza rola polega na wsparciu wiedzą ekspercką, doświadczeniem i przede wszystkim mocą obliczeniową procesu katalogowania, zbierania, przetwarzania danych oraz na wspólnym przeprowadzeniu procesu uczenia modeli językowych. Dzięki pracy zespołu SpeakLeash i AGH udało nam się stworzyć Bielika, model LLM, który doskonale radzi sobie z naszym językiem oraz kontekstem kulturowym i który może być kluczowym elementem łańcuchów przetwarzania danych tekstowych dla naszego języka w zastosowaniach naukowych i biznesowych. Potwierdzeniem jakości Bielika są wysokie lokaty uzyskane przez model na listach rankingowych dla języka polskiego.

– powiedział Marek Magryś, zastępca Dyrektora ACK Cyfronet AGH ds. Komputerów Dużej Mocy

Moc obliczeniowa Heliosa i Atheny w tradycyjnych symulacjach komputerowych to łącznie ponad 44 PFLOPS, a dla obliczeń z zakresu sztucznej inteligencji w niższej precyzji to aż 2 EFLOPS.

Jeśli operujemy tak dużymi danymi jak w przypadku projektu Bielik to oczywiście infrastruktura potrzebna do pracy przekracza zdolności zwykłego komputera. Musimy dysponować mocą obliczeniową potrzebną tylko do tego żeby przygotowywać dane, porównywać je ze sobą, trenować modele. Bariera dostępności tego typu superkomputerów powoduje, że mało która firma jest w stanie takie prace prowadzić samodzielnie. Szczęśliwie AGH dysponuje takim zapleczem.