Karmienie sztucznej inteligencji publicznymi danymi to błąd
W dobie intensywnego rozwoju sztucznej inteligencji, firmy takie jak OpenAI, Meta i Google intensywnie poszukują danych do trenowania swoich modeli. W tym celu przeszukują internet, książki, podcasty i filmy. Jest jednak lepsze rozwiązanie.

Dane syntetyczne zamiast analizy chaosu, jaki stworzyliśmy w sieci
Syntetyczne dane to dane generowane sztucznie przez algorytmy uczenia maszynowego, często na podstawie niewielkiej ilości oryginalnych danych. Ali Golshan, którego firma Gretel umożliwia eksperymentowanie i budowanie na bazie syntetycznych danych, twierdzi, że są one bezpieczniejsze i bardziej prywatne niż dane publiczne. Dzięki syntetycznym danym można uniknąć luk, niekonsekwencji i uprzedzeń, które często występują w surowych danych publicznych.
Co więcej, syntetyczne dane pozwalają na precyzyjne zaprojektowanie zestawów danych dostosowanych do konkretnych aplikacji AI. Dzięki temu modele są dokładniejsze i niezawodne.



Korzystanie z danych publicznych wcale nie jest też takie łatwe
Korzystanie z danych publicznych wiąże się z wieloma wyzwaniami. Po pierwsze, surowe dane często zawierają niekompletne informacje, co ogranicza ich użyteczność w specjalistycznych zastosowaniach, takich jak prognozowanie wyników zdrowotnych. Po drugie, rosnąca presja regulacyjna ogranicza praktyki zbierania danych, co utrudnia firmom dostęp do świeżych, aktualnych informacji. Opóźnione informacyjnie dane publiczne są przy tym traktowane jako mniej wartościowe.
Społeczeństwo zorientowało się już, co z naszymi danymi najchętniej zrobiłyby firmy IT i era szybkiego działania i łamania zasad dobiega właśnie końca. Co warto przy tym zauważyć, firmy wykorzystują zwykle zaledwie 1-10% zebranych danych, a reszta to niewykorzystany balast, zwiększający jedynie koszty i ryzyko wycieku danych.
Syntetyczne dane mogą zmienić tę sytuację, umożliwiając bezpieczne udostępnianie danych w całej organizacji, bez ryzyka naruszenia prywatności.