Pogadasz z Google na temat przesłanych nagrań dźwiękowych
Google rozszerza możliwości swojej sztucznej inteligencji Gemini o przetwarzanie i analizę plików audio, co stanowi ważny krok w rozwoju wielomodalnych systemów AI.

Nowe możliwości Google Gemini
Dotychczas Gemini umiała generować treści tekstowe, obrazy i wideo oraz tworzyć dźwięki, ale nie pozwalała użytkownikom na przesyłanie własnych plików audio do analizy. Teraz ta bariera została przełamana, dzięki czemu użytkownicy mogą wgrywać nagrania audio i rozmawiać z AI na ich temat.
Funkcja ta jest dostępna zarówno w aplikacji mobilnej Gemini, jak i jej wersji webowej. Wystarczy w oknie rozmowy kliknąć ikonę „+” i wybrać plik audio, który może mieć do 10 minut długości w wersji darmowej. Użytkownicy wykupujący subskrypcję Gemini AI Pro lub Ultra mogą przesyłać pliki nawet do 3 godzin trwania.



Oprócz plików audio, Gemini obsługuje teraz różne formaty, takie jak zestawy plików ZIP, wideo do 2 GB (do 5 minut dla darmowych użytkowników i do 1 godziny dla płacących) oraz foldery z kodem źródłowym i repozytoria GitHub.
To doskonała sprawa dla studentów i twórców cyfrowych
Nowa funkcja bardzo ułatwia pracę z długimi nagraniami, jak wykłady, podcasty czy audiobooki. Użytkownik może szybko uzyskać streszczenia, wyciągnąć kluczowe punkty lub zamienić treść audio na raporty, krótkie notatki czy wizualne slajdy wiedzy — wszystko to według indywidualnych potrzeb. Co więcej, wsparcie dla plików audio nie ogranicza się do języka angielskiego, co znacznie podnosi użyteczność narzędzia na całym świecie.
Warto też przypomnieć, że w ekosystemie Google pojawiło się jakiś czas temu inne ciekawe narzędzie — NotebookLM, które potrafi zamieniać długie pliki tekstowe na podcasty audio w formie dialogu dwóch osób lub przygotować materiał w formie wideo. Google oferuje także darmowy dostęp do wersji Pro Gemini dla studentów w wielu krajach.