Google: lepsze Gemini, nowe generatory obrazów i wideo oraz sensacyjny Flow
Podczas wydarzenia Google I/O 2025 gigant z Mountain View zaprezentował wiele nowości, z których większość skupia się na sztucznej inteligencji. Usprawnienia doczekały się między innymi modele Gemini 2.5, przedstawiono także nowe generatory: obrazów Imagen 4 i wideo Veo 3. Dla twórców wideo prawdziwym odkryciem może okazać się nowe narzędzie Flow.

Modele Gemini 2.5 (Pro i Flash) otrzymały znaczące aktualizacje. Gemini 2.5 oferuje teraz wsparcie dla ponad 24 języków z funkcją zamiany tekstu na mowę i ekspresyjnymi głosami, np. szeptem. Google twierdzi, że modele te charakteryzują się ulepszonym rozumowaniem, multimodalnością, zdolnościami programistycznymi oraz obsługą długiego kontekstu, dzięki czemu stał się jeszcze bardziej wydajny. Gemini 2.5 Flash jest teraz domyślnym modelem Gemini.
Największą nowością w modelu Pro jest tryb rozumowania Deep Think, przeznaczony do rozwiązywania złożonych zadań matematycznych i programistycznych. Funkcja ta, będąca jeszcze w fazie eksperymentalnej, wkrótce zostanie udostępniona pierwszym testerom. Google podkreśla, że Deep Think jest w stanie rozważać wiele hipotez przed udzieleniem odpowiedzi.



Gemini 2.5 Flash jest już dostępny w wersji testowej dla wszystkich użytkowników w aplikacji Gemini, a jego ogólna premiera nastąpi pod koniec czerwca. Komercyjna wersja Gemini 2.5 Pro zostanie wprowadzona wkrótce.
Imagen 4 i Veo 3, lepszy obraz i wideo
Imagen 4, generator obrazów AI, potrafi teraz generować obrazy w rozdzielczości do 2K. Google twierdzi, że nowy model wyróżnia się większą przejrzystością drobnych szczegółów, takich jak skomplikowane tkaniny, kropelki wody i futro zwierząt, i wyróżnia się zarówno stylem fotorealistycznym, jak i abstrakcyjnym. Znacząco lepiej radzi sobie także z pisownią i typografią, dzięki czemu łatwiej jest tworzyć własne kartki okolicznościowe, plakaty, a nawet komiksy.
Veo 3 to najnowszy model wideo AI Google, który charakteryzuje się ulepszonym rozpoznawaniem promptów tekstowych dla generowania wideo. Model ten może tworzyć filmy z dźwiękiem: hałasami ruchu ulicznego w tle miejskiej sceny ulicznej, ptakami śpiewającymi w parku, a nawet dialogami między postaciami.
Veo 3 jest już dostępny dla subskrybentów Google AI Ultra w USA oraz użytkowników korporacyjnych Vertex AI.
Poprzednia wersja, Veo 2, również otrzymała nowe funkcje, takie jak ruchy kamery, dodawanie i usuwanie obiektów. Użytkownicy mogą również dodawać obrazy w celu kontroli stylu oraz rozszerzania klatek poza ich oryginalne granice.
Flow – nowe narzędzie do produkcji filmowej AI
Największym debiutem jest Flow, nowe narzędzie Google do produkcji filmowej oparte na sztucznej inteligencji, które łączy możliwości modeli Veo 3, Imagen 4 i Lyria 2. Flow umożliwia tworzenie kinowych scen z większą szczegółowością, z prostych promptów tekstowych.
Google twierdzi, że Flow pomoże twórcom tworzyć efektowne klipy filmowe, które doskonale odwzorowują fizykę i realizm. Użytkownicy mogą kontrolować ruch kamery, kąty i perspektywy, a także edytować i rozszerzać wcześniej wygenerowane filmy. Google Flow jest już dostępne dla subskrybentów Google AI Pro i Ultra w USA.
Google pokazał też przykładowe produkcje, zrealizowane przez filmowców z użyciem Flow i innych narzędzi. Poniżej film „Freelancers”, którego autorem jest Dave Clark.