Do aplikacji Gemini zmierza doskonała funkcja! Od teraz można przesyłać pliki audio, i to nawet bezpłatnie

Aplikacja Gemini w końcu obsługuje przesyłanie plików audio na Androidzie, iOS i w sieci
Darmowi użytkownicy mogą przesłać do 10 minut audio, subskrybenci do 3 godzin
Funkcja była dostępna w API już od dwóch lat, ale dziwnym trafem brakowało jej w aplikacji

Sdílejte:

Jakub Kárník

Publikováno: 9. 9. 2025 12:00

Aplikacja Gemini w końcu otrzymała wsparcie dla przesyłania plików audio, co jest funkcją, o którą użytkownicy prosili od samego początku. Pikantne jest to, że w API była dostępna już od dwóch lat i w AI Studio działała od wydania modelu 2.5 Pro. Tylko w samej aplikacji po prostu… jej nie było.

Według Google’a była to najbardziej pożądana funkcja w ogóle. Co ma sens – kto by nie chciał, żeby AI przepisała godzinne nagranie ze spotkania lub przeanalizowała podcast?

Jak to zrobić? Wystarczy kliknąć plus

Korzystanie jest proste jak drut. Na telefonie otwórz menu z plusem i wybierz „Pliki”, na stronie internetowej następnie „Prześlij pliki”. Aplikacja obsłuży praktycznie każdy format audio – MP3, M4A, WAV i wiele innych. Potem wystarczy napisać, co chcesz zrobić z nagraniem.

Tutaj jednak pojawia się pierwszy haczyk. Darmowi użytkownicy mogą przesłać maksymalnie 10 minut audio. Jeśli masz subskrypcję Google AI Pro lub Ultra, limit wzrasta do 3 godzin. To już jest różnica, którą warto rozważyć, zwłaszcza jeśli regularnie pracujesz z dłuższymi nagraniami.

Co wszystko Gemini „przełknie”?

Pliki audio nie są jedynymi, które możesz przesłać do Gemini. Aplikacja już wcześniej obsługiwała filmy – 5 minut za darmo lub godzinę z subskrypcją, maksymalnie 2 GB. Bardziej interesujące jest wsparcie dla deweloperów:

Folder z kodem lub repozytorium GitHub – do 5000 plików do 100 MB
Pliki ZIP – maksymalnie 10 plików w środku
Pozostałe formaty – pojedyncze pliki do 100 MB

Łącznie możesz przesłać do jednego czatu do 10 plików dowolnego formatu. To nie jest złe, choć konkurencja czasem oferuje więcej.

Dlaczego to, do diabła, trwało tak długo?

Użytkownicy na Reddicie słusznie zadają sobie pytanie – dlaczego funkcja dostępna w API przez dwa lata nie była w aplikacji? Odpowiedź jest prawdopodobnie prozaiczna. Google potrzebował zapewnić wystarczającą moc obliczeniową dla milionów użytkowników. Jedno to oferować funkcję deweloperom przez API, drugie to skalować ją dla mas.

Ponadto, jak zauważył jeden użytkownik, problem nie leżał w samym modelu, ale w interfejsie użytkownika aplikacji. Google po prostu potrzebował czasu na implementację. Co jest trochę wstydliwe dla firmy, która chwali się swoimi zdolnościami AI na każdym rogu.

Pierwsze wrażenia? Zaskakująco dobre

Według pierwszych opinii funkcja działa zaskakująco dokładnie. Jeden użytkownik testował analizę piosenki z dużym zniekształceniem, a Gemini potrafiło rozpoznać instrumenty i tekst, choć z okazjonalnymi zabawnymi pomyłkami. Do transkrypcji zwykłych nagrań lub analizy podcastów powinno to być więcej niż wystarczające.

Oczywiście nie wszystkim działa od razu – niektórzy użytkownicy zgłaszają problemy z przetwarzaniem plików. To jednak niestety standard przy stopniowym uruchamianiu nowych funkcji Google’a. Główne jest to, że funkcja w końcu istnieje. Nawet jeśli z dwuletnim opóźnieniem.

W momencie pisania artykułu co prawda nie była dostępna na redakcyjnym Pixelu 10 Pro, ale to, według wszelkich znaków, za kilka godzin się zmieni.

Czy skorzystasz z możliwości przesłania plików audio do Gemini?

Źródło: 9to5google

O autorze

Jakub Kárník

Jakub je znám svou nekonečnou zvědavostí a vášní pro nejnovější technologie. Jeho láska k mobilním telefonům začala s iPhonem 3G, ale dnes se spoléhá na… Więcej o autorze

Sdílejte: