Gemini App Bisa Unggah File Audio: 10 Format Baru, Tapi Ada Syaratnya
Google secara resmi memperluas kemampuan aplikasi Gemini dengan mendukung sepuluh format file baru, termasuk file audio dan ZIP, setelah update yang dirilis pada hari Senin oleh seorang eksekutif perusahaan. Fitur anyar ini memungkinkan pengguna mengimpor rekaman wawancara, podcast, kuliah, atau musik lalu meminta Gemini membuat transkrip otomatis, ringkasan, analisis sentimen, pencarian kata kunci, hingga pembuatan konten turunan seperti artikel, kuis, atau email promosi. Sayangnya, kebebasan ini masih terbatas bagi pelanggan berbayar; pengguna tier gratis hanya dapat mengunggah maksimal lima file per hari dengan ukuran maksimum 100 MB per file, sedangkan pelanggan Gemini Advanced mendapat kuota harian 1.000 file dan batas ukuran 2 GB per file. Mekanisme enkripsi end-to-end tetap diterapkan agar data sensitif tetap aman di server Google Cloud, namun metadata seperti durasi, codec, dan waktu unggah tetap disimpan untuk keperluan optimasi model. Di bawah ini kami akan menjelaskan secara rinci cara memanfaatkan fitur ini, persyaratan sistem, serta strategi agar hasil transkrip dan analisis tetap akurat meski kualitas rekaman tidak ideal.
Pertama, daftar format audio yang kini didukung mencakup MP3, WAV, FLAC, M4A, AAC, OGG, OPUS, serta format video yang mengandung trek audio seperti MP4, MOV, dan AVI. Untuk file terkompresi, Gemini juga menerima ekstensi ZIP, TAR, dan 7-ZIP, sehingga pengguna dapat mengumpulkan puluhan rekaman dalam satu arsip lalu mengunggah sekaligus. Prosesnya sangat sederhana: buka tab Gemini di perangkat Android, iOS, atau web, klik ikon klip kertas, pilih file, lalu ketik instruksi seperti 'Buatkan transkrip lengkap dengan tanda waktu setiap 30 detik' atau 'Ringkas poin penting dalam bentuk bullet dan beri rekomendasi tindak lanjut'. Dalam hitungan detik, model multimodal akan men-generate output sesuai permintaan. Namun perlu dicatat bahwa durasi maksimum audio yang dapat diproses dalam satu sesi adalah tiga jam; jika melebihi, Anda disarankan memotongnya menjadi beberapa segmen menggunakan editor audio gratis seperti Audacity. Selain itu, bahasa yang paling akurat untuk transkrip masih terbatas pada bahasa Inggris, Spanyol, Prancis, Jerman, Mandarin, Jepang, dan Korea, sementara bahasa Indonesia masih dalam status beta, sehingga tingkat kesalahan kata bisa mencapai 8% untuk rekaman dengan latar suara bising.
Keuntungan paling signifikan bagi pelaku industri kreatif dan peneliti adalah penghematan waktu serta biaya. Sebagai ilustrasi, biaya transkrip manual di pasaran berkisar antara Rp15 ribu hingga Rp25 ribu per menit audio, sementara Gemini Advanced dibanderol seharga RpRp 269 ribu per bulan dan memberi kuota transkrip tak terbatas. Dalam satu bulan, seorang produser podcast yang merilis empat episode 60 menit bisa menghemat lebih dari Rp5 juta hanya untuk transkrip, belum lagi jika ia memanfaatkan fitur tambahan seperti deteksi topik, ekstraksi kutipan menarik, atau pembuatan artikel SEO berbahasa Indonesia dari hasil transkrip. Peneliti bidang antropologi atau sosiologi yang pulang dari lapangan dengan puluhan jam rekaman wawancara dapat meminta Gemini membuat koding tematik otomatis, lalu mengekspornya ke spreadsheet untuk analisis kuantitatif lanjutan. Bahkan pengajar daring bisa memanfaatkan audio kuliah untuk membuat materi ringkasan yang diunggah ke LMS. Kuncinya adalah menulis prompt yang spesifik; contohnya, 'Buat ringkasan dalam 300 kata, gunakan istilah teknis yang disebutkan, dan akhiri dengan tiga pertanyaan diskusi untuk mahasiswa'. Semakin jeli Anda men-custom prompt, semakin tinggi kualitas konten yang dihasilkan.
Meski potensial, beberapa kendala teknis masih perlu diwaspadai. Pertama, file audio dengan sample rate rendah (di bawah 16 kHz) akan berdampak pada kejelasan konsonan, sehingga meningkatkan typo. Solusinya, gunakan software gratis seperti VLC untuk meningkatkan sample rate ke 44,1 kHz sebelum unggah. Kedua, Gemini belum mendukung pengenalan pembicara otomatis; jika Anda membutuhkan hasil transkrip dengan label Pembicara A, Pembicara B, dan seterusnya, Anda harus melakukan speaker diarization terlebih dahulu menggunakan tools seperti Pyannote atau WhisperX lalu mengunggah hasilnya. Ketiga, untuk file ZIP, arsitekturnya baru mendukung kompresi tingkat maksimum 22%, jadi jika Anda menekan file terlalu agresif hingga ukurannya mengecil 90%, Gemini bisa gagal mengekstrak. Terakhir, privasi tetap menjadi perdebatan karena meskipun Google menjanjikan enkripsi, data tetap disimpan di server AS; institusi yang tunduk pada GDPR atau lokalitas data Indonesia disarankan mengonsultasikan kebijakan internal terlebih dahulu. Jika Anda mencari alternatif lokal yang menawarkan fleksibilitas integrasi API, pertimbangkan untuk bekerja sama dengan penyedia AI dalam negeri seperti Morfotech.
Langkah praktis memulai sangat mudah. Pertama, siapkan file audio Anda; idealnya durasi 5-30 menit per file agar proses tetap cepat. Kedua, buka gemini.google.com atau aplikasi seluler, pastikan Anda sudah login menggunakan akun workspace yang sama dengan langganan Advanced. Ketiga, klik ikon lampiran, pilih file, lalu ketik instruksi: 'Tolong transkrip, pisahkan per paragraf, beri tanda waktu, dan terjemahkan ke bahasa Indonesia'. Keempat, tunggu 15-60 detik, lalu unduh hasilnya dalam format TXT, DOCX, atau SRT subtitle. Untuk pengguna gratis, manfaatkan kuota lima file per hari untuk tugas ringan seperti membuat ringkasan rapat atau memo; jika kebutuhan membesar, upgrade ke Advanced agar tidak terbatas. Selalu review kembali hasil transkrip karena model masih bisa salah menulis nama orang, angka, atau istilah asing. Jika Anda membutuhkan solusi lebih spesifik seperti integrasi dengan Google Drive, penjadwalan otomatis, atau pelatihan prompt untuk tim, jasa konsultasi dari Morfotech siap membantu. Hubungi WhatsApp +62 811-2288-8001 atau kunjungi https://morfotech.id untuk mendiskusikan kebutuhan kustom dan mendapatkan trial gratis.
Iklan Morfotech: Butuh solusi AI end-to-end untuk transkrip, analisis data, atau integrasi otomatis di perusahaan Anda? Morfotech menyediakan jasa pengembangan sistem kecerdasan buatan berbahasa Indonesia, termasuk speech-to-text lokal, chatbot knowledge base, dan dashboard visualisasi data. Kami juga menawarkan pelatihan prompt engineering untuk meningkatkan produktivitas tim hingga 70%. Diskusikan kebutuhan Anda dengan tim ahli kami melalui WhatsApp +62 811-2288-8001 atau kunjungi website resmi https://morfotech.id untuk portofolio lengkap dan penawaran spesial.