OpenAI Hadirkan Teknologi Voice AI Real-Time di API Terbaru

Logic Community – OpenAI kembali memperluas kemampuan AI berbasis suara mereka. Perusahaan tersebut resmi meluncurkan sejumlah fitur baru untuk API OpenAI yang memungkinkan pengembang membuat aplikasi dengan kemampuan berbicara, menerjemahkan, hingga mentranskripsikan percakapan secara real-time.

Salah satu fitur utama yang diperkenalkan adalah model baru bernama GPT-Realtime-2. Model ini dirancang untuk menghadirkan percakapan suara yang lebih natural dan responsif dibanding generasi sebelumnya. OpenAI mengklaim teknologi tersebut sudah dibekali kemampuan penalaran setara GPT-5 sehingga mampu menangani permintaan yang lebih kompleks, termasuk mempertahankan konteks percakapan dalam sesi panjang.

Selain itu, OpenAI juga menghadirkan GPT-Realtime-Translate yang dapat menerjemahkan percakapan langsung dari lebih dari 70 bahasa ke 13 bahasa tujuan. Teknologi ini ditujukan untuk berbagai kebutuhan seperti layanan pelanggan, pendidikan, hingga komunikasi lintas negara secara instan.

Untuk kebutuhan transkripsi suara, perusahaan memperkenalkan GPT-Realtime-Whisper yang mampu mengubah ucapan menjadi teks secara langsung. Model ini ditujukan untuk penggunaan seperti caption rapat, dokumentasi kerja, hingga aplikasi berbasis voice assistant.

OpenAI menyebut seluruh model audio terbaru tersebut telah tersedia melalui platform developer mereka. Beberapa perusahaan besar seperti Zillow, Priceline, dan Deutsche Telekom disebut sudah mulai menguji teknologi ini untuk membangun asisten AI berbasis suara yang lebih interaktif.

Di sisi lain, OpenAI juga menegaskan bahwa mereka telah menyiapkan sistem pengamanan untuk mencegah penyalahgunaan teknologi suara AI, termasuk untuk spam, penipuan, maupun konten berbahaya lainnya. Sistem akan mendeteksi pelanggaran tertentu dan dapat menghentikan percakapan secara otomatis jika diperlukan.