本文重點:
- OpenAI 發表了新一代語音模型,包括 gpt-4o-mini-tts(文字轉語音模型)以及 gpt-4o-transcribe 和 gpt-4o-mini-transcribe(語音轉文字模型)。
- 這些模型在語音辨識準確度、噪音環境處理和語音風格控制上都有顯著提升,超越了先前的 Whisper 模型。
- gpt-4o-mini-tts 模型具備精確的語調和語速控制,能實現更自然、更富情感的 AI 語音。
- OpenAI 同步推出 OpenAI FM 平台,供使用者體驗文字轉語音功能,並舉辦比賽鼓勵創新應用。
- 新模型已透過 API 和 Agents SDK 提供給開發者,方便建構先進的語音應用程式。
你有沒有發現,現在跟 AI 講話越來越自然了?從手機裡的語音助理,到打電話給客服,AI 語音互動已經是我們生活的一部分。而 OpenAI 作為 AI 領域的領頭羊,最近又推出了新一代的 gpt-4o 系列語音模型,讓 AI 不只聽得更清楚,說出來的話也更像真人!這不只是技術上的小改進,而是讓 AI 語音從「聽懂就好」進化到「能跟你搏感情」的關鍵一步。讓我們一起來看看 OpenAI 這次的語音模型到底有多厲害,又會怎麼影響我們的生活吧!
AI 說給你聽、聽你說,都更厲害了!
OpenAI 這次推出的語音模型,讓「文字轉語音」(Text-to-Speech, TTS)和「語音轉文字」(Speech-to-Text, STT)這兩項技術都升級了。其中,gpt-4o-mini-tts 這個文字轉語音模型,最厲害的就是能讓開發者更精準地控制 AI 說話的語氣和速度,讓 AI 的聲音聽起來更自然、更有感情1。
至於語音轉文字的部分,OpenAI 則推出了 gpt-4o-transcribe 和 gpt-4o-mini-transcribe。這兩個模型比之前的 Whisper 模型更厲害的地方在於,即使環境吵雜,或是講話的人有口音,它們還是能聽得更清楚,大大提升了語音辨識的準確度。這樣一來,不管是客服、內容創作還是其他輔助工具,AI 都能更準確地聽懂我們說的話。OpenAI 的產品經理 Jeff Harris 也特別強調,新模型的準確度真的進步很多,可以減少錯誤,讓 AI 產生的內容更可靠2。
開放 API,讓開發者一起玩出新花樣
為了讓更多人可以用到這些厲害的語音模型,OpenAI 把它們都整合到 API(應用程式介面)裡,開放給全世界的開發者。而且,OpenAI 這次的定價也很有誠意:
- gpt-4o-transcribe: 每百萬個音訊輸入 tokens 收費 6 美元(約每分鐘 0.006 美元)
- gpt-4o-mini-transcribe: 每百萬個音訊輸入 tokens 收費 3 美元(約每分鐘 0.003 美元)
- gpt-4o-mini-tts: 每百萬個文字輸入 tokens 收費 0.60 美元,每百萬個音訊輸出 tokens 收費 12 美元(約每分鐘 0.015 美元)

API的開放更有利於開發者將這些語音功能加到自己的 App 裡。以後不管是即時客服系統、自動會議記錄工具,還是互動語音助理,都可以因為 OpenAI 的新模型而變得更強大3。
另外,OpenAI 特別做了 OpenAI.fm 這個平台,讓大家可以直接在上面體驗文字轉語音的效果,大家不訪玩玩看。
實測起來,中文聽起來還是有點機器感,畢竟訓練樣本肯定沒有英文多。但這個平台有格好處是可以切換各種語言風格,並且擬定好不同的語音模板提示詞,是一個現成學習提示詞設定的地方(畢竟是官方提供的!)

OpenAI 官方表示,這次推出的三款音訊模型中,有兩款語音轉文字模型的表現比 Whisper 還要好,還有一款文字轉語音模型可以讓使用者控制說話的風格。另外,Agents SDK(軟體開發工具包)也開始支援語音輸入,讓開發語音助理變得更簡單。
業界怎麼看?又會帶來什麼改變?
OpenAI 推出新語音模型的消息一出,立刻引起廣大迴響,特別是那些正在尋找更好語音轉錄和語音合成方案的開發者,更是感到非常興奮。有些公司,像是 EliseAI,已經搶先在他們的物業管理平台中用了 OpenAI 的文字轉語音模型,結果發現使用者覺得 AI 語音聽起來更自然且生動。
值得一提的是,新一代的 gpt-4o-mini-tts 模型不只技術更厲害,更重要的是它能 控制說話的風格 和 表達情感。這表示 AI 語音不再只是追求「說得清楚」,而是開始要「說得像人」了。對企業來說,這代表他們可以打造出更貼近情境、更能引起共鳴的語音介面。舉例來說,在客服方面,AI 就能根據客人的情緒和對話內容,調整自己的語氣,讓客人更滿意。這種更細膩的情感互動,將為各行各業帶來更多可能性。
CoL.ai 觀點
OpenAI 新一代語音模型的推出,不只是技術上的進步,更是 AI 語音應用發展的重要里程碑。這表示 AI 語音不再只是追求「說得清楚」,而是開始要「說得像人」了。 CoL.ai 認為,隨著AI語音辨識與輸出的技術進步,我們可以期待未來AI甚至可以「理解」我們的情緒,用更自然、更人性化的方式與我們互動。