OpenAI 新一代語音模型：聽得更清楚、說得更像人！

Table of Contents

本文重點：

OpenAI 發表了新一代語音模型，包括 gpt-4o-mini-tts（文字轉語音模型）以及 gpt-4o-transcribe 和 gpt-4o-mini-transcribe（語音轉文字模型）。

這些模型在語音辨識準確度、噪音環境處理和語音風格控制上都有顯著提升，超越了先前的 Whisper 模型。

gpt-4o-mini-tts 模型具備精確的語調和語速控制，能實現更自然、更富情感的 AI 語音。

OpenAI 同步推出 OpenAI FM 平台，供使用者體驗文字轉語音功能，並舉辦比賽鼓勵創新應用。

新模型已透過 API 和 Agents SDK 提供給開發者，方便建構先進的語音應用程式。

你有沒有發現，現在跟 AI 講話越來越自然了？從手機裡的語音助理，到打電話給客服，AI 語音互動已經是我們生活的一部分。而 OpenAI 作為 AI 領域的領頭羊，最近又推出了新一代的 gpt-4o 系列語音模型，讓 AI 不只聽得更清楚，說出來的話也更像真人！這不只是技術上的小改進，而是讓 AI 語音從「聽懂就好」進化到「能跟你搏感情」的關鍵一步。讓我們一起來看看 OpenAI 這次的語音模型到底有多厲害，又會怎麼影響我們的生活吧！

AI 說給你聽、聽你說，都更厲害了！

OpenAI 這次推出的語音模型，讓「文字轉語音」（Text-to-Speech, TTS）和「語音轉文字」（Speech-to-Text, STT）這兩項技術都升級了。其中，gpt-4o-mini-tts 這個文字轉語音模型，最厲害的就是能讓開發者更精準地控制 AI 說話的語氣和速度，讓 AI 的聲音聽起來更自然、更有感情1。

至於語音轉文字的部分，OpenAI 則推出了 gpt-4o-transcribe 和 gpt-4o-mini-transcribe。這兩個模型比之前的 Whisper 模型更厲害的地方在於，即使環境吵雜，或是講話的人有口音，它們還是能聽得更清楚，大大提升了語音辨識的準確度。這樣一來，不管是客服、內容創作還是其他輔助工具，AI 都能更準確地聽懂我們說的話。OpenAI 的產品經理 Jeff Harris 也特別強調，新模型的準確度真的進步很多，可以減少錯誤，讓 AI 產生的內容更可靠2。

開放 API，讓開發者一起玩出新花樣

為了讓更多人可以用到這些厲害的語音模型，OpenAI 把它們都整合到 API（應用程式介面）裡，開放給全世界的開發者。而且，OpenAI 這次的定價也很有誠意：

gpt-4o-transcribe: 每百萬個音訊輸入 tokens 收費 6 美元（約每分鐘 0.006 美元）
gpt-4o-mini-transcribe: 每百萬個音訊輸入 tokens 收費 3 美元（約每分鐘 0.003 美元）
gpt-4o-mini-tts: 每百萬個文字輸入 tokens 收費 0.60 美元，每百萬個音訊輸出 tokens 收費 12 美元（約每分鐘 0.015 美元）

OpenAI, gpt-4o-mini-tts, gpt-4o-transcribe, 語音模型, 語音轉文字, 文字轉語音 — 資料來源：OpenAI官網

API的開放更有利於開發者將這些語音功能加到自己的 App 裡。以後不管是即時客服系統、自動會議記錄工具，還是互動語音助理，都可以因為 OpenAI 的新模型而變得更強大3。

另外，OpenAI 特別做了 OpenAI.fm 這個平台，讓大家可以直接在上面體驗文字轉語音的效果，大家不訪玩玩看。

實測起來，中文聽起來還是有點機器感，畢竟訓練樣本肯定沒有英文多。但這個平台有格好處是可以切換各種語言風格，並且擬定好不同的語音模板提示詞，是一個現成學習提示詞設定的地方（畢竟是官方提供的！）

OpenAI 官方表示，這次推出的三款音訊模型中，有兩款語音轉文字模型的表現比 Whisper 還要好，還有一款文字轉語音模型可以讓使用者控制說話的風格。另外，Agents SDK（軟體開發工具包）也開始支援語音輸入，讓開發語音助理變得更簡單。

業界怎麼看？又會帶來什麼改變？

OpenAI 推出新語音模型的消息一出，立刻引起廣大迴響，特別是那些正在尋找更好語音轉錄和語音合成方案的開發者，更是感到非常興奮。有些公司，像是 EliseAI，已經搶先在他們的物業管理平台中用了 OpenAI 的文字轉語音模型，結果發現使用者覺得 AI 語音聽起來更自然且生動。

值得一提的是，新一代的 gpt-4o-mini-tts 模型不只技術更厲害，更重要的是它能 控制說話的風格 和 表達情感。這表示 AI 語音不再只是追求「說得清楚」，而是開始要「說得像人」了。對企業來說，這代表他們可以打造出更貼近情境、更能引起共鳴的語音介面。舉例來說，在客服方面，AI 就能根據客人的情緒和對話內容，調整自己的語氣，讓客人更滿意。這種更細膩的情感互動，將為各行各業帶來更多可能性。

CoL.ai 觀點

OpenAI 新一代語音模型的推出，不只是技術上的進步，更是 AI 語音應用發展的重要里程碑。這表示 AI 語音不再只是追求「說得清楚」，而是開始要「說得像人」了。 CoL.ai 認為，隨著AI語音辨識與輸出的技術進步，我們可以期待未來AI甚至可以「理解」我們的情緒，用更自然、更人性化的方式與我們互動。

參考文獻

文章分類

近期文章

Genspark 超越Manus：2025通用型AI Agent時代來臨2025 年 4 月 7 日
模型上下文協議 (MCP)：AI 應用程式的 USB，加速AI應用整合開發2025 年 4 月 2 日
Liner：超越 Gemini 與 GPT-4.5 的新一代免費 AI 研究工具？深度評測與功能解析2025 年 3 月 29 日