Qwen3-TTS全家桶開源上線,語音生成技術破局賦能多產業數碼化
Qwen團隊近日正式開源Qwen3-TTS語音生成模型全家桶,憑借多碼本編碼器、雙軌建模等核心技術,實現高效壓縮、實時交互與高保真還原三大突破。模型提供兩種參數版本及多語言支持,開放API接口降低開發門檻,有望加速語音技術在智能交互、跨語言服務等領域的商業化落地,重塑數字內容生產及相關產業生態。
近日語音生成領域迎來關鍵技術落地,Qwen團隊近期正式開源Qwen3-TTS全家桶模型,爲開發者及企業用戶提供一站式、全場景語音生成解決方案,推動語音交互技術向低成本、高適配性升級。
技術層面,該系列模型實現多重創新突破。其自研的多碼本語音編碼器Qwen3-TTS-Tokenizer-12Hz,可高效壓縮語音信號並精準保留語調、重音等副語言信息及聲學環境特徵;輕量級非DiT架構搭配Dual-Track雙軌建模技術,將首包音頻響應時間縮短至單字符輸入級,大幅提升實時交互體驗,兼顧生成效率與音質保真度。
產品設計上,模型提供1.7B和0.6B兩種參數版本,分別適配極致性能需求與輕量化應用場景,可滿足不同資源條件下的開發需求。同時支持10種主流語言及多種方言音色,具備強大的上下文語義適配能力。據悉,此次開源通過GitHub及Qwen API接口開放技術能力,顯著降低語音生成技術的應用門檻,有望快速滲透至智能客服、有聲內容創作、跨語言翻譯等多個領域。
新時空聲明: 本內容爲新時空原創內容,復制、轉載或以其他任何方式使用本內容,須注明來源“新時空”或“NewTimeSpace”。新時空及授權的第三方信息提供者竭力確保數據準確可靠,但不保證數據絕對正確。本內容僅供參考,不構成任何投資建議,交易風險自擔。
Google Play下載
API 訂閱
App Store下載
郵件訂閱
AppGallery下載