阿里Qwen3-TTS:跨語言混合無縫切換,方言音色全面覆蓋
發(fā)布日期:2025/9/24 13:07:39 瀏覽量:
阿里Qwen3-TTS:跨語言混合無縫切換,方言音色全面覆蓋~!
阿里最新推出的 Qwen3-TTS,直接點亮了TTS新紀(jì)元。
它是阿里通義千問Qwen-TTS系列的最新升級版,訓(xùn)練于超過300萬小時大規(guī)模語料庫,實現(xiàn)人類級自然度和表現(xiàn)力。
新增了北京話、上海話、四川話等方言支持,總計7種中英雙語音色。跨語言混合無縫,自動調(diào)整韻律/節(jié)奏/情緒,音色一致性高。
? 跨語言混合與無縫切換:中英、日韓等自然過渡,音色一致,避免生硬斷層。
? 方言支持:普通話、北京、上海、四川、南京、陜西、閩南、天津、粵語。
? 多語言支持:英文、西班牙語、俄語、意大利語、法語、韓語、日語、德語、葡萄牙語,多國語言全覆蓋。
? 智能韻律、節(jié)奏與情緒調(diào)整:根據(jù)文本語義調(diào)整語速、停頓、強調(diào),支持喜悅、悲傷、興奮、嚴肅等,生成情感化表達。
? 高保真:跨語言保持克隆音色。
? 易用API集成:modelstudio一鍵調(diào)用,支持批量合成。
快速入手
Qwen3-TTS 支持 Python、Java、HTTP 等SDK調(diào)用。
使用 text 參數(shù)指定文本,使用 voice 參數(shù)指定語音。您可以從返回的 URL 中檢索合成的音頻。
# DashScope SDK 版本不低于 1.24.6 import os import requests import dashscope # 以下為新加坡地域url,若使用北京地域的模型,需將url替換為:https://dashscope.aliyuncs.com/api/v1 dashscope.base_http_api_url = ’https://dashscope-intl.aliyuncs.com/api/v1’ text = "那我來給大家推薦一款T恤,這款呢真的是超級好看,這個顏色呢很顯氣質(zhì),而且呢也是搭配的絕佳單品,大家可以閉眼入,真的是非常好看,對身材的包容性也很好,不管啥身材的寶寶呢,穿上去都是很好看的。推薦寶寶們下單哦。" # SpeechSynthesizer接口使用方法:dashscope.audio.qwen_tts.SpeechSynthesizer.call(...) response = dashscope.MultiModalConversation.call(
model="qwen3-tts-flash",
api_key=os.getenv("DASHSCOPE_API_KEY"),
text=text,
voice="Cherry",
language_type="Chinese", # 建議與文本語種一致,以獲得正確的發(fā)音和自然的語調(diào)。 stream=False )
audio_url = response.output.audio.url
save_path = "downloaded_audio.wav" # 自定義保存路徑 try:
response = requests.get(audio_url)
response.raise_for_status() # 檢查請求是否成功 with open(save_path, ’wb’) as f:
f.write(response.content) print(f"音頻文件已保存至:{save_path}") except Exception as e: print(f"下載失?。?span id="9mt8pmb4osg" class="hljs-subst" style="color:#E45649;">{str(e)}")
實時播放
Qwen-TTS 模型可以流式地將音頻數(shù)據(jù)以 Base64 格式進行輸出,并在最后一個數(shù)據(jù)包中包含完整音頻的 URL。
# DashScope SDK 版本不低于1.24.6 # coding=utf-8 # # Installation instructions for pyaudio: # APPLE Mac OS X # brew install portaudio # pip install pyaudio # Debian/Ubuntu # sudo apt-get install python-pyaudio python3-pyaudio # or # pip install pyaudio # CentOS # sudo yum install -y portaudio portaudio-devel && pip install pyaudio # Microsoft Windows # python -m pip install pyaudio import os import dashscope import pyaudio import time import base64 import numpy as np # 以下為新加坡地域url,若使用北京地域的模型,需將url替換為:https://dashscope.aliyuncs.com/api/v1 dashscope.base_http_api_url = ’https://dashscope-intl.aliyuncs.com/api/v1’ p = pyaudio.PyAudio() # 創(chuàng)建音頻流 stream = p.open(format=pyaudio.paInt16,
channels=1,
rate=24000,
output=True)
text = "你好啊,我是通義千問" response = dashscope.MultiModalConversation.call(
api_key=os.getenv("DASHSCOPE_API_KEY"),
model="qwen3-tts-flash",
text=text,
voice="Cherry",
language_type="Chinese", # 建議與文本語種一致,以獲得正確的發(fā)音和自然的語調(diào)。 stream=True ) for chunk in response:
audio = chunk.output.audio if audio.data is not None:
wav_bytes = base64.b64decode(audio.data)
audio_np = np.frombuffer(wav_bytes, dtype=np.int16) # 直接播放音頻數(shù)據(jù) stream.write(audio_np.tobytes()) if chunk.output.finish_reason == "stop": print("finish at: {} ", chunk.output.audio.expires_at)
time.sleep(0.8) # 清理資源 stream.stop_stream()
stream.close()
p.terminate()
API文檔:https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2879134
應(yīng)用場景
Qwen3-TTS的多方言和混合能力使其適配多種場景:有聲書:粵語/閩南方言小說續(xù)寫,保持敘述者音色。
? AI客服:中英混合響應(yīng),情緒調(diào)整為友好/專業(yè)。
? 短視頻配音:韓語/日語解說,節(jié)奏自動匹配視頻。
? 播客生成:多語言訪談,零樣本克隆嘉賓音色。
? 教育內(nèi)容:天津/陜西方言教學(xué)音頻,親切自然。
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生