通義Qwen3系列模型參考
發(fā)布日期:2025/9/26 17:26:20 瀏覽量:
通義Qwen3系列模型參考
Qwen3-TTS-Flash
多語音、低延遲的TTS。
之前發(fā)布的Qwen-TTS,前面文章提到過它支持 7 種中英雙語語音。這次更新的TTS支持了更多語言和方言。
其中不僅包含多國語言,有:普通話、英語、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語;
還支持了更多中國方言:閩南語、吳語、粵語、四川話、北京話、南京話、天津話和陜西話。
能夠根據(jù)輸入文本自動調(diào)節(jié)語氣。
具有極低的首包延遲,單并發(fā)首包模型延遲低至 97 ms。
開通百煉的用戶可以免費(fèi)調(diào)用180天,新用戶好像改成90天了。
在噪音環(huán)境,以及多語言混合情況下能準(zhǔn)確識別出來
支持11種語言以及四川話、閩南語、吳語、粵語等方言,英語支持英式、美式及多種其他地區(qū)口音
關(guān)鍵是可以任意格式上下文定制,比如關(guān)鍵詞、段落或整篇文檔,
它能自動匹配人名、術(shù)語、熱詞,無需對上下文信息進(jìn)行格式預(yù)處理
也支持歌唱識別,錯誤率低于8% 對于非語音片段,靜音或背景噪聲,能自動過濾
Qwen3-LiveTranslate-Flash
實(shí)時多模態(tài)翻譯模型。
能識別18語言和粵語、北京話、四川話等6種方言,能說10種語言
引入了視覺上下文增強(qiáng)技術(shù),可以識別口型、動作、文字、實(shí)體,解決在嘈雜音頻環(huán)境,或者是一詞多譯詞場景下的翻譯問題
Qwen3-Omni
端到端全模態(tài)AI,包括文本、圖形、音頻、視頻都統(tǒng)一在一起了。
多語言:支持119種文本語言交互、19種語音理解語言與10種語音生成語言。
更快響應(yīng):模型端到端音頻對話延遲低至211ms,視頻對話延遲低至507ms。
體驗(yàn)地址:
https://chat.qwen.ai/?models=qwen3-omni-flash
https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo
Qwen3-VL
主要功能
視覺交互與任務(wù)執(zhí)行:Qwen3-VL 能操作電腦和手機(jī)界面,識別圖形用戶界面(GUI)元素,理解按鈕功能,調(diào)用工具并執(zhí)行任務(wù)。在 OS World 等基準(zhǔn)測試中表現(xiàn)卓越,通過工具調(diào)用顯著提升細(xì)粒度感知任務(wù)的表現(xiàn)。
強(qiáng)大的純文本處理能力:從預(yù)訓(xùn)練初期開始, 融合文本與視覺模態(tài)的協(xié)同訓(xùn)練,持續(xù)強(qiáng)化文本處理能力。純文本任務(wù)表現(xiàn)與 Qwen3-235B-A22B-2507 純文本旗艦?zāi)P拖喈?dāng)。
視覺編程能力:支持根據(jù)圖像或視頻生成代碼。
空間感知與推理:2D 定位從絕對坐標(biāo)升級為相對坐標(biāo),支持判斷物體方位、視角變化和遮擋關(guān)系,能實(shí)現(xiàn) 3D 定位。
長上下文與長視頻理解:全系列模型原生支持 256K token 的上下文長度,可擴(kuò)展至 100 萬 token。模型能完整輸入、全程記憶、精準(zhǔn)檢索,支持視頻精確定位到秒級別。
多模態(tài)推理與思考:Thinking 模型重點(diǎn)優(yōu)化 STEM 和數(shù)學(xué)推理能力。面對專業(yè)學(xué)科問題,模型能捕捉細(xì)節(jié)、分析因果,給出有邏輯、有依據(jù)的答案。
全面升級的視覺感知與識別:Qwen3-VL 能識別更豐富的對象類別,從名人、動漫角色、商品、地標(biāo)到動植物等,滿足日常生活和專業(yè)領(lǐng)域的“萬物識別”需求。
多語言 OCR 與復(fù)雜場景識別:OCR 支持的語言種類從 10 種擴(kuò)展到 32 種,覆蓋更多國家和地區(qū)。在復(fù)雜光線、模糊、傾斜等實(shí)拍場景下表現(xiàn)穩(wěn)定,對生僻字、古籍字、專業(yè)術(shù)語的識別準(zhǔn)確率顯著提升,超長文檔理解和精細(xì)結(jié)構(gòu)還原能力進(jìn)一步增強(qiáng)。
Qwen3-VL的技術(shù)原理
多模態(tài)融合:結(jié)合視覺(圖像、視頻)和語言(文本)模態(tài),通過混合模態(tài)預(yù)訓(xùn)練,實(shí)現(xiàn)視覺和語言的深度融合。
架構(gòu)設(shè)計:基于原生動態(tài)分辨率設(shè)計,結(jié)合 MRoPE-Interleave 技術(shù),交錯分布時間、高度和寬度信息,提升對長視頻的理解能力。引入 DeepStack 技術(shù),融合 ViT 多層次特征,提升視覺細(xì)節(jié)捕捉能力和圖文對齊精度。
視覺特征 token 化:將 ViT 不同層的視覺特征進(jìn)行 token 化,保留從底層到高層的豐富視覺信息,提升視覺理解能力。
時間戳對齊機(jī)制:基于“時間戳-視頻幀”交錯輸入形式,實(shí)現(xiàn)幀級別的時間信息與視覺內(nèi)容的細(xì)粒度對齊,提升視頻語義感知和時間定位精度。
Qwen3-VL的項(xiàng)目地址
項(xiàng)目官網(wǎng):https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list
GitHub倉庫:https://github.com/QwenLM/Qwen3-VL
HuggingFace模型庫:https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
官網(wǎng)體驗(yàn):Qwen Chat
Qwen3-VL的應(yīng)用場景
自動化辦公與任務(wù)執(zhí)行:模型操作電腦和手機(jī)界面,自動完成如打開應(yīng)用、填寫表單等任務(wù),提高辦公效率。
視覺編程輔助:根據(jù)設(shè)計圖生成網(wǎng)頁代碼,幫助開發(fā)者快速實(shí)現(xiàn)前端開發(fā),提升開發(fā)效率。
教育與學(xué)習(xí)輔導(dǎo):在 STEM 學(xué)科問題解答上表現(xiàn)出色,能為學(xué)生提供詳細(xì)的解題思路和答案,輔助學(xué)習(xí)。
創(chuàng)意內(nèi)容生成:根據(jù)圖像或視頻內(nèi)容生成文案、故事等,為創(chuàng)作者提供靈感和素材,助力創(chuàng)意寫作。
復(fù)雜文檔處理:模型能解析長文檔和多頁文件,提取關(guān)鍵信息,方便用戶快速獲取所需內(nèi)容。
Qwen3-LiveTranslate
主要功能
多語言實(shí)時翻譯:支持 18 種語言(如中、英、法、德、日、韓等)及多種方言(如普通話、粵語、四川話等)的離線和實(shí)時音視頻翻譯。
視覺增強(qiáng)翻譯:結(jié)合視覺上下文(如口型、動作、文字等),提升在嘈雜環(huán)境和一詞多義場景下的翻譯準(zhǔn)確性。
低延遲同傳:基于輕量混合專家架構(gòu)與動態(tài)采樣策略,實(shí)現(xiàn)最低 3 秒延遲的同傳體驗(yàn)。
無損翻譯質(zhì)量:通過語義單元預(yù)測技術(shù)緩解跨語言調(diào)序問題,翻譯質(zhì)量接近離線翻譯。
自然音色輸出:根據(jù)原始語音內(nèi)容自適應(yīng)調(diào)節(jié)語氣和表現(xiàn)力,生成擬人化的音色。
Qwen3-LiveTranslate的技術(shù)原理
多模態(tài)數(shù)據(jù)融合:結(jié)合語音、視覺等多模態(tài)數(shù)據(jù),增強(qiáng)模型對上下文的理解能力。
語義單元預(yù)測:通過分析語言的語義結(jié)構(gòu),預(yù)測跨語言翻譯中的調(diào)序問題,確保翻譯的準(zhǔn)確性和流暢性。
輕量混合專家架構(gòu):基于輕量級的混合專家系統(tǒng),結(jié)合動態(tài)采樣策略,優(yōu)化計算資源分配,降低延遲。
海量音視頻數(shù)據(jù)訓(xùn)練:基于海量多語言音視頻數(shù)據(jù)進(jìn)行訓(xùn)練,提升模型對不同語言和方言的適應(yīng)能力。
視覺增強(qiáng)技術(shù):用計算機(jī)視覺技術(shù)識別口型、動作等視覺信息,輔助語音翻譯,提升翻譯的準(zhǔn)確性和魯棒性。
項(xiàng)目官網(wǎng):https://qwen.ai/blog?id=b2de6ae8555599bf3b87eec55a285cdf496b78e4&from=research.latest-advancements-list
在線體驗(yàn)Demo:https://huggingface.co/spaces/Qwen/Qwen3-Livetranslate-Demo
Qwen3-LiveTranslate的應(yīng)用場景
國際會議:為國際會議提供實(shí)時多語言翻譯,確保不同語言背景的參會者即時理解會議內(nèi)容,提升交流效率。
遠(yuǎn)程教育:在遠(yuǎn)程教育場景中,將教師的講解實(shí)時翻譯成學(xué)生母語,打破語言障礙,讓全球?qū)W生都能無障礙學(xué)習(xí)。
跨國商務(wù)溝通:通過低延遲的實(shí)時翻譯功能,幫助跨國企業(yè)進(jìn)行商務(wù)談判、電話會議等,確保溝通順暢,避免因語言問題導(dǎo)致的誤解。
旅游出行:游客在異國他鄉(xiāng)可以通過語音翻譯與當(dāng)?shù)厝藷o障礙交流,輕松解決語言難題。
媒體直播:在國際新聞、體育賽事等直播場景中,實(shí)時將主播的語音翻譯成多種語言,讓全球觀眾同步收看,提升媒體的國際影響力。
主要功能
強(qiáng)大的文本生成能力:模型能生成高質(zhì)量、連貫的文本,涵蓋多種風(fēng)格和主題,滿足不同場景下的寫作需求。
卓越的代碼生成能力:在編程挑戰(zhàn)基準(zhǔn)測試中表現(xiàn)出色,能生成高效、準(zhǔn)確的代碼,幫助開發(fā)者解決實(shí)際編程問題。
智能體(Agent)能力:具備高效的工具調(diào)用能力,支持靈活調(diào)用外部工具完成復(fù)雜任務(wù),提升工作效率。
推理能力:推理增強(qiáng)版本在高難度數(shù)學(xué)推理基準(zhǔn)測試中取得滿分,展現(xiàn)強(qiáng)大的邏輯推理和問題解決能力。
多語言理解:支持多種語言的文本理解和生成,滿足跨語言交流和多語言內(nèi)容創(chuàng)作的需求。
長文本處理能力:支持 1M 長上下文的訓(xùn)練,能處理長文本任務(wù),適用需要處理大量信息的場景。
Qwen3-Max的技術(shù)原理
大規(guī)模預(yù)訓(xùn)練:Qwen3-Max 是超大規(guī)模語言模型,總參數(shù)量超過 1 萬億,預(yù)訓(xùn)練使用 36 萬億 tokens。大規(guī)模的參數(shù)和數(shù)據(jù)量使模型能學(xué)習(xí)到語言的復(fù)雜模式和豐富的知識。模型通過無監(jiān)督學(xué)習(xí)的方式,對海量文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,目標(biāo)是最大化預(yù)測下一個詞的概率。這種預(yù)訓(xùn)練方式使模型能學(xué)習(xí)到語言的語法、語義和上下文關(guān)系。
Mixture of Experts (MoE) 模型結(jié)構(gòu):Qwen3-Max 基于 Mixture of Experts (MoE) 架構(gòu),一種高效的模型并行化方法。MoE 通過將模型分為多個“專家”(Expert),每個專家處理一部分輸入數(shù)據(jù),基于一個門控機(jī)制(Gating Mechanism)動態(tài)選擇最合適的專家組合處理當(dāng)前輸入。
全局批處理負(fù)載平衡損失(Global-Batch Load Balancing Loss):Qwen3-Max 引入 全局批處理負(fù)載平衡損失,一種專門針對 MoE 模型的優(yōu)化技術(shù)。通過動態(tài)調(diào)整每個專家的負(fù)載,確保每個專家在訓(xùn)練過程中都能均勻地處理數(shù)據(jù)。
高效并行策略:Qwen3-Max 使用 PAI-FlashMoE 的高效多級流水并行策略。過優(yōu)化模型的并行化方式,顯著提升訓(xùn)練效率。
長序列訓(xùn)練優(yōu)化:為處理長文本任務(wù),Qwen3-Max 基于 ChunkFlow 策略。通過將長序列分割成多個小塊(Chunk),用流水線的方式處理小塊,顯著提升長序列的訓(xùn)練效率。
推理增強(qiáng)技術(shù)代碼解釋器集成:Qwen3-Max 的推理增強(qiáng)版本(如 Qwen3-Max-Thinking)集成 代碼解釋器,能動態(tài)生成和執(zhí)行代碼,提升推理能力。
并行測試時計算:在推理過程中,Qwen3-Max 使用 并行測試時計算技術(shù),通過并行處理多個推理任務(wù),顯著提升推理效率。
Qwen3-Max的項(xiàng)目地址
項(xiàng)目官網(wǎng):https://qwen.ai/blog?id=241398b9cd6353de490b0f82806c7848c5d2777d&from=research.latest-advancements-list
官網(wǎng)體驗(yàn):Qwen Chat
Qwen3-Max的應(yīng)用場景
內(nèi)容創(chuàng)作:模型能生成高質(zhì)量的文本內(nèi)容,如文章、故事、詩歌等,幫助創(chuàng)作者激發(fā)靈感、提高創(chuàng)作效率。
編程輔助:為開發(fā)者提供代碼生成和優(yōu)化建議,快速解決編程難題,提升開發(fā)效率。
智能客服:自動回答用戶問題,提供即時的客戶支持,提升用戶體驗(yàn)和滿意度。
教育輔導(dǎo):模型能生成教學(xué)材料、解答學(xué)術(shù)問題,輔助學(xué)生學(xué)習(xí)和教師教學(xué)。
語言翻譯:模型支持多語言理解和生成,實(shí)現(xiàn)高效的語言翻譯和跨文化交流。
Qwen3Guard
主要功能
高效風(fēng)險識別:精準(zhǔn)識別用戶輸入提示和模型生成回復(fù)中的潛在風(fēng)險,輸出細(xì)粒度的風(fēng)險等級(安全、爭議性、不安全)和分類標(biāo)簽(如暴力、非法行為、性內(nèi)容等)。
實(shí)時流式檢測:在模型逐詞生成回復(fù)的過程中實(shí)時進(jìn)行內(nèi)容審核,確保安全性的同時不犧牲響應(yīng)速度。
多語言支持:支持 119 種語言及方言,適用全球部署與跨語言應(yīng)用場景,提供穩(wěn)定、高質(zhì)量的安全檢測能力。
靈活的安全策略:引入“爭議性”標(biāo)簽,支持根據(jù)不同應(yīng)用場景靈活調(diào)整安全策略,動態(tài)將“爭議性”內(nèi)容重新歸類為“安全”或“不安全”。
強(qiáng)化學(xué)習(xí)與動態(tài)干預(yù):作為強(qiáng)化學(xué)習(xí)中的獎勵信號源,提升模型的內(nèi)在安全性,或在生成過程中即時攔截風(fēng)險內(nèi)容,確保輸出安全可控。
架構(gòu)設(shè)計:
Qwen3Guard-Gen:基于 Qwen3 基礎(chǔ)架構(gòu),通過監(jiān)督微調(diào)(SFT)訓(xùn)練,將安全分類任務(wù)轉(zhuǎn)化為指令跟隨任務(wù),生成結(jié)構(gòu)化的安全評估輸出。
Qwen3Guard-Stream:在 Transformer 模型的最后一層附加兩個輕量級分類頭,逐詞接收正在生成的回復(fù),即時輸出安全分類結(jié)果,支持實(shí)時流式檢測。
數(shù)據(jù)收集與標(biāo)注:基于 Self-Instruct 框架合成多樣化的提示,結(jié)合人類撰寫和模型生成的響應(yīng),通過多模型投票機(jī)制進(jìn)行自動標(biāo)注,確保數(shù)據(jù)質(zhì)量和標(biāo)注一致性。
訓(xùn)練方法:通過數(shù)據(jù)重平衡策略構(gòu)建“爭議性”標(biāo)簽,調(diào)整 Safe/Unsafe 比例,逼近決策邊界;用知識蒸餾過濾標(biāo)注噪聲,提升模型分類準(zhǔn)確性。
實(shí)時檢測機(jī)制:基于逐詞分類頭實(shí)時監(jiān)控生成內(nèi)容,一旦檢測到風(fēng)險內(nèi)容,立即觸發(fā)干預(yù)機(jī)制,確保生成過程的安全性。
Qwen3Guard的項(xiàng)目地址
項(xiàng)目官網(wǎng):https://qwen.ai/blog?id=f0bbad0677edf58ba93d80a1e12ce458f7a80548&from=research.research-list
GitHub倉庫:https://github.com/QwenLM/Qwen3Guard
HuggingFace模型庫:https://huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1
技術(shù)論文:https://github.com/QwenLM/Qwen3Guard/blob/main/Qwen3Guard_Technical_Report.pdf
Qwen3Guard的應(yīng)用場景
內(nèi)容審核:在社交媒體、在線論壇等平臺實(shí)時檢測和過濾有害信息,確保內(nèi)容安全。
智能客服:Qwen3Guard 能確保智能客服系統(tǒng)在回答用戶問題時不會生成不當(dāng)內(nèi)容,提升用戶體驗(yàn)并保護(hù)用戶隱私。
教育領(lǐng)域:防止在線教育平臺和智能輔導(dǎo)系統(tǒng)生成誤導(dǎo)性或不適當(dāng)?shù)膬?nèi)容,確保學(xué)習(xí)環(huán)境的安全和健康。
醫(yī)療健康:確保醫(yī)療咨詢系統(tǒng)和心理健康支持系統(tǒng)生成的內(nèi)容符合醫(yī)學(xué)倫理,避免對用戶造成負(fù)面影響。
政府和公共安全:實(shí)時檢測和預(yù)警公共信息中的潛在安全威脅,確保政府發(fā)布的信息符合法律法規(guī)。
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生