TEN VAD 企業(yè)級別的語音檢測器開源啦
發(fā)布日期:2025/7/5 8:45:17 瀏覽量:
TEN VAD 企業(yè)級別的語音檢測器開源啦
TEN VAD開源了! 一款企業(yè)級實時語音活動檢測器,能精確到幀級別的語音活動檢測,性能優(yōu)于WebRTC VAD、Silero VAD TEN VAD和TEN Turn Detection搭配使用,構(gòu)建AI實時對話語音助手無敵了。
代碼地址:
https://github.com/ten-framework/ten-vad
亮點:
它使AI可以快速且更好的把控對話節(jié)奏,避免插嘴情況,智能中斷處理,使得整個對話過程可以更自然順暢。讓開發(fā)者可以在任何支持 ONNX 的平臺和硬件架構(gòu)上部署 TEN VAD,大大增強了其靈活性和兼容性。此外,WASM+JS 支持也同步發(fā)布,進(jìn)一步擴(kuò)展了 Web 端應(yīng)用的可能性
介紹:
TEN Turn Detection,是一個具備上下文感知的語輪檢測器,支持全雙工語意檢測,支持中英文 Turn Detection會把說話內(nèi)容分成三種情況: finished,用戶表達(dá)了完整的想法,期待回應(yīng) wait,模棱兩可的語句,系統(tǒng)無法確定用戶是否會繼續(xù)說 unfinished,用戶暫時停頓但打算繼續(xù)發(fā)言
TEN VAD,是實時語音活動檢測器,比WebRTC VAD和Silero VAD準(zhǔn)確度更高,速度快,300ms
ten-agent是目前見過的實時語音開源項目里做的最好的,相比之前介紹過一個livekit-agent+realtime,ten-agent工程化和可用性集成的更好,可以稱之為構(gòu)建實時語音領(lǐng)域的coze,可構(gòu)建智能音箱、ai外呼等實時語音交互應(yīng)用,個性化可視化定制工作流。
TEN 生態(tài)系統(tǒng)
TEN VAD 是 TEN 框架的一部分,TEN 生態(tài)還包括:
? TEN Framework:用于構(gòu)建實時多模態(tài)對話 AI
? TEN Turn Detection:支持全雙工對話
? TEN Agent:展示 TEN 框架的語音智能體能力
? TMAN Designer:低代碼/無代碼語音智能體設(shè)計工具

馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生