蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

微立頂科技

新聞資訊

創(chuàng)新 服務 價值

  3款開源構(gòu)建基于語音的LLM應用

發(fā)布日期:2024/9/4 12:23:37      瀏覽量:

1. 一款可本地部署的AI語音工具箱:Easy-Voice-Toolkit 

github:

https://github.com/Spr-Aachen/Easy-Voice-Toolkit

一款可本地部署的AI語音工具箱:Easy-Voice-Toolkit 

可以用于制作語音助手、語音識別、轉(zhuǎn)換聲音等 

包含:
1、音頻處理:提供音頻文件的自動化處理工具

2、語音識別:識別音頻中的語音內(nèi)容

3、語音轉(zhuǎn)錄:將語音轉(zhuǎn)換為文本

4、數(shù)據(jù)集創(chuàng)建:支持SRT格式轉(zhuǎn)換和WAV文件分割 

5、模型訓練:訓練語音模型 

6、語音轉(zhuǎn)換:將一種語音轉(zhuǎn)換為另一種語音

Easy-Voice-Toolkit提供了一套完整的語音處理流程,可以根據(jù)需要選擇使用,也可以按順序使用,將原始音頻文件轉(zhuǎn)換為語音模型 


2.  分分鐘構(gòu)建基于語音的 LLM 應用 vocodehq

https://github.com/vocodedev/vocode-core


使用 Vocode 可以構(gòu)建與 LLM 的實時流式對話,并將它們部署到電話通話、Zoom 會議等場景中,還可以構(gòu)建個人助理或類似語音象棋的應用。主要特性  使用系統(tǒng)音頻啟動對話   設置一個由基于 LLM Agent 響應的電話號碼   從您的電話號碼發(fā)起由基于 LLM Agent 管理的電話呼叫  撥入 Zoom 通話  在 Langchain Agent中使用向真實電話號碼的外呼功能 開箱即用的集成: - 語音轉(zhuǎn)義服務:AssemblyAI、Deepgram、 Gladia、Google Cloud、 Microsoft Azure、RevAI、Whisper - 語音合成服務:http://Rime.ai、Microsoft Azure、Google Cloud、http://Play.ht、Eleven Labs、Cartesia、Coqui (OSS)、gTTS、StreamElements、Bark、AWS Polly 


3. 實時對話能力的多模態(tài)模型:Mini-Omni ,支持端到端的語音輸入、輸出

github:https://github.com/gpt-omni/mini-omni

Mini-Omni是清華大學啟元實驗室開源的項目,能聽、能說也能實時思考,在實時語音交互上媲美GPT-4o 

特點: 

1、實時語音到語音的對話能力: 無需額外的ASR或TTS模型

2、邊思考邊說話: 能夠同時生成文本和音頻

3、流式音頻輸出: 支持流式音頻輸出

4、"Any Model Can Talk" 方法: Mini-Omni 可以將語音交互能力添加到其他模型中,為其他模型賦能 



  業(yè)務實施流程

需求調(diào)研 →

團隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓

售后服務

馬上咨詢: 如果您有業(yè)務方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術,還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生