3款開源構(gòu)建基于語音的LLM應用
發(fā)布日期:2024/9/4 12:23:37 瀏覽量:
1. 一款可本地部署的AI語音工具箱:Easy-Voice-Toolkit
github:
https://github.com/Spr-Aachen/Easy-Voice-Toolkit
一款可本地部署的AI語音工具箱:Easy-Voice-Toolkit
可以用于制作語音助手、語音識別、轉(zhuǎn)換聲音等
包含:
1、音頻處理:提供音頻文件的自動化處理工具
2、語音識別:識別音頻中的語音內(nèi)容
3、語音轉(zhuǎn)錄:將語音轉(zhuǎn)換為文本
4、數(shù)據(jù)集創(chuàng)建:支持SRT格式轉(zhuǎn)換和WAV文件分割
5、模型訓練:訓練語音模型
6、語音轉(zhuǎn)換:將一種語音轉(zhuǎn)換為另一種語音
Easy-Voice-Toolkit提供了一套完整的語音處理流程,可以根據(jù)需要選擇使用,也可以按順序使用,將原始音頻文件轉(zhuǎn)換為語音模型
2. 分分鐘構(gòu)建基于語音的 LLM 應用 vocodehq
https://github.com/vocodedev/vocode-core
使用 Vocode 可以構(gòu)建與 LLM 的實時流式對話,并將它們部署到電話通話、Zoom 會議等場景中,還可以構(gòu)建個人助理或類似語音象棋的應用。主要特性 使用系統(tǒng)音頻啟動對話 設置一個由基于 LLM Agent 響應的電話號碼 從您的電話號碼發(fā)起由基于 LLM Agent 管理的電話呼叫 撥入 Zoom 通話 在 Langchain Agent中使用向真實電話號碼的外呼功能 開箱即用的集成: - 語音轉(zhuǎn)義服務:AssemblyAI、Deepgram、 Gladia、Google Cloud、 Microsoft Azure、RevAI、Whisper - 語音合成服務:http://Rime.ai、Microsoft Azure、Google Cloud、http://Play.ht、Eleven Labs、Cartesia、Coqui (OSS)、gTTS、StreamElements、Bark、AWS Polly
3. 實時對話能力的多模態(tài)模型:Mini-Omni ,支持端到端的語音輸入、輸出
github:https://github.com/gpt-omni/mini-omni
Mini-Omni是清華大學啟元實驗室開源的項目,能聽、能說也能實時思考,在實時語音交互上媲美GPT-4o
特點:
1、實時語音到語音的對話能力: 無需額外的ASR或TTS模型
2、邊思考邊說話: 能夠同時生成文本和音頻
3、流式音頻輸出: 支持流式音頻輸出
4、"Any Model Can Talk" 方法: Mini-Omni 可以將語音交互能力添加到其他模型中,為其他模型賦能
馬上咨詢: 如果您有業(yè)務方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術,還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生