基于UE5的智能數(shù)字人系統(tǒng)
發(fā)布日期:2025/9/5 7:40:34 瀏覽量:
GMTalker 是由光明實(shí)驗(yàn)室媒體智能團(tuán)隊(duì)打造的一款專為虛幻引擎 5.3 設(shè)計(jì)的高沉浸式智能數(shù)字人系統(tǒng)。系統(tǒng)集成了語音識別、語音合成、自然語言理解、嘴型動畫驅(qū)動與3D渲染能力,具備完整的本地部署支持,適用于科研、教育及虛擬人應(yīng)用開發(fā)場景。通過完善的后端、前端和算法設(shè)計(jì),GMTalker 構(gòu)建了一個(gè)完整的商業(yè)化數(shù)字人 Pipeline。
- 前端呈現(xiàn)(UE5 客戶端)
- 后端服務(wù)(AI 數(shù)字人后端系統(tǒng))
- AI 核心服務(wù)能力(模型 + API)
- 環(huán)境管理與部署層(Conda + 本地運(yùn)行)
- 支持語音輸入,能聽懂你說的話,并快速轉(zhuǎn)成文字
- 支持說錯(cuò)可以打斷,讓對話更像和真人聊天一樣
- 支持把文字變成自然的語音,語氣真實(shí)、語調(diào)自然
- 支持用 AI 回答各種問題,還能記住上下文接著聊
- 支持連接本地知識庫,問它專業(yè)問題也能答上來
- 支持根據(jù)語音驅(qū)動嘴型,和說話內(nèi)容同步張嘴
- 支持配合情緒做表情動作,不再死板
- 支持 UE5 渲染,畫面超真實(shí)
-

-
環(huán)境要求
- Python:3.11+
- 操作系統(tǒng):Windows 10/11 (推薦)
- 內(nèi)存:8GB+ RAM
- Unreal Engine:5.3.2
- Conda(推薦):Anaconda 或 Miniconda
- GPU支持:需2GB以上顯存(推薦支持CUDA的NVIDIA GPU)
快速啟動
-
克隆項(xiàng)目
git clone https://github.com/feima09/GMTalker.git
-
一鍵啟動
# 使用批處理文件啟動(推薦)webui.bat
# 或使用PowerShell腳本./webui.ps1
-
訪問服務(wù)
- 主服務(wù):http://127.0.0.1:5002
- Web配置界面:http://127.0.0.1:7860
主要配置文件
- configs/config.yaml - 主配置文件
- configs/gpt/ - GPT模型配置預(yù)設(shè)
- configs/tts/ - TTS服務(wù)配置預(yù)設(shè)
- configs/hotword.txt - 語音喚醒詞配置
- configs/prompt.txt - 系統(tǒng)提示詞
REST API
POST /v1/chat/completions
創(chuàng)建新的聊天對話,獲取AI回復(fù)并播放語音。
請求體:
- ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{
- "messages": [ {
- "content": "用戶輸入文本"
- } ]}
響應(yīng):
- 格式: text/event-stream
- 內(nèi)容: AI回復(fù)的流式文本
GET /v1/chat/new
創(chuàng)建新的聊天會話。
SocketIO API
連接地址
ounter(linews://127.0.0.1:5002/socket.io
namespace: /ue
事件類型
- question - 發(fā)送用戶問題
- aniplay - 動畫播放控制
- connect/disconnect - 連接狀態(tài)
GPT服務(wù) (services/gpt/)
- OpenAI兼容: 支持OpenAI API格式
- 多模型: 支持OpenAI、通義千問等
- 流式響應(yīng): 實(shí)時(shí)生成文本流
- RAG支持: 可配置檢索增強(qiáng)生成
TTS服務(wù) (services/tts/)
- MeloTTS: 高質(zhì)量中文語音合成
- 異步處理: 并行處理多個(gè)TTS請求
- 微調(diào)推理:詳細(xì)微調(diào)+推理可以訪問MeloTTS
- Weight:如需本項(xiàng)目音色權(quán)重可以聯(lián)系貢獻(xiàn)者
ASR服務(wù) (services/asr/)
- FunASR集成: 基于阿里FunASR的語音識別
- 喚醒詞檢測: 支持自定義喚醒詞
- 實(shí)時(shí)識別: 連續(xù)語音識別模式
播放器服務(wù) (services/player/)
- 本地播放: 基于pygame的本地音頻播放
- 唇形同步: 實(shí)現(xiàn)語音與面部動畫同步
- Audio2Face: Audio2Face由于需要通過VPN下載人物模型并且項(xiàng)目首次加載緩慢,版本選擇2023.1.1。
- ovrlipsync: ovrlipsync輕量型嘴型驅(qū)動算法時(shí)延低但效果稍遜

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{ "messages": [ { "content": "用戶輸入文本" } ]}
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生