国产va免费精品高清在线观看,国产国产人免费视频成69

MNN-TaoAvatar開源

發(fā)布日期：2025/7/10 7:36:50 瀏覽量：

TaoAvatar 是由阿里巴巴淘天 Meta 技術(shù)團隊研發(fā)的 3D 真人數(shù)字人技術(shù)，這一技術(shù)能在手機或 XR 設(shè)備上實現(xiàn) 3D 數(shù)字人的實時渲染以及 AI 對話的強大功能，為用戶帶來逼真的虛擬交互體驗。TaoAvatar 基于先進(jìn)的 3D 高斯?jié)姙R技術(shù)，提供了一套全身互動式的真人數(shù)字人解決方案。它通過多視角視頻的輸入，可以迅速生成具有高逼真度的數(shù)字人形象，這些形象不僅能夠精準(zhǔn)地捕捉到細(xì)膩的面部表情和手勢動作，甚至連衣物細(xì)微的褶皺以及頭發(fā)的自然擺動都能清晰呈現(xiàn)，帶來一種自然而真實的視覺體驗。MNN-TaoAvatar 不僅能夠在手機端流暢運行，還完美兼容了 XR 設(shè)備。

MNN-TaoAvatar 具有兩個核心優(yōu)勢：端側(cè)實時對話和端側(cè)實時渲染。

端側(cè)實時對話

首先，為了實現(xiàn)端側(cè)的實時對話，需要將 ASR（自動語音識別）、TTS（文本轉(zhuǎn)換語音）和 A2BS（口型驅(qū)動）的綜合 RTF（Real Time Factor，實時因素）控制在 1 以內(nèi)，即能在 1 秒內(nèi)生成 1 秒長度的語音，RTF 值越小生成速度越快。通過持續(xù)優(yōu)化，我們?nèi)〉昧艘韵峦黄疲?/span>

將 281 MB 的端側(cè) ASR 模型的 RTF 優(yōu)化到了 0.18，實現(xiàn)了用戶語音在端側(cè)的實時轉(zhuǎn)文本；

端側(cè)大語言模型預(yù)填充速度最快可達(dá) 165 token/s，解碼速度可達(dá) 41 token/s，確保了流暢的文本內(nèi)容生成；

將 1.34 GB 的端側(cè) TTS 模型 RTF 優(yōu)化至 0.58，實現(xiàn)了文本到語音的實時合成與播放。

端側(cè)實時渲染

為了讓數(shù)字人的面部動作更為自然，渲染過程主要分為兩個關(guān)鍵步驟：首先，根據(jù)語音輸入，通過算法模型精準(zhǔn)提取面部表情動作的系數(shù)，然后將表情系數(shù)和數(shù)字人 3D 模型的預(yù)錄數(shù)據(jù)進(jìn)行融合，最終借助 NNR 渲染器完成高質(zhì)量渲染。這兩部分我們做到的性能如下：

成功將 368 MB 的端側(cè) A2BS 模型的 RTF 優(yōu)化至 0.34，實現(xiàn)了實時語音到面部表情系數(shù)的轉(zhuǎn)換。

通過自主研發(fā)的高性能 NNR 渲染器，達(dá)到了對 25 萬點云模型以每秒 60 幀（FPS）的流暢渲染速度，確保了動畫的順滑自然。

上文提及的具體端側(cè)模型的功能及我們做到的技術(shù)指標(biāo)如下（基于搭載高通驍龍 Snapdragon 8 Elite芯片的智能手機測試結(jié)果）：

在用戶尚未輸入語音的情況下，MNN-TaoAvatar 會利用 MNN-NNR 來渲染默認(rèn)的數(shù)字人模型姿態(tài)，生成閉唇、靜態(tài)表情或者預(yù)設(shè)動作的畫面。一旦用戶開始語音輸入，系統(tǒng)將按以下流程運行：

MNN-TaoAvatar 是基于 MNN 引擎構(gòu)建而成的，它集成了 MNN-LLM、MNN-NNR 以及 Sherpa-MNN（包括 MNN-ASR 和 MNN-TTS）等多種算法模塊。下圖展示了這些模塊在應(yīng)用中的架構(gòu)示意：

? MNN：輕量級 AI 推理引擎

MNN（Mobile Neural Network）是一款功能強大的開源、跨平臺 AI 模型推理引擎。

它的核心優(yōu)勢如下：

高性能推理：支持 CPU/GPU/NPU 等多種異構(gòu)計算方式，能夠輕松滿足增強現(xiàn)實/虛擬現(xiàn)實（AR/VR）、語音識別以及大型語言模型（LLM）等需要快速響應(yīng)的實時應(yīng)用；

跨平臺兼容：支持 C++、Python、Java 和 JavaScript 等多種語言接口，并與主流系統(tǒng)平臺無縫集成；

模型輕量化：內(nèi)置了量化與剪枝工具，有效壓縮了模型大小，大幅節(jié)省內(nèi)存空間并縮短加載時間。

? MNN-LLM：移動端部署大模型

MNN-LLM 是基于 MNN 之上開發(fā)的 MNN-Transformer 模塊的一個子功能模塊，用于支持大語言模型與文生圖等 AIGC 任務(wù)。它包含以下關(guān)鍵技術(shù)：

模型導(dǎo)出工具：能一鍵將主流 LLM/Diffusion 模型轉(zhuǎn)換為 MNN 格式，大大簡化了模型的部署和使用過程；

模型量化機制：將大型模型如 Qwen2.5-1.5B 從原來的 5.58 GB 壓縮至 1.2 GB，同時保持較快的解碼速度，達(dá)到每秒 45 個 token；

KV 緩存/LoRA 支持：利用 KV 緩存技術(shù)，MNN-LLM 顯著提升了對話響應(yīng)的速度；LoRA 技術(shù)的應(yīng)用也使得模型能夠靈活適配不同的任務(wù)場景，而無需重新訓(xùn)練整個模型，從而降低了計算資源的消耗。

MNN-Transformer 由三個核心部分構(gòu)成：導(dǎo)出工具、量化工具以及插件與引擎。

導(dǎo)出工具負(fù)責(zé)將各類大型模型轉(zhuǎn)化為 MNN 格式，并創(chuàng)建必要的資源包；
量化工具能有效減少 MNN 模型的體積，從而降低運行時的內(nèi)存，加快執(zhí)行速度；
插件與引擎模塊則提供了 LLM/Diffusion 運行時所需的關(guān)鍵功能，如分詞、KV 緩存管理以及 LoRA 等。

? Sherpa-MNN：離線語音智能新方案

為提升語音識別在端側(cè)上的表現(xiàn)，MNN 團隊對原始 sherpa-onnx 框架進(jìn)行了深度優(yōu)化，推出 Sherpa-MNN，它支持 ASR（自動語音識別）和 TTS（文本轉(zhuǎn)語音）算法，并具備如下優(yōu)勢：

性能翻倍：在 MacBook Pro M1 上（基于 arm64 架構(gòu)），單線程運行經(jīng)過量化處理的流式 ASR 模型（具體模型為 sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20）。在這一測試中，onnxruntime 的 RTF（實時因子）為 0.078，而 MNN 的 RTF 僅為 0.035，相比于 onnxruntime 快出一倍。

包體積更?。?/span>在功能相同、性能更優(yōu)的情況下，MNN 的體積僅為 onnxruntime 的五分之一（對于 Android arm64 架構(gòu)，MNN 的體積為 3.3 MB，而 onnxruntime 則需 15 MB）。

? MNN-NNR：高效神經(jīng)網(wǎng)絡(luò)渲染引擎

MNN-NNR 是 TaoAvatar 的核心 3D 渲染引擎，專為在移動設(shè)備上實時渲染高質(zhì)量數(shù)字人模型而設(shè)計。其核心的技術(shù)優(yōu)勢如下：

開發(fā)簡便：通過將算法與渲染過程解耦，開發(fā)者可以更專注于算法的創(chuàng)新與優(yōu)化。使用 PyTorch 訓(xùn)練的模型可以輕松導(dǎo)出為 NNR 模型并部署，無需深厚的圖形編程經(jīng)驗。
極致輕量：通過將計算邏輯離線「編譯」為深度學(xué)習(xí)模型和渲染圖，運行時只需要執(zhí)行深度學(xué)習(xí)模型和渲染圖，因此整個包體大小極?。ㄒ?Android 為例，僅需 200k）。并且首次集成后，幾乎無需變更。業(yè)務(wù)功能的擴展由離線編譯器處理，算法的迭代只需更新 NNR 文件即可，實現(xiàn)了算法迭代與引擎集成的解耦。
高性能：結(jié)合 MNN 的高效執(zhí)行能力，MNN-NNR 通過引入「Dirty 機制」和免拷貝技術(shù)，確保了渲染過程的高效執(zhí)行，從而實現(xiàn)流暢的渲染效果。

為了讓數(shù)字人模型能夠?qū)崿F(xiàn)高效的渲染，我們進(jìn)行了以下幾項深度優(yōu)化：

數(shù)據(jù)同步優(yōu)化

為了消除數(shù)據(jù)同步所需的時間，我們讓所有模型都在 MNN GPU 后端上運行，并在 NNR Runtime 中配置 MNN 所使用的 GPU 后端與渲染共享同一個上下文。這樣，MNN Tensor 的數(shù)據(jù)就直接存儲在 GPU 內(nèi)存中。NNR Runtime 實現(xiàn)了直接讀取 MNN Tensor GPU 內(nèi)存的方案，無需進(jìn)行數(shù)據(jù)拷貝即可直接用于渲染，從而免除了數(shù)據(jù)同步的時間。

調(diào)度優(yōu)化

在 NNR Runtime 中，我們實現(xiàn)了「Dirty 機制」，每一幀只運行輸入數(shù)據(jù)發(fā)生變化的 MNN 模型。在 TaoAvatar 場景中，深度模型包括 Base Deformer、Aligner、Deformer、Color Compute 和 Sort 等。由于動態(tài)高斯數(shù)字人重建所需的圖像是以 20 幀/秒的速度采集的，為了保持高斯數(shù)字人動作的平滑性和一致性，驅(qū)動高斯數(shù)字人動作的參數(shù)只需以 20 fps 的頻率設(shè)置即可。
因此，Base Deformer、Aligner 和 Deformer 只需以 20 fps 的頻率運行。在視角變化不大的情況下，也不需要每幀都對高斯點進(jìn)行排序，所以 Sort 模型通過另一個開關(guān)來控制運行。這樣，每幀實際運行的模型就只剩下 Color Compute，從而大幅降低了整體的運行時間。

模型運行時間優(yōu)化

對于使用 MNN 編譯器的模型，將輸入數(shù)據(jù)進(jìn)行 fp16 壓縮，可以提升 50% 的性能。
對于高斯排序，MNN 實現(xiàn)了基于 GPU 的基數(shù)排序算法，并且利用 autotuning 技術(shù)，確保在各類 GPU 上都能達(dá)到最佳性能。

在這些優(yōu)化的加持下，MNN-NNR 成功實現(xiàn)了在動畫模型僅以較低頻率（如 20 fps）更新的情況下，畫面依然能夠以 60 fps 的流暢度進(jìn)行輸出。

? 3D 高斯數(shù)字人：小模型也能高質(zhì)量

傳統(tǒng)高斯點云重建成本高、存儲體積大，而 TaoAvatar 采用了全新的多重優(yōu)化方案：

StyleUnet+MLP 混合建模：通過一個功能強大的 StyleUnet 教師網(wǎng)絡(luò)，學(xué)習(xí)復(fù)雜的姿勢變化，并將這些信息高效地「烘焙」到輕量級的 MLP 學(xué)生網(wǎng)絡(luò)中，極大降低了計算成本。

動態(tài)高斯點云技術(shù)：將單幀重建的靜態(tài)高斯點云，升級成為可復(fù)用多幀數(shù)據(jù)的動態(tài)高斯點云技術(shù)。這不僅顯著提升了渲染效果的穩(wěn)定性與清晰度，還顯著減少了渲染過程中的閃爍現(xiàn)象。

高壓縮率資產(chǎn)壓縮算法：在 25 萬點云的量級下，模型文件大小僅約 160 MB，非常適合在端側(cè)設(shè)備上部署。

通過相同素材重建得到的數(shù)字人模型，在不同高斯點云數(shù)量下，會呈現(xiàn)出不同的清晰度、模型體積和渲染性能。為了找到最佳的平衡點，我們進(jìn)行了多種不同點云數(shù)量模型的測試：

硬件要求

雖然我們已經(jīng)進(jìn)行了大量的優(yōu)化工作，但由于需要將多個模型集成到手機中，所以對手機性能還是有一定要求的。以下是 MNN-TaoAvatar 的推薦配置：

需要高通驍龍 8 Gen 3 或同等性能 CPU。
需要至少 8 GB 內(nèi)存用于模型運行。
需要至少 5 GB 空間用于存放模型文件。

?? 性能不足的設(shè)備可能會遇到卡頓、聲音斷續(xù)或功能受限哦。

? 快速體驗

想要親自體驗一下嗎？只需按照以下簡單的步驟操作即可。

首先克隆項目代碼：

git clone https://github.com/alibaba/MNN.gitcd apps/Android/Mnn3dAvatar

然后構(gòu)建并部署：

連接你的安卓手機，打開 Android Studio 點擊「Run」，或執(zhí)行：

/gradlew installDebug

通過這兩個步驟，你就可以在自己的手機上體驗 MNN-TaoAvatar 數(shù)字人應(yīng)用了！

資源鏈接：

TaoAvatar Github 下載：https://github.com/alibaba/MNN/blob/master/apps/Android/MnnTaoAvatar/README_CN.md
TaoAvatar 論文：https://arxiv.org/html/2503.17032v1
MNN LLM論文：https://arxiv.org/abs/2506.10443
TaoAvatar模型合集：https://modelscope.cn/collections/TaoAvatar-68d8a46f2e554a
LLM模型：Qwen2.5-1.5B MNN：https://github.com/alibaba/MNN/tree/master/3rd_party/NNR
TTS模型：bert-vits2-MNN：https://modelscope.cn/models/MNN/bert-vits2-MNN
基礎(chǔ)TTS模型:Bert-VITS2：https://github.com/fishaudio/Bert-VITS2
聲音動作模型：UniTalker-MNN：https://modelscope.cn/models/MNN/UniTalker-MNN
基礎(chǔ)聲音動作模型：UniTalker：https://github.com/X-niper/UniTalker
神經(jīng)渲染模型：TaoAvatar-NNR-MNN：https://modelscope.cn/models/MNN/TaoAvatar-NNR-MNN
ASR模型：Sherpa 雙語流式識別模型：https://modelscope.cn/models/MNN/sherpa-mnn-streaming-zipformer-bilingual-zh-en-2023-02-20
china3dv live demo滑動可以看到 TaoAvatar：http://china3dv.csig.org.cn/LiveDemo.html

業(yè)務(wù)實施流程

需求調(diào)研 →

團隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢： 如果您有業(yè)務(wù)方面的問題或者需求，歡迎您咨詢！我們帶來的不僅僅是技術(shù)，還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人：石先生/雷先生

蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

MNN-TaoAvatar開源

? MNN：輕量級 AI 推理引擎

? MNN-LLM：移動端部署大模型

? Sherpa-MNN：離線語音智能新方案

? MNN-NNR：高效神經(jīng)網(wǎng)絡(luò)渲染引擎

? 3D 高斯數(shù)字人：小模型也能高質(zhì)量

硬件要求

? 快速體驗

蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲素人字幕在线最新