蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

微立頂科技

新聞資訊

創(chuàng)新 服務(wù) 價值

  語音驅(qū)動唇形技術(shù)棧

發(fā)布日期:2023/7/26 14:07:34      瀏覽量:

這幾天把語音到唇形相關(guān)的一些開源項目大致都跑了一下,包括:
2D代碼:https://github.com/Rudrabha/Wav2Lip
2.5D代碼:https://github.com/OpenTalker/SadTalker
https://github.com/ashawkey/RAD-NeRF
3D代碼:https://github.com/FACEGOOD/FACEGOOD-Audio2Face
還有清華的difftalk之類,目前不能實時的主要原因是在推理速度上,以colab使用的T4 16G顯存來看,通常推理需要20秒左右(RAD-NeRF/wav2lip),如果換高配置GPU 64G,大概能控制在5秒以內(nèi),硅基的現(xiàn)在基本上在4秒左右,商湯是用自己的AI芯片。

目前的主要解決思路是切片,將聲音和視頻都切成5秒左右的片段,最后合成的視頻也是5秒一段,再以流式輸出,形成一種偽實時的交互。這種也還是需要高配置的卡來減少推理時間。


轉(zhuǎn)自一位大佬的 可以參考



  業(yè)務(wù)實施流程

需求調(diào)研 →

團隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生