語音驅(qū)動唇形技術(shù)棧
發(fā)布日期:2023/7/26 14:07:34 瀏覽量:
這幾天把語音到唇形相關(guān)的一些開源項目大致都跑了一下,包括:
2D代碼:https://github.com/Rudrabha/Wav2Lip
2.5D代碼:https://github.com/OpenTalker/SadTalker
https://github.com/ashawkey/RAD-NeRF
3D代碼:https://github.com/FACEGOOD/FACEGOOD-Audio2Face
還有清華的difftalk之類,目前不能實時的主要原因是在推理速度上,以colab使用的T4 16G顯存來看,通常推理需要20秒左右(RAD-NeRF/wav2lip),如果換高配置GPU 64G,大概能控制在5秒以內(nèi),硅基的現(xiàn)在基本上在4秒左右,商湯是用自己的AI芯片。
目前的主要解決思路是切片,將聲音和視頻都切成5秒左右的片段,最后合成的視頻也是5秒一段,再以流式輸出,形成一種偽實時的交互。這種也還是需要高配置的卡來減少推理時間。
轉(zhuǎn)自一位大佬的 可以參考
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生