阿里的生成式 AI 模型EMO(Emote Portrait Alive)
發(fā)布日期:2024/3/3 0:28:03 瀏覽量:
阿里巴巴智能計算研究所發(fā)布了一款全新的生成式 AI 模型EMO(Emote Portrait Alive)。EMO 僅需一張人物肖像照片和音頻,就可以讓照片中的人物按照音頻內(nèi)容“張嘴”唱歌、說話,且口型基本一致,面部表情和頭部姿態(tài)非常自然。EMO 不僅能夠生成唱歌和說話的視頻,還能在保持角色身份穩(wěn)定性的同時,根據(jù)輸入音頻的長度生成不同時長的視頻。



EMO 的工作過程分為兩個主要階段:首先,利用參考網(wǎng)絡(luò)(ReferenceNet)從參考圖像和動作幀中提取特征;然后,利用預(yù)訓(xùn)練的音頻編碼器處理聲音并嵌入,再結(jié)合多幀噪聲和面部區(qū)域掩碼來生成視頻。該框架還融合了兩種注意機(jī)制和時間模塊,以確保視頻中角色身份的一致性和動作的自然流暢。
它能夠僅通過一張參考圖像和音頻輸入生成表情豐富的視頻,捕捉到細(xì)膩的面部表情和頭部移動。這個系統(tǒng)的關(guān)鍵特點包括基于音頻的視頻生成、高度表現(xiàn)力、無縫幀轉(zhuǎn)換、身份一致性、穩(wěn)定的控制機(jī)制、靈活的視頻時長以及對不同語言和風(fēng)格的適應(yīng)性。系統(tǒng)的運(yùn)作流程包括準(zhǔn)備輸入、提取特征、處理音頻、將噪聲擴(kuò)散成連貫的視頻幀,并控制移動速度,同時保持角色身份的一致性和提升視頻穩(wěn)定性。
這個系統(tǒng)為視頻制作、虛擬現(xiàn)實、在線教育以及娛樂等領(lǐng)域提供了新的可能性,通過提升互動性和表達(dá)力,為用戶創(chuàng)造更加豐富和個性化的體驗。
EMO 利用先進(jìn)的擴(kuò)散模型和神經(jīng)網(wǎng)絡(luò)架構(gòu),提高了頭部說話視頻生成的能力,提供了以前無法達(dá)到的真實性和表現(xiàn)力。神態(tài)、表情、唱歌時頭部動作、嘴型、都可以說十分逼真了。
----------------------------------------
EMO 可以拿來做什么?
EMO 提供了一個多功能工具,用于創(chuàng)建逼真的動畫視頻,擴(kuò)展了個性化和富有表現(xiàn)力的內(nèi)容創(chuàng)建的可能性,
唱歌:生成聲音頭像視頻,具有與唱歌音頻輸入同步的富有表現(xiàn)力的面部表情。
語言和風(fēng)格:支持多種語言和肖像風(fēng)格,捕捉動態(tài)頭像動畫的色調(diào)變化。
快速節(jié)奏:確保角色動畫與快節(jié)奏節(jié)奏同步。
說話:響應(yīng)各種語言和風(fēng)格的語音輸入,制作肖像動畫。
影視表演:在多語言和多文化背景下描繪電影或其他媒體中的角色。
--------------------
EMO 代表了一次重大飛躍,通過直接從音頻提示捕捉細(xì)致入微的面部表情,克服了傳統(tǒng)方法的限制,阿里巴巴集團(tuán)智能計算研究院推出的EMO標(biāo)志著圖像和視頻生成技術(shù)發(fā)展的關(guān)鍵時刻。
尋求創(chuàng)建逼真且富有表現(xiàn)力的頭像視頻一直是計算機(jī)圖形和人工智能領(lǐng)域的一個長期挑戰(zhàn)。傳統(tǒng)方法往往存在不足,無法完全概括人類表情的廣度或產(chǎn)生自然而細(xì)致的面部動作。這促使阿里巴巴集團(tuán)的研究人員開發(fā)了一種能夠?qū)⒁纛l提示準(zhǔn)確轉(zhuǎn)化為真實面部表情的解決方案。
EMO 通過復(fù)雜的兩階段框架運(yùn)行,該框架融合音頻和視覺數(shù)據(jù)以生成富有表現(xiàn)力的肖像視頻。該過程從幀編碼開始,ReferenceNet 從參考圖像和運(yùn)動幀中提取基本特征,為隨后的擴(kuò)散過程奠定基礎(chǔ)。此過程涉及用于音頻嵌入的預(yù)訓(xùn)練音頻編碼器,將面部區(qū)域掩模與多幀噪聲集成以指導(dǎo)面部圖像創(chuàng)建。骨干網(wǎng)絡(luò)結(jié)合了參考注意和音頻注意機(jī)制,確保保留角色的身份及其運(yùn)動的調(diào)節(jié)。時間模塊通過調(diào)整運(yùn)動速度進(jìn)一步細(xì)化視頻,使 EMO 能夠根據(jù)音頻輸入創(chuàng)建任何持續(xù)時間具有表現(xiàn)力面部表情和頭部姿勢的聲音化身視頻。
除了生成頭部說話視頻之外,EMO 還引入了聲音頭像生成的創(chuàng)新概念。只需單個角色圖像和音頻輸入,EMO 就可以制作聲音化身視頻,展示富有表現(xiàn)力的面部表情和頭部動作。無論是復(fù)制名曲的演奏,還是用多種語言表達(dá)臺詞,EMO都表現(xiàn)出了非凡的準(zhǔn)確性和表現(xiàn)力。
該技術(shù)不僅支持多語言和多文化表達(dá),還擅長捕捉快節(jié)奏的節(jié)奏并傳達(dá)與音頻同步的富有表現(xiàn)力的動作。這為參與內(nèi)容創(chuàng)作開辟了新的可能性,例如需要音樂和視覺元素之間詳細(xì)同步的音樂視頻或表演。
EMO 的功能不僅僅限于唱歌的化身。它可以用多種語言制作語音音頻動畫,使歷史人物、藝術(shù)品甚至人工智能生成的角色的肖像栩栩如生。這種多功能性允許與標(biāo)志性人物對話或跨演員表演,為跨不同媒體和文化背景的角色塑造提供新的創(chuàng)意途徑。
EMO 框架標(biāo)志著肖像視頻生成的重大進(jìn)步,避免了對中間 3D 模型或面部標(biāo)志的需求,并確保平滑的幀過渡和一致的身份保留。該技術(shù)以龐大、多樣化的音頻視頻數(shù)據(jù)集為基礎(chǔ),有助于 EMO 模型的訓(xùn)練,以捕捉各種人類表情和聲音風(fēng)格。
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生