蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

微立頂科技

新聞資訊

創(chuàng)新 服務(wù) 價值

  阿里的生成式 AI 模型EMO(Emote Portrait Alive)

發(fā)布日期:2024/3/3 0:28:03      瀏覽量:

阿里巴巴智能計算研究所發(fā)布了一款全新的生成式 AI 模型EMO(Emote Portrait Alive)。EMO 僅需一張人物肖像照片和音頻,就可以讓照片中的人物按照音頻內(nèi)容“張嘴”唱歌、說話,且口型基本一致,面部表情和頭部姿態(tài)非常自然。EMO 不僅能夠生成唱歌和說話的視頻,還能在保持角色身份穩(wěn)定性的同時,根據(jù)輸入音頻的長度生成不同時長的視頻。






EMO 的工作過程分為兩個主要階段:首先,利用參考網(wǎng)絡(luò)(ReferenceNet)從參考圖像和動作幀中提取特征;然后,利用預(yù)訓(xùn)練的音頻編碼器處理聲音并嵌入,再結(jié)合多幀噪聲和面部區(qū)域掩碼來生成視頻。該框架還融合了兩種注意機(jī)制和時間模塊,以確保視頻中角色身份的一致性和動作的自然流暢。


它能夠僅通過一張參考圖像和音頻輸入生成表情豐富的視頻,捕捉到細(xì)膩的面部表情和頭部移動。這個系統(tǒng)的關(guān)鍵特點包括基于音頻的視頻生成、高度表現(xiàn)力、無縫幀轉(zhuǎn)換、身份一致性、穩(wěn)定的控制機(jī)制、靈活的視頻時長以及對不同語言和風(fēng)格的適應(yīng)性。系統(tǒng)的運(yùn)作流程包括準(zhǔn)備輸入、提取特征、處理音頻、將噪聲擴(kuò)散成連貫的視頻幀,并控制移動速度,同時保持角色身份的一致性和提升視頻穩(wěn)定性。


這個系統(tǒng)為視頻制作、虛擬現(xiàn)實、在線教育以及娛樂等領(lǐng)域提供了新的可能性,通過提升互動性和表達(dá)力,為用戶創(chuàng)造更加豐富和個性化的體驗。


EMO 利用先進(jìn)的擴(kuò)散模型和神經(jīng)網(wǎng)絡(luò)架構(gòu),提高了頭部說話視頻生成的能力,提供了以前無法達(dá)到的真實性和表現(xiàn)力。神態(tài)、表情、唱歌時頭部動作、嘴型、都可以說十分逼真了。

----------------------------------------


EMO 可以拿來做什么?

EMO 提供了一個多功能工具,用于創(chuàng)建逼真的動畫視頻,擴(kuò)展了個性化和富有表現(xiàn)力的內(nèi)容創(chuàng)建的可能性,


唱歌:生成聲音頭像視頻,具有與唱歌音頻輸入同步的富有表現(xiàn)力的面部表情。

語言和風(fēng)格:支持多種語言和肖像風(fēng)格,捕捉動態(tài)頭像動畫的色調(diào)變化。

快速節(jié)奏:確保角色動畫與快節(jié)奏節(jié)奏同步。

說話:響應(yīng)各種語言和風(fēng)格的語音輸入,制作肖像動畫。

影視表演:在多語言和多文化背景下描繪電影或其他媒體中的角色。


--------------------


EMO 代表了一次重大飛躍,通過直接從音頻提示捕捉細(xì)致入微的面部表情,克服了傳統(tǒng)方法的限制,阿里巴巴集團(tuán)智能計算研究院推出的EMO標(biāo)志著圖像和視頻生成技術(shù)發(fā)展的關(guān)鍵時刻。


尋求創(chuàng)建逼真且富有表現(xiàn)力的頭像視頻一直是計算機(jī)圖形和人工智能領(lǐng)域的一個長期挑戰(zhàn)。傳統(tǒng)方法往往存在不足,無法完全概括人類表情的廣度或產(chǎn)生自然而細(xì)致的面部動作。這促使阿里巴巴集團(tuán)的研究人員開發(fā)了一種能夠?qū)⒁纛l提示準(zhǔn)確轉(zhuǎn)化為真實面部表情的解決方案。


EMO 通過復(fù)雜的兩階段框架運(yùn)行,該框架融合音頻和視覺數(shù)據(jù)以生成富有表現(xiàn)力的肖像視頻。該過程從幀編碼開始,ReferenceNet 從參考圖像和運(yùn)動幀中提取基本特征,為隨后的擴(kuò)散過程奠定基礎(chǔ)。此過程涉及用于音頻嵌入的預(yù)訓(xùn)練音頻編碼器,將面部區(qū)域掩模與多幀噪聲集成以指導(dǎo)面部圖像創(chuàng)建。骨干網(wǎng)絡(luò)結(jié)合了參考注意和音頻注意機(jī)制,確保保留角色的身份及其運(yùn)動的調(diào)節(jié)。時間模塊通過調(diào)整運(yùn)動速度進(jìn)一步細(xì)化視頻,使 EMO 能夠根據(jù)音頻輸入創(chuàng)建任何持續(xù)時間具有表現(xiàn)力面部表情和頭部姿勢的聲音化身視頻。


除了生成頭部說話視頻之外,EMO 還引入了聲音頭像生成的創(chuàng)新概念。只需單個角色圖像和音頻輸入,EMO 就可以制作聲音化身視頻,展示富有表現(xiàn)力的面部表情和頭部動作。無論是復(fù)制名曲的演奏,還是用多種語言表達(dá)臺詞,EMO都表現(xiàn)出了非凡的準(zhǔn)確性和表現(xiàn)力。


該技術(shù)不僅支持多語言和多文化表達(dá),還擅長捕捉快節(jié)奏的節(jié)奏并傳達(dá)與音頻同步的富有表現(xiàn)力的動作。這為參與內(nèi)容創(chuàng)作開辟了新的可能性,例如需要音樂和視覺元素之間詳細(xì)同步的音樂視頻或表演。


EMO 的功能不僅僅限于唱歌的化身。它可以用多種語言制作語音音頻動畫,使歷史人物、藝術(shù)品甚至人工智能生成的角色的肖像栩栩如生。這種多功能性允許與標(biāo)志性人物對話或跨演員表演,為跨不同媒體和文化背景的角色塑造提供新的創(chuàng)意途徑。


EMO 框架標(biāo)志著肖像視頻生成的重大進(jìn)步,避免了對中間 3D 模型或面部標(biāo)志的需求,并確保平滑的幀過渡和一致的身份保留。該技術(shù)以龐大、多樣化的音頻視頻數(shù)據(jù)集為基礎(chǔ),有助于 EMO 模型的訓(xùn)練,以捕捉各種人類表情和聲音風(fēng)格。




  業(yè)務(wù)實施流程

需求調(diào)研 →

團(tuán)隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運(yùn)行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生