Labubu換裝記!基于擴散Transformer的視頻虛擬試衣新突破
發(fā)布日期:2025/6/21 7:15:43 瀏覽量:
Labubu換裝記!基于擴散Transformer的視頻虛擬試衣新突破
只需要一張衣服的照片和一段視頻,就能看到自己穿上這件衣服的效果,而且是動態(tài)的視頻效果!這不是科幻電影,而是剛剛開源的MagicTryOn項目實現(xiàn)的真實功能。
MagicTryOn是一個基于大規(guī)模視頻擴散Transformer的視頻虛擬試衣框架,它能夠實現(xiàn)高質量的視頻換裝效果。這個項目最大的亮點在于能夠在保持服裝細節(jié)的同時,生成自然流暢的視頻試衣效果。


?? 核心技術特點
該項目采用了三個關鍵技術創(chuàng)新:
1. 強大的技術基礎采用Wan2.1擴散Transformer作為骨干網(wǎng)絡使用完整的自注意力機制來建模時空一致性
2. 精細的服裝保真策略引入從粗到細的服裝保真策略采用掩碼感知損失來增強服裝區(qū)域的保真度
3. 全面的功能支持支持圖像試衣支持視頻試衣提供定制化試衣解決方案


從項目的更新時間線可以看出開發(fā)團隊的高效執(zhí)行力:
2025年5月27日:論文在ArXiv上發(fā)布
2025年6月9日:源代碼和預訓練權重正式開源目前項目仍在積極開發(fā)中,團隊計劃陸續(xù)發(fā)布測試腳本、訓練腳本以及第二版預訓練模型權重。
環(huán)境配置
項目支持Python 3.12.9,CUDA 12.3,PyTorch 2.2的環(huán)境配置:
# 創(chuàng)建conda環(huán)境
conda create -n magictryon python==3.12.9
conda activate magictryon
pip install -r requirements.txt
# 或者使用
conda env create -f environment.yaml
注意:如果在安裝Flash Attention時遇到錯誤,需要根據(jù)你的Python版本、CUDA版本和Torch版本手動下載安裝包。
模型權重下載
cd Magic-TryOn
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download LuckyLiGY/MagicTryOn --local-dir ./weights/MagicTryOn_14B_V1
1. 圖像試衣
對于簡單的圖像試衣需求,可以直接運行以下命令:
# 上身試衣CUDA_VISIBLE_DEVICES=0 python inference/image_tryon/predict_image_tryon_up.py
# 下身試衣CUDA_VISIBLE_DEVICES=1 python inference/image_tryon/predict_image_tryon_low.py
2. 視頻試衣視頻試衣是該項目的核心功能:
# 上身視頻試衣CUDA_VISIBLE_DEVICES=0 python inference/video_tryon/predict_video_tryon_up.py
# 下身視頻試衣CUDA_VISIBLE_DEVICES=1 python inference/video_tryon/predict_video_tryon_low.py
3. 定制化試衣對于有特殊需求的用戶,項目提供了完整的定制化流程,需要完成以下五個步驟:
步驟1:服裝描述生成使用Qwen2.5-VL-7B-Instruct模型生成服裝的描述性標題:
python inference/customize/get_garment_caption.py
步驟2:服裝線條圖提取使用AniLines提取服裝的結構線條:
python inference/customize/AniLines/infer.py --dir_in datasets/garment/vivo/vivo_garment --dir_out datasets/garment/vivo/vivo_garment_anilines --mode detail --binarize -1 --fp16 True --device cuda:1步驟3:掩碼生成生成服裝的不可知掩碼,這對試衣過程中的區(qū)域控制至關重要:
首先需要按照指定的目錄結構組織文件:
├── datasets
│ ├── person
| | ├── customize
│ │ │ ├── video
│ │ │ │ ├── 00001
│ │ │ │ │ ├── video.mp4
然后運行掩碼生成:
ounter(line
python inference/customize/gen_mask/app_mask.py
步驟4:不可知表示構建
通過移除服裝特定特征來構建人物的不可知表示:
ounter(linep
ython inference/customize/get_masked_person.py
步驟5:DensePose處理
使用DensePose獲取UV映射的密集人體坐標:ounter(line
bash inference/customize/detectron2/projects/DensePose/run.sh
完成所有步驟后,運行以下命令進行定制化試衣:
ounter(line
CUDA_VISIBLE_DEVICES=0 python inference/video_tryon/predict_video_tryon_customize.py
時空一致性保證:通過完整的自注意力機制確保視頻幀間的連貫性
服裝細節(jié)保真:從粗到細的策略確保服裝紋理和細節(jié)的準確還原
多模態(tài)支持:同時支持圖像和視頻的試衣需求
靈活的定制化:提供完整的定制化流程,滿足不同場景需求
該項目采用Creative Commons BY-NC-SA 4.0許可證,這意味著:
? 可以自由復制、重新分發(fā)、混合、轉換和構建
? 僅限非商業(yè)用途
? 需要給出適當?shù)氖鹈?/span>
? 衍生作品需要使用相同許可證
?? 論文地址:https://arxiv.org/abs/2505.21325v
2?? 模型權重:https://huggingface.co/LuckyLiGY/MagicTryOn
?? 項目主頁:https://vivocameraresearch.github.io/magictryon/
?? 源代碼:https://github.com/vivoCameraResearch/Magic-TryOn/
###################################################
各位大神們,你想好要做什么了嗎?~~~
馬上咨詢: 如果您有業(yè)務方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術,還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生