Visual ChatGPT--微軟重磅推出的開源的AI視覺交互系統(tǒng)
發(fā)布日期:2023/3/12 8:55:52 瀏覽量:
昨天微軟官方在Github開源了一個(gè)重量級(jí)的ChatGPT AI交互應(yīng)用Visual ChatGPT。該應(yīng)用短短一天在Github就達(dá)到了4000星。
前幾天才說(shuō)這個(gè)可能很快有公司會(huì)推出,這速度也是可以!
Visual ChatGPT調(diào)用ChatGPT以及一系列視覺基礎(chǔ)模型來(lái)以實(shí)現(xiàn)在聊天過(guò)程中發(fā)送和接收?qǐng)D像,以及動(dòng)態(tài)對(duì)圖像進(jìn)行處理。
該系統(tǒng)的已經(jīng)發(fā)表對(duì)應(yīng)的論文,支持從arxiv下載。
系統(tǒng)架構(gòu)
Visual ChatGPT架構(gòu)由用戶查詢部分(User Query)、交互管理部分(Prompt Manger)、視覺基礎(chǔ)模型(Visual Foundation Models,VFM)、調(diào)用ChatGpt API和迭代交互部分(Iterative Reasoning),最后是用戶輸出(Outputs)部分
如圖1所示,用戶上傳一張黃花的圖像并輸入一個(gè)復(fù)雜的語(yǔ)言指令“請(qǐng)根據(jù)該圖像的預(yù)測(cè)深度生成一朵紅花,然后逐步使其像卡通一樣”。
在交互管理器的幫助下,Visual ChatGPT 開始了相關(guān)視覺基礎(chǔ)模型的執(zhí)行鏈。 在示例條件下,它首先應(yīng)用深度估計(jì)模型來(lái)檢測(cè)深度信息,然后利用深度到圖像模型生成帶有深度信息的紅色花朵圖形,最后利用基于穩(wěn)定擴(kuò)散模型的風(fēng)格遷移VFM來(lái)改變這個(gè)形象的風(fēng)格變成了卡通。
在上述管道中,交互管理器作為ChatGPT的調(diào)度器,提供視覺格式類型并記錄信息轉(zhuǎn)換過(guò)程。
最后,當(dāng)Visual ChatGPT從交互管理器獲得“卡通”提示時(shí),它將結(jié)束執(zhí)行管道并顯示最終結(jié)果。
整個(gè)系統(tǒng)流程是
1) 明確告訴 ChatGPT 每個(gè) VFM 的能力并指定輸入輸出格式;
2)將不同的視覺信息,例如pngimages,深度圖像和mask矩陣,轉(zhuǎn)換為語(yǔ)言格式以幫助ChatGPT理解;
3) 處理不同視覺基礎(chǔ)模型的歷史、優(yōu)先級(jí)和沖突。
在交互管理器的幫助下,ChatGPT可以利用這些VFMs并以迭代的方式接收他們的反饋,直到它滿足用戶的要求或達(dá)到結(jié)束條件。
VFM
在該項(xiàng)目中總共設(shè)計(jì)了22個(gè)不同的VFM來(lái)進(jìn)行圖像數(shù)據(jù)的處理,它們之間存在內(nèi)在關(guān)聯(lián)和分工,以便儀器協(xié)同交互管理器來(lái)完成任務(wù);
安裝部署
該系統(tǒng)為方便以Python語(yǔ)言開發(fā),其中依賴torch、torchvision、numpy、transformers、albumentations、opencv-contrib-python等基層類庫(kù)應(yīng)用。需要python 3.8和coda環(huán)境為基礎(chǔ)
用coda創(chuàng)建一個(gè)新環(huán)境
conda create -n visgpt python=3.8
激活該環(huán)境
conda activate visgpt
安裝依賴組件
pip install -r requirement.txt
用附帶腳本下載視覺基礎(chǔ)模型
bash download.sh
填寫openai賬號(hào)的用戶key值
export OPENAI_API_KEY={Your_Private_Openai_Key}
設(shè)置圖像保存目錄
mkdir ./image
運(yùn)行系統(tǒng)
python visual_chatgpt.py
馬上咨詢: 如果您有業(yè)務(wù)方面的問(wèn)題或者需求,歡迎您咨詢!我們帶來(lái)的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生