多模態(tài)GPT-4V來啦
發(fā)布日期:2023/9/27 8:13:30 瀏覽量:
OpenAI連發(fā)兩則重磅消息,首先ChatGPT可以看、聽、說了。
多模態(tài)GPT-4V能力大揭秘
物體檢測:GPT-4V可以檢測和識別圖像中的常見物體,如汽車、動物、家居用品等。其物體識別能力在標(biāo)準(zhǔn)圖像數(shù)據(jù)集上進(jìn)行了評估。
文本識別:該模型具有光學(xué)字符識別 (OCR) 功能,可以檢測圖像中的打印或手寫文本并將其轉(zhuǎn)錄為機(jī)器可讀文本。這在文檔、標(biāo)志、標(biāo)題等圖像中進(jìn)行了測試。
人臉識別:GPT-4V可以定位并識別圖像中的人臉。它具有一定的能力,可以根據(jù)面部特征識別性別、年齡和種族屬性。其面部分析能力是在 FairFace 和 LFW 等數(shù)據(jù)集上進(jìn)行測量的。
驗(yàn)證碼解決:在解決基于文本和圖像的驗(yàn)證碼時,GPT-4V顯示出了視覺推理能力。這表明該模型具有高級解謎能力。
地理定位:GPT-4V 具有識別風(fēng)景圖像中描繪的城市或地理位置的能力,這證明模型吸收了關(guān)于現(xiàn)實(shí)世界的知識,但也代表有泄露隱私的風(fēng)險。
復(fù)雜圖像:該模型難以準(zhǔn)確解釋復(fù)雜的科學(xué)圖表、醫(yī)學(xué)掃描或具有多個重疊文本組件的圖像。它錯過了上下文細(xì)節(jié)。
空間關(guān)系:模型可能很難理解圖像中對象的精確空間布局和位置。它可能無法正確傳達(dá)對象之間的相對位置。
對象重疊:當(dāng)圖像中的對象嚴(yán)重重疊時,GPT-4V 有時無法區(qū)分一個對象的結(jié)束位置和下一個對象的開始位置。它可以將不同的對象混合在一起。
背景/前景:模型并不總是準(zhǔn)確地感知圖像的前景和背景中的對象。它可能會錯誤地描述對象關(guān)系。
遮擋:當(dāng)圖像中某些對象被其他對象部分遮擋或遮擋時,GPT-4V 可能無法識別被遮擋的對象或錯過它們與周圍對象的關(guān)系。
細(xì)節(jié):模型經(jīng)常會錯過或誤解非常小的物體、文本或圖像中的復(fù)雜細(xì)節(jié),從而導(dǎo)致錯誤的關(guān)系描述。
上下文推理:GPT-4V缺乏強(qiáng)大的視覺推理能力來深入分析圖像的上下文并描述對象之間的隱式關(guān)系。
置信度:模型可能會錯誤地描述對象關(guān)系,與圖像內(nèi)容不符。
近期會給Plus訂閱用戶和企業(yè)客戶使用。
參考鏈接:
[1]https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
[2]https://openai.com/research/gpt-4v-system-card
馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人:石先生/雷先生