蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

微立頂科技

新聞資訊

創(chuàng)新 服務(wù) 價值

  3D視覺相關(guān)論文42篇

發(fā)布日期:2026/4/12 9:27:02      瀏覽量:

3D視覺相關(guān)論文42篇

[1] tttLRM: Test-Time Training for Long Context and Autoregressive 3D ReconstructiontttLRM:用于長上下文和自回歸3D重建的測試時訓(xùn)練
摘要:我們提出了tttLRM,這是一種新穎的大型3D重建模型,它利用測試時訓(xùn)練(Test-Time Training,TTT)層,以線性計算復(fù)雜度實現(xiàn)長上下文、自回歸3D重建,進一步擴展了模型的能力。我們的框架將多個圖像觀測值高效地壓縮到TTT層的快速權(quán)重中,在潛在空間中形成一種隱式3D表示,該表示可以解碼為各種顯式格式,例如用于下游應(yīng)用的高斯 splat(Gaussian Splats,GS)。我們模型的在線學(xué)習(xí)變體支持從流式觀測值進行漸進式3D重建和細化。我們證明了在新穎視圖合成任務(wù)上的預(yù)訓(xùn)練可以有效地遷移到顯式3D建模,從而提高重建質(zhì)量并加快收斂速度。大量實驗表明,在對象和場景的前饋3D高斯重建方面,我們的方法比現(xiàn)有最先進的方法表現(xiàn)更優(yōu)。

[2] Flow3r: Factored Flow Prediction for Scalable Visual Geometry LearningFlow3r:用于可擴展視覺幾何學(xué)習(xí)的因式分解光流預(yù)測
摘要:當前的前饋3D/4D重建系統(tǒng)依賴于密集的幾何和位姿監(jiān)督,而獲取這些監(jiān)督在大規(guī)模場景下成本高昂,并且在動態(tài)現(xiàn)實場景中尤其稀缺。我們提出了Flow3r框架,該框架以密集的2D對應(yīng)關(guān)系(“光流”)作為監(jiān)督來增強視覺幾何學(xué)習(xí),從而能夠從無標簽的單目視頻中進行可擴展的訓(xùn)練。我們的關(guān)鍵見解是,光流預(yù)測模塊應(yīng)該進行因式分解:利用一張圖像的幾何潛變量和另一張圖像的位姿潛變量來預(yù)測兩張圖像之間的光流。這種因式分解直接引導(dǎo)場景幾何和相機運動的學(xué)習(xí),并且自然地擴展到動態(tài)場景。在可控實驗中,我們表明因式分解光流預(yù)測優(yōu)于其他設(shè)計,并且性能隨著無標簽數(shù)據(jù)的增加而持續(xù)提升。將因式分解光流集成到現(xiàn)有的視覺幾何架構(gòu)中,并使用約80萬個無標簽視頻進行訓(xùn)練,F(xiàn)low3r在涵蓋靜態(tài)和動態(tài)場景的八個基準測試中取得了最先進的結(jié)果,在野外動態(tài)視頻上的提升最大,因為在這些場景中標簽數(shù)據(jù)最為稀缺。

[3] SEAL-pose: Enhancing 3D Human Pose Estimation via a Learned Loss for Structural ConsistencySEAL-pose:通過學(xué)習(xí)結(jié)構(gòu)一致性損失提升3D人體姿態(tài)估計
摘要:3D人體姿態(tài)估計(HPE)的特點是關(guān)節(jié)之間存在復(fù)雜的局部和全局依賴關(guān)系。傳統(tǒng)的監(jiān)督損失在捕捉這些相關(guān)性方面存在局限性,因為它們獨立處理每個關(guān)節(jié)。此前的研究曾嘗試通過手動設(shè)計的先驗或基于規(guī)則的約束來促進結(jié)構(gòu)一致性;然而,這些方法通常需要手動指定,并且往往不可微,限制了它們作為端到端訓(xùn)練目標的使用。我們提出了SEAL-pose,這是一個數(shù)據(jù)驅(qū)動的框架,其中一個可學(xué)習(xí)的損失網(wǎng)絡(luò)(loss-net)通過評估結(jié)構(gòu)合理性來訓(xùn)練姿態(tài)網(wǎng)絡(luò)(pose-net)。我們基于關(guān)節(jié)圖的設(shè)計無需依賴手工制作的先驗,使損失網(wǎng)絡(luò)能夠直接從數(shù)據(jù)中學(xué)習(xí)復(fù)雜的結(jié)構(gòu)依賴關(guān)系。在三個3D HPE基準測試和八個骨干網(wǎng)絡(luò)上進行的大量實驗表明,與所有設(shè)置下的相應(yīng)骨干網(wǎng)絡(luò)相比,SEAL-pose降低了每個關(guān)節(jié)的誤差并提高了姿態(tài)的合理性。除了改進每個骨干網(wǎng)絡(luò)之外,盡管沒有實施任何明確的結(jié)構(gòu)約束,SEAL-pose也優(yōu)于具有顯式結(jié)構(gòu)約束的模型。最后,我們分析了損失網(wǎng)絡(luò)與結(jié)構(gòu)一致性之間的關(guān)系,并在跨數(shù)據(jù)集和野外設(shè)置中評估了SEAL-pose。

[4] Token-UNet: A New Case for Transformers Integration in Efficient and Interpretable 3D UNets for Brain Imaging SegmentationToken-UNet:將Transformer集成到高效且可解釋的3D UNet中用于腦成像分割的新案例
摘要:我們提出了Token-UNet,采用TokenLearner和TokenFuser模塊將Transformer融入UNet。雖然Transformer在醫(yī)學(xué)成像中實現(xiàn)了輸入元素之間的全局交互,但當前的計算挑戰(zhàn)阻礙了它們在普通硬件上的部署。像(Swin)UNETR這樣的模型通過整合(Swin)Transformer編碼器來調(diào)整UNet架構(gòu),這些編碼器處理每個代表輸入小體素塊($8^3$體素)的令牌。Transformer注意力機制的計算復(fù)雜度與令牌數(shù)量呈二次方關(guān)系,而令牌數(shù)量與3D輸入分辨率的立方成正比。這項工作重新審視了卷積和注意力的作用,引入了Token-UNet,這是一系列可以在受限計算環(huán)境和時間框架內(nèi)運行的3D分割模型。為了減輕計算需求,我們的方法保留了類UNet模型的卷積編碼器,并將TokenLearner應(yīng)用于3D特征圖。該模塊從局部和全局結(jié)構(gòu)中匯集預(yù)設(shè)數(shù)量的令牌。我們的結(jié)果表明,這種令牌化有效地編碼了與任務(wù)相關(guān)的信息,產(chǎn)生了自然可解釋的注意力圖。我們最重的模型的內(nèi)存占用、推理計算時間和參數(shù)數(shù)量分別降至SwinUNETR的33%、10%和35%,并且平均性能更好(SwinUNETR的Dice分數(shù)為86.75% $\pm$ 0.19%,而我們的為87.21% $\pm$ 0.35%)。這項工作為在計算資源有限的環(huán)境(如3D醫(yī)學(xué)成像)中進行更高效的訓(xùn)練開辟了道路。在有限的硬件環(huán)境中簡化模型優(yōu)化、微調(diào)以及遷移學(xué)習(xí)可以加速和多樣化方法的發(fā)展,造福研究界。

[5] Learning Positive-Incentive Point Sampling in Neural Implicit Fields for Object Pose Estimation用于目標姿態(tài)估計的神經(jīng)隱式場正激勵點采樣學(xué)習(xí)
摘要:學(xué)習(xí)3D形狀的神經(jīng)隱式場是一個迅速發(fā)展的領(lǐng)域,它能夠以任意分辨率進行形狀表示。由于其靈活性,神經(jīng)隱式場已在許多研究領(lǐng)域取得成功,包括形狀重建、新穎視角圖像合成,以及最近的目標姿態(tài)估計。神經(jīng)隱式場能夠?qū)W習(xí)相機空間和物體規(guī)范空間之間的密集對應(yīng)關(guān)系,包括相機空間中未觀察到的區(qū)域,這在諸如高度遮擋物體和新穎形狀等具有挑戰(zhàn)性的場景中顯著提高了目標姿態(tài)估計的性能。盡管取得了進展,但由于缺乏直接的觀測信號,為相機空間中未觀察到的區(qū)域預(yù)測規(guī)范坐標仍然具有挑戰(zhàn)性。這就需要高度依賴模型的泛化能力,從而導(dǎo)致高不確定性。因此,在整個相機空間中密集采樣點可能會產(chǎn)生不準確的估計,這會阻礙學(xué)習(xí)過程并降低性能。為緩解這一問題,我們提出了一種將SO(3)等變卷積隱式網(wǎng)絡(luò)與正激勵點采樣(PIPS)策略相結(jié)合的方法。SO(3)等變卷積隱式網(wǎng)絡(luò)在任意查詢位置以SO(3)等變性估計點級屬性,與大多數(shù)現(xiàn)有基線相比表現(xiàn)出更優(yōu)的性能。PIPS策略根據(jù)輸入動態(tài)確定采樣位置,從而提高了網(wǎng)絡(luò)的準確性和訓(xùn)練效率。我們的方法在三個姿態(tài)估計數(shù)據(jù)集上優(yōu)于現(xiàn)有最先進的方法。值得注意的是,它在具有挑戰(zhàn)性的場景中表現(xiàn)出顯著的改進,例如以未見姿態(tài)捕獲的物體、高度遮擋、新穎幾何形狀和嚴重噪聲等情況。

[6] Augmented Radiance Field: A General Framework for Enhanced Gaussian Splatting增強輻射場:用于增強高斯 splatting 的通用框架
摘要:由于實時渲染性能,3D 高斯 splatting(3DGS)已成為輻射場重建的領(lǐng)先方法。然而,它依賴球諧函數(shù)進行顏色編碼,這從本質(zhì)上限制了其分離漫反射和鏡面反射分量的能力,使得準確表示復(fù)雜反射變得具有挑戰(zhàn)性。為了解決這個問題,我們提出了一種新穎的增強高斯核,該核通過與視角相關(guān)的不透明度顯式建模鏡面反射效果。同時,我們引入了一種基于誤差驅(qū)動的補償策略,以提高現(xiàn)有 3DGS 場景的渲染質(zhì)量。我們的方法從 2D 高斯初始化開始,然后自適應(yīng)地插入和優(yōu)化增強高斯核,最終生成一個增強輻射場。實驗表明,我們的方法不僅在渲染性能上超越了現(xiàn)有最先進的 NeRF 方法,還實現(xiàn)了更高的參數(shù)效率。項目頁面:xiaoxinyyx.github.io/au.

[7] Monocular Mesh Recovery and Body Measurement of Female Saanen Goats雌性薩能山羊的單目網(wǎng)格恢復(fù)與身體測量
摘要:以高產(chǎn)奶量著稱的薩能奶山羊的泌乳性能與其體型密切相關(guān),因此準確的3D身體測量對于評估其產(chǎn)奶潛力至關(guān)重要。然而,現(xiàn)有的重建方法缺乏針對山羊的真實3D數(shù)據(jù)。為解決這一局限性,我們建立了FemaleSaanenGoat數(shù)據(jù)集,該數(shù)據(jù)集包含55只6 - 18個月大的雌性薩能山羊的同步八視圖RGBD視頻。我們使用多視圖DynamicFusion將嘈雜、非剛性的點云序列融合成高保真的3D掃描,克服了不規(guī)則表面和快速運動帶來的挑戰(zhàn)?;谶@些掃描,我們開發(fā)了專門為雌性薩能山羊設(shè)計的參數(shù)化3D形狀模型SaanenGoat。該模型具有一個包含41個骨骼關(guān)節(jié)的精細模板,并增強了乳房表示,與我們的掃描數(shù)據(jù)進行了配準。由48只山羊構(gòu)建的綜合形狀空間能夠精確表示各種個體差異。借助SaanenGoat模型,我們可以從單視圖RGBD輸入中實現(xiàn)高精度的3D重建,并實現(xiàn)對六個關(guān)鍵身體尺寸的自動測量:體長、體高、胸寬、胸圍、臀寬和臀高。實驗結(jié)果表明,我們的方法在3D重建和身體測量方面具有卓越的準確性,為精準畜牧養(yǎng)殖中的大規(guī)模3D視覺應(yīng)用提供了一種新范式。

[8] BigMaQ: A Big Macaque Motion and Animation Dataset Bridging Image and 3D Pose RepresentationsBigMaQ:一個連接圖像和3D姿態(tài)表示的大型獼猴運動與動畫數(shù)據(jù)集
摘要:動物動態(tài)和社交行為的識別對于推動動物行為學(xué)、生態(tài)學(xué)、醫(yī)學(xué)和神經(jīng)科學(xué)的發(fā)展至關(guān)重要。深度學(xué)習(xí)的最新進展使得從視頻中實現(xiàn)自動化行為識別成為可能,但三維(3D)姿態(tài)和形狀的精確重建尚未融入這一過程。特別是對于非人類靈長類動物,基于網(wǎng)格的跟蹤工作落后于其他物種,使得姿態(tài)描述僅限于稀疏的關(guān)鍵點,無法完全捕捉動作動態(tài)的豐富性。為了彌補這一差距,我們引入了大獼猴3D運動與動畫數(shù)據(jù)集(BigMaQ),這是一個大規(guī)模數(shù)據(jù)集,包含超過750個相互交互的恒河猴場景,并配有詳細的3D姿態(tài)描述。我們擴展了先前基于表面的動物跟蹤方法,通過將高質(zhì)量的獼猴模板網(wǎng)格適配到每只個體猴子,構(gòu)建了特定個體的紋理化化身。這使得我們能夠提供比先前最先進的基于表面的動物跟蹤方法更精確的姿態(tài)描述。從原始數(shù)據(jù)集中,我們衍生出BigMaQ500,這是一個動作識別基準,它將基于表面的姿態(tài)向量與多只個體猴子的單幀圖像相關(guān)聯(lián)。通過將從已有的圖像和視頻編碼器中提取的特征與我們的姿態(tài)描述符(有或沒有)進行配對,我們證明了在包含姿態(tài)信息時,平均精度均值(mAP)有顯著提升。通過這些貢獻,BigMaQ建立了第一個將動態(tài)3D姿態(tài) - 形狀表示融入動物動作識別學(xué)習(xí)任務(wù)的數(shù)據(jù)集,并為推進非人類靈長類動物的視覺外觀、姿勢和社交互動研究提供了豐富的資源。代碼和數(shù)據(jù)可在martinivis.github.io/Bi 上公開獲取。

[9] Open-vocabulary 3D scene perception in industrial environments工業(yè)環(huán)境中的開放詞匯3D場景感知
摘要:生產(chǎn)、廠內(nèi)物流或制造環(huán)境中的自主視覺應(yīng)用需要具備超越一小部分固定類別的感知能力。最近的開放詞匯方法利用2D視覺語言基礎(chǔ)模型(VLFMs)來解決這一任務(wù),但這些方法通常依賴于在非工業(yè)數(shù)據(jù)集(如家庭場景)上預(yù)訓(xùn)練的無類別分割模型。在這項工作中,我們首先證明了此類模型無法泛化,在常見工業(yè)對象上表現(xiàn)不佳。因此,我們提出了一種無需訓(xùn)練的開放詞匯3D感知管道,克服了這一局限性。我們的方法不是使用預(yù)訓(xùn)練模型來生成實例提議,而是根據(jù)預(yù)計算的超點的語義特征將它們合并以生成掩碼。隨后,我們在一個具有代表性的3D工業(yè)車間場景上評估了經(jīng)過領(lǐng)域適配的VLFM “IndustrialCLIP” 以進行開放詞匯查詢。我們的定性結(jié)果展示了對工業(yè)對象的成功分割。

[10] One2Scene: Geometric Consistent Explorable 3D Scene Generation from a Single ImageOne2Scene:從單張圖像生成幾何一致的可探索3D場景
摘要:從單張圖像生成可探索的3D場景是3D視覺領(lǐng)域極具挑戰(zhàn)性的問題?,F(xiàn)有方法難以支持自由探索,當視角遠離原始視角時,往往會產(chǎn)生嚴重的幾何畸變和噪聲偽影。我們提出了One2Scene,這是一個有效的框架,它將這個不適定問題分解為三個易于處理的子任務(wù),以實現(xiàn)沉浸式可探索場景的生成。我們首先使用全景圖生成器從單張輸入圖像生成錨點視圖作為初始化。然后,通過一個可泛化的前饋高斯模糊網(wǎng)絡(luò)(Gaussian Splatting network)將這些2D錨點提升為顯式的3D幾何支架。我們沒有將全景圖作為單張圖像進行重建,而是將其投影到多個稀疏錨點視圖中,并將重建任務(wù)重新表述為多視圖立體匹配,這使我們能夠利用從大規(guī)模多視圖數(shù)據(jù)集中學(xué)習(xí)到的強大幾何先驗。使用雙向特征融合模塊來確??缫晥D一致性,從而得到一個高效且?guī)缀慰煽康闹Ъ?。最后,該支架作為一個強大的先驗,用于一個新穎視圖生成器,以在任意相機位置生成逼真且?guī)缀螠蚀_的視圖。通過明確地基于3D一致的支架進行重建,One2Scene在大相機運動下能夠穩(wěn)定工作,支持沉浸式場景探索。大量實驗表明,One2Scene在全景深度估計、前饋360°重建和可探索3D場景生成方面顯著優(yōu)于現(xiàn)有最先進的方法。代碼和模型將被發(fā)布。

[11] Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications基于樹枝圖像訓(xùn)練深度立體匹配網(wǎng)絡(luò):實時無人機林業(yè)應(yīng)用的基準研究
摘要:基于自主無人機的樹木修剪需要通過立體相機進行準確、實時的深度估計。深度是使用公式 $Z = f B/d$ 從視差圖計算得出的,因此即使是很小的視差誤差,在工作距離下也會導(dǎo)致明顯的深度錯誤?;谖覀冊缙诘难芯浚ㄔ撗芯看_定DEFOM-Stereo是植被場景中最佳的參考視差生成器),我們首次開展了在真實樹枝圖像上訓(xùn)練和測試十種深度立體匹配網(wǎng)絡(luò)的研究。我們使用了坎特伯雷樹枝數(shù)據(jù)集(Canterbury Tree Branches dataset),該數(shù)據(jù)集包含來自ZED Mini相機的5313對1080P和720P立體圖像對,并以DEFOM生成的視差圖作為訓(xùn)練目標。這十種方法涵蓋了逐步細化、3D卷積、邊緣感知注意力和輕量級設(shè)計。使用感知指標(SSIM、LPIPS、ViTScore)和結(jié)構(gòu)指標(SIFT/ORB特征匹配),我們發(fā)現(xiàn)BANet - 3D產(chǎn)生的整體質(zhì)量最佳(SSIM = 0.883,LPIPS = 0.157),而RAFT - Stereo在場景級理解方面得分最高(ViTScore = 0.799)。在安裝在我們無人機上的NVIDIA Jetson Orin Super(16 GB,獨立供電)上進行測試表明,AnyNet在1080P分辨率下達到6.99 FPS,是唯一接近實時的選項,而BANet - 2D在1.21 FPS時實現(xiàn)了最佳的質(zhì)量 - 速度平衡。我們還比較了720P和1080P的處理時間,以指導(dǎo)林業(yè)無人機系統(tǒng)的分辨率選擇。

[12] RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting ProcessingRAP: 用于高效3D高斯 splatting 處理的快速前饋無渲染屬性引導(dǎo)的基元重要性分數(shù)預(yù)測
摘要:3D高斯 splatting (3DGS) 已成為高質(zhì)量3D場景重建的領(lǐng)先技術(shù)。然而,迭代細化和致密化過程會生成大量基元,每個基元對重建的貢獻程度有很大差異。因此,估計基元的重要性至關(guān)重要,這既有助于在重建過程中去除冗余,也能實現(xiàn)高效的壓縮和傳輸。現(xiàn)有方法通常依賴基于渲染的分析,即通過每個基元在多個相機視角下的貢獻來評估。然而,這些方法對視角的數(shù)量和選擇很敏感,依賴專門的可微光柵化器,并且計算時間會隨視角數(shù)量線性增長,這使得它們難以作為即插即用的模塊集成,限制了可擴展性和泛化性。為解決這些問題,我們提出了 RAP,這是一種用于3DGS中高效重要性分數(shù)預(yù)測的快速前饋無渲染屬性引導(dǎo)方法。RAP 直接從高斯的固有屬性和局部鄰域統(tǒng)計信息推斷基元的重要性,避免了基于渲染或依賴可見性的計算。一個緊湊的多層感知器 (MLP) 使用渲染損失、剪枝感知損失和重要性分布正則化來預(yù)測每個基元的重要性分數(shù)。在少量場景上進行訓(xùn)練后,RAP 能有效地泛化到未見數(shù)據(jù),并且可以無縫集成到重建、壓縮和傳輸管道中。我們的代碼可在 github.com/yyyykf/RAP 上公開獲取。

[13] VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving EnvironmentsVGGT-MPR:自動駕駛環(huán)境中基于VGGT增強的多模態(tài)場景識別
摘要:在自動駕駛中,可靠的場景識別對于全局定位和閉環(huán)檢測至關(guān)重要。雖然多模態(tài)場景識別(MPR)中相機和激光雷達數(shù)據(jù)的跨模態(tài)融合在克服單模態(tài)方法的局限性方面顯示出了潛力,但現(xiàn)有的MPR方法主要依賴手工設(shè)計的融合策略和參數(shù)眾多的骨干網(wǎng)絡(luò),需要進行代價高昂的重新訓(xùn)練。為了解決這一問題,我們提出了VGGT-MPR,這是一個多模態(tài)場景識別框架,它采用視覺幾何基礎(chǔ)Transformer(VGGT)作為統(tǒng)一的幾何引擎,用于全局檢索和重排序。在全局檢索階段,VGGT通過先驗深度感知和點云地圖監(jiān)督提取富含幾何信息的視覺嵌入,并利用預(yù)測的深度圖對稀疏的激光雷達點云進行致密化處理,以提高結(jié)構(gòu)表示能力。這增強了融合后的多模態(tài)特征的判別能力,并生成用于快速檢索的全局描述符。除了全局檢索,我們還設(shè)計了一種無需訓(xùn)練的重排序機制,該機制利用了VGGT的跨視圖關(guān)鍵點跟蹤能力。通過將掩碼引導(dǎo)的關(guān)鍵點提取與置信度感知的對應(yīng)評分相結(jié)合,我們提出的重排序機制無需額外的參數(shù)優(yōu)化即可有效細化檢索結(jié)果。在大規(guī)模自動駕駛基準數(shù)據(jù)集和我們自行采集的數(shù)據(jù)上進行的大量實驗表明,VGGT-MPR達到了當前最優(yōu)性能,對嚴重的環(huán)境變化、視角變化和遮擋具有很強的魯棒性。我們的代碼和數(shù)據(jù)將公開提供。

[14] Generative 6D Pose Estimation via Conditional Flow Matching通過條件流匹配進行生成式6D姿態(tài)估計
摘要:現(xiàn)有的實例級6D姿態(tài)估計方法通常依賴于神經(jīng)網(wǎng)絡(luò),這些網(wǎng)絡(luò)要么直接在SE(3)中回歸姿態(tài),要么通過局部特征匹配間接估計姿態(tài)。前者在處理物體對稱性方面存在困難,而后者在缺乏獨特局部特征的情況下會失效。為克服這些局限性,我們提出了一種將6D姿態(tài)估計作為R3中的條件流匹配問題的新公式。我們引入了Flose,這是一種生成式方法,通過基于局部特征的去噪過程來推斷物體姿態(tài)。雖然之前基于條件流匹配的方法僅基于幾何引導(dǎo)進行去噪,但Flose集成了基于外觀的語義特征,以減輕物體對稱性造成的歧義。我們進一步結(jié)合基于RANSAC的配準來處理離群點。我們在BOP基準的五個數(shù)據(jù)集上驗證了Flose。Flose以平均4.5的平均召回率提升優(yōu)于先前的方法。項目網(wǎng)站:tev-fbk.github.io/Flose

[15] BayesFusion-SDF: Probabilistic Signed Distance Fusion with View Planning on CPUBayesFusion-SDF:基于CPU的概率符號距離融合與視圖規(guī)劃
摘要:從深度觀測進行密集3D重建是機器人技術(shù)、增強現(xiàn)實和數(shù)字檢測的關(guān)鍵部分。傳統(tǒng)的體素融合技術(shù),包括截斷符號距離函數(shù)(TSDF),能夠?qū)崿F(xiàn)高效且確定性的幾何重建;然而,它們依賴于啟發(fā)式加權(quán),并且無法以系統(tǒng)的方式透明地傳達不確定性。另一方面,最近的神經(jīng)隱式方法雖然能獲得非常高的保真度,但通常需要大量的GPU算力進行優(yōu)化,并且對于后續(xù)決策來說不太容易理解。本文提出了BayesFusion-SDF,這是一個以CPU為中心的概率符號距離融合框架,該框架將幾何概念化為一個稀疏高斯隨機場,在體素距離上具有定義好的后驗分布。首先,使用粗略的TSDF重建來創(chuàng)建一個自適應(yīng)窄帶域。然后,使用異方差貝葉斯公式結(jié)合深度觀測,該公式通過稀疏線性代數(shù)和預(yù)條件共軛梯度法求解。隨機對角估計器是一種快速獲取后驗不確定性估計的方法。這使得能夠在考慮不確定性的情況下提取表面并規(guī)劃下一個最佳視圖。在受控消融場景和CO3D對象序列上的測試表明,新方法在幾何上比TSDF基線更準確,并為主動感知提供了有用的不確定性估計。所提出的公式為依賴GPU的神經(jīng)重建方法提供了一種清晰且易于使用的替代方案,同時仍能以概率方式理解并可預(yù)測地行動。GitHub:mazumdarsoumya.github.io

[16] TeHOR: Text-Guided 3D Human and Object Reconstruction with TexturesTeHOR:基于紋理的文本引導(dǎo)3D人體與物體重建
摘要:從單張圖像中聯(lián)合重建3D人體和物體是一個活躍的研究領(lǐng)域,在機器人技術(shù)和數(shù)字內(nèi)容創(chuàng)作中有著關(guān)鍵應(yīng)用。盡管近期取得了進展,但現(xiàn)有方法存在兩個基本局限性。首先,它們的重建嚴重依賴物理接觸信息,本質(zhì)上無法捕捉非接觸式的人體 - 物體交互,例如凝視或指向物體。其次,重建過程主要由局部幾何接近度驅(qū)動,忽略了人體和物體外觀所提供的對于理解整體交互至關(guān)重要的全局上下文。為解決這些問題,我們引入了TeHOR,這是一個基于兩個核心設(shè)計構(gòu)建的框架。首先,除了接觸信息之外,我們的框架利用人體 - 物體交互的文本描述來強制3D重建與其文本線索之間的語義對齊,從而能夠?qū)Ω鼜V泛的交互進行推理,包括非接觸情況。其次,我們將3D人體和物體的外觀線索納入對齊過程,以捕捉整體上下文信息,從而確保視覺上合理的重建。因此,我們的框架能夠產(chǎn)生準確且語義連貫的重建結(jié)果,達到了當前的最優(yōu)性能。

[17] DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-SpacesDICArt:推進離散狀態(tài)空間中的類別級可鉸接物體姿態(tài)估計
摘要:可鉸接物體姿態(tài)估計是具身人工智能中的一項核心任務(wù)?,F(xiàn)有方法通常在連續(xù)空間中回歸姿態(tài),但往往難以應(yīng)對以下兩個問題:1) 探索龐大復(fù)雜的搜索空間;2) 未能納入內(nèi)在運動學(xué)約束。在這項工作中,我們引入了DICArt(用于鉸接姿態(tài)估計的離散擴散模型),這是一個將姿態(tài)估計表述為條件離散擴散過程的新穎框架。DICArt并非在連續(xù)域中操作,而是通過學(xué)習(xí)到的反向擴散過程逐步對有噪聲的姿態(tài)表示進行去噪,以恢復(fù)真實姿態(tài)。為了提高建模精度,我們提出了一種靈活的流決策器,它能動態(tài)確定每個令牌是應(yīng)該去噪還是重置,從而在擴散過程中有效平衡真實分布和噪聲分布。此外,我們還采用了一種分層運動學(xué)耦合策略,按層次估計每個剛體部件的姿態(tài),以遵循物體的運動學(xué)結(jié)構(gòu)。我們在合成數(shù)據(jù)集和真實世界數(shù)據(jù)集上對DICArt進行了驗證。實驗結(jié)果證明了其卓越的性能和魯棒性。通過將離散生成建模與結(jié)構(gòu)先驗相結(jié)合,DICArt為復(fù)雜環(huán)境中可靠的類別級6D姿態(tài)估計提供了一種新范式。

[18] Vinedresser3D: Agentic Text-guided 3D EditingVinedresser3D:基于智能體的文本引導(dǎo)3D編輯
摘要:文本引導(dǎo)的3D編輯旨在使用自然語言指令修改現(xiàn)有的3D資產(chǎn)。當前方法難以同時理解復(fù)雜提示、在3D中自動定位編輯位置以及保留未編輯內(nèi)容。我們引入了Vinedresser3D,這是一個直接在原生3D生成模型的潛在空間中運行的高質(zhì)量文本引導(dǎo)3D編輯的智能體框架。給定一個3D資產(chǎn)和一個編輯提示,Vinedresser3D使用多模態(tài)大語言模型(multimodal large language model)推斷原始資產(chǎn)的豐富描述,識別編輯區(qū)域和編輯類型(添加、修改、刪除),并生成分解后的結(jié)構(gòu)和外觀級文本引導(dǎo)。然后,智能體選擇一個信息豐富的視圖,并應(yīng)用圖像編輯模型以獲得視覺引導(dǎo)。最后,一個基于反演的整流流修復(fù)管道(inversion-based rectified-flow inpainting pipeline)與交錯采樣模塊在3D潛在空間中執(zhí)行編輯,在保持3D連貫性和未編輯區(qū)域的同時實現(xiàn)提示對齊。在各種3D編輯上的實驗表明,Vinedresser3D在自動指標和人類偏好研究中均優(yōu)于先前的基線,同時實現(xiàn)了精確、連貫且無需掩碼的3D編輯。

[19] Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object DetectionFore-Mamba3D:用于3D目標檢測的基于Mamba的前景增強編碼
摘要:像Mamba這樣的線性建模方法已被融合作為3D目標檢測任務(wù)的有效骨干網(wǎng)絡(luò)。然而,之前基于Mamba的方法對整個非空體素序列進行雙向編碼,而場景中包含大量無用的背景信息。雖然直接編碼前景體素似乎是一個可行的解決方案,但這往往會降低檢測性能。我們將此歸因于僅前景序列線性建模中的響應(yīng)衰減和受限的上下文表示。為了解決這個問題,我們提出了一種新穎的骨干網(wǎng)絡(luò),稱為Fore-Mamba3D,通過修改基于Mamba的編碼器來專注于前景增強。首先根據(jù)預(yù)測分數(shù)對前景體素進行采樣??紤]到不同實例的前景體素相互作用中存在的響應(yīng)衰減,我們設(shè)計了一個區(qū)域到全局滑動窗口(RGSW),將信息從區(qū)域分割傳播到整個序列。此外,提出了一種語義輔助和狀態(tài)空間融合模塊(SASFMamba),通過增強Mamba模型內(nèi)的語義和幾何感知來豐富上下文表示。我們的方法強調(diào)僅前景編碼,并緩解了線性自回歸模型中基于距離和因果的依賴關(guān)系。在各種基準測試中的卓越性能證明了Fore-Mamba3D在3D目標檢測任務(wù)中的有效性。

[20] Physics-informed Active Polarimetric 3D Imaging for Specular Surfaces用于鏡面表面的物理信息驅(qū)動主動偏振3D成像
摘要:在現(xiàn)實場景中,如在線檢測或手持掃描,鏡面表面的3D成像仍然具有挑戰(zhàn)性,需要快速準確地測量復(fù)雜幾何形狀。像偏折術(shù)這樣的光學(xué)計量技術(shù)能實現(xiàn)高精度,但通常依賴多幀采集,使其不適用于動態(tài)環(huán)境?;诟道锶~的單幀方法緩解了這一限制,然而在測量具有高空間頻率結(jié)構(gòu)或大曲率的表面時,其性能會下降。另外,計算機視覺中的偏振3D成像以單幀方式運行,并且對幾何復(fù)雜性表現(xiàn)出魯棒性。然而,其準確性從根本上受到正交成像假設(shè)的限制。在本文中,我們提出了一個用于復(fù)雜鏡面表面單幀3D成像的物理信息驅(qū)動深度學(xué)習(xí)框架。偏振線索提供方向先驗,有助于解釋由結(jié)構(gòu)光照明編碼的幾何信息。這些互補線索通過具有相互特征調(diào)制的雙編碼器架構(gòu)進行處理,使網(wǎng)絡(luò)能夠解決它們的非線性耦合問題并直接推斷表面法線。所提出的方法能夠在單幀中實現(xiàn)準確且魯棒的法線估計,推理速度快,從而實現(xiàn)復(fù)雜鏡面表面的實用3D成像。

[21] UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic SegmentationUP-Fuse:用于3D全景分割的不確定性引導(dǎo)的LiDAR-相機融合方法
摘要:LiDAR-相機融合通過利用相機圖像來補充稀疏的LiDAR掃描,從而增強了3D全景分割效果,但它也引入了一個關(guān)鍵的故障模式。在不利條件下,相機傳感器的性能下降或故障會顯著損害感知系統(tǒng)的可靠性。為解決這一問題,我們提出了UP-Fuse,這是一種在2D距離視圖下的新型不確定性感知融合框架,它在相機傳感器性能下降、校準漂移和傳感器故障的情況下仍能保持魯棒性。原始LiDAR數(shù)據(jù)首先被投影到距離視圖中,并由LiDAR編碼器進行編碼,同時提取相機特征并將其投影到相同的共享空間。UP-Fuse的核心是采用了一個不確定性引導(dǎo)的融合模塊,該模塊使用預(yù)測的不確定性圖來動態(tài)調(diào)節(jié)跨模態(tài)交互。這些不確定性圖是通過量化不同視覺退化情況下的表征差異來學(xué)習(xí)得到的,以確保只有可靠的視覺線索影響融合后的表征。融合后的距離視圖特征由一個新穎的混合2D - 3D變壓器進行解碼,該變壓器可緩解2D投影中固有的空間歧義,并直接預(yù)測3D全景分割掩碼。在Panoptic nuScenes、SemanticKITTI和我們引入的Panoptic Waymo基準上進行的大量實驗證明了UP-Fuse的有效性和魯棒性,即使在嚴重的視覺損壞或不對準情況下,它也能保持良好的性能,使其非常適合安全關(guān)鍵環(huán)境中的機器人感知。

[22] DefenseSplat: Enhancing the Robustness of 3D Gaussian Splatting via Frequency-Aware FilteringDefenseSplat:通過頻率感知濾波增強3D高斯 splatting 的魯棒性
摘要:3D高斯 splatting(3DGS)已成為一種強大的范式,可用于從帶姿態(tài)的圖像中進行實時、高保真的3D重建。然而,最近的研究表明,它在輸入視圖中容易受到對抗性干擾,其中難以察覺但一致的擾動會大幅降低渲染質(zhì)量、增加訓(xùn)練和渲染時間并膨脹內(nèi)存使用,甚至導(dǎo)致服務(wù)器拒絕服務(wù)。在我們的工作中,為了緩解這一問題,我們首先使用小波變換分析輸入圖像的低頻和高頻分量中對抗性擾動的不同行為。基于這一觀察,我們設(shè)計了一種簡單而有效的頻率感知防御策略,通過過濾高頻噪聲同時保留低頻內(nèi)容來重建訓(xùn)練視圖。這種方法在保持原始場景真實性的同時,有效抑制了對抗性偽影。值得注意的是,它不會顯著影響在干凈數(shù)據(jù)上的訓(xùn)練,在魯棒性和干凈輸入上的性能之間實現(xiàn)了理想的權(quán)衡。通過在多個基準上的廣泛攻擊強度實驗,我們證明了我們的方法在無需訪問干凈真實監(jiān)督的情況下,顯著增強了3DGS的魯棒性。通過突出并解決3D高斯 splatting 被忽視的脆弱性,我們的工作為更魯棒和安全的3D重建鋪平了道路。

[23] GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation LearningGS-CLIP:基于幾何感知提示和協(xié)同視圖表示學(xué)習(xí)的零樣本3D異常檢測
摘要:零樣本3D異常檢測是一項新興任務(wù),旨在無需任何目標訓(xùn)練數(shù)據(jù)的情況下檢測目標數(shù)據(jù)集中的異常,這在受樣本稀缺和數(shù)據(jù)隱私問題限制的場景中尤為重要。雖然當前方法通過將3D點云投影到2D表示來適配CLIP,但它們面臨挑戰(zhàn)。這種投影本質(zhì)上會丟失一些幾何細節(jié),并且依賴單一的2D模態(tài)提供的視覺理解不完整,限制了它們檢測各種異常類型的能力。為解決這些局限性,我們提出了幾何感知提示和協(xié)同視圖表示學(xué)習(xí)(GS-CLIP)框架,該框架使模型能夠通過兩階段學(xué)習(xí)過程識別幾何異常。在階段1,我們動態(tài)生成嵌入3D幾何先驗的文本提示。這些提示包含由我們的幾何缺陷蒸餾模塊(GDDM)提煉的全局形狀上下文和局部缺陷信息。在階段2,我們引入?yún)f(xié)同視圖表示學(xué)習(xí)架構(gòu),該架構(gòu)并行處理渲染圖像和深度圖像。隨后,協(xié)同精煉模塊(SRM)融合兩個流的特征,利用它們的互補優(yōu)勢。在四個大規(guī)模公共數(shù)據(jù)集上的綜合實驗結(jié)果表明,GS-CLIP在檢測方面取得了卓越的性能。代碼可在github.com/zhushengxiny獲取。

[24] VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery基于擴散的人體網(wǎng)格恢復(fù)的視覺語言模型引導(dǎo)的群體偏好對齊
摘要:從單張RGB圖像進行人體網(wǎng)格恢復(fù)(HMR)本質(zhì)上具有歧義性,因為多個3D姿態(tài)可能對應(yīng)于同一2D觀測結(jié)果。最近基于擴散的方法通過生成各種假設(shè)來解決這個問題,但往往犧牲了準確性。它們產(chǎn)生的預(yù)測要么在物理上不可行,要么偏離輸入圖像,特別是在遮擋或雜亂的自然場景中。為了解決這個問題,我們引入了一個具有自我反思能力的雙記憶增強HMR評判代理,為預(yù)測的網(wǎng)格生成上下文感知的質(zhì)量分數(shù)。這些分數(shù)提煉了關(guān)于3D人體運動結(jié)構(gòu)、物理可行性以及與輸入圖像對齊的細粒度線索。我們使用這些分數(shù)構(gòu)建了一個群體級HMR偏好數(shù)據(jù)集。利用這個數(shù)據(jù)集,我們提出了一個群體偏好對齊框架,用于微調(diào)基于擴散的HMR模型。這一過程將豐富的偏好信號注入模型,引導(dǎo)其生成更符合物理規(guī)律且與圖像一致的人體網(wǎng)格。大量實驗表明,我們的方法與現(xiàn)有最先進的方法相比取得了更優(yōu)的性能。

[25] Universal 3D Shape Matching via Coarse-to-Fine Language Guidance通過粗到細的語言引導(dǎo)實現(xiàn)通用3D形狀匹配
摘要:在計算機視覺和圖形學(xué)中,建立形狀之間的密集對應(yīng)關(guān)系是一項至關(guān)重要的任務(wù)。然而,先前的方法依賴于近似等距假設(shè)和同類主題類型(即僅適用于人體形狀)。然而,為跨類別對象建立語義對應(yīng)關(guān)系仍然具有挑戰(zhàn)性,并且相對較少受到關(guān)注。為了實現(xiàn)這一目標,我們提出了UniMatch,這是一個語義感知的、粗到細的框架,用于在不限制對象類別的情況下,在強非等距形狀之間構(gòu)建密集的語義對應(yīng)關(guān)系。關(guān)鍵的見解是將“粗”語義線索提升為“細”對應(yīng)關(guān)系,這通過兩個階段實現(xiàn)。在“粗”階段,我們執(zhí)行與類別無關(guān)的3D分割,以獲得不重疊的語義部分,并提示多模態(tài)大語言模型(MLLMs)識別部分名稱。然后,我們使用預(yù)訓(xùn)練的視覺語言模型(VLMs)提取文本嵌入,從而能夠構(gòu)建匹配的語義部分。在“細”階段,我們利用這些粗對應(yīng)關(guān)系,通過專門的基于排名的對比方案來引導(dǎo)密集對應(yīng)關(guān)系的學(xué)習(xí)。由于采用了與類別無關(guān)的分割、語言引導(dǎo)和基于排名的對比學(xué)習(xí),我們的方法適用于通用對象類別,并且不需要預(yù)定義的部分提案,從而能夠?qū)崿F(xiàn)跨類別和非等距形狀的通用匹配。大量實驗表明,UniMatch在各種具有挑戰(zhàn)性的場景中始終優(yōu)于其他競爭方法。

[26] Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic SamplingAni3DHuman:基于自引導(dǎo)隨機采樣的逼真3D人體動畫
摘要:當前的3D人體動畫方法難以實現(xiàn)逼真效果:基于運動學(xué)的方法缺乏非剛性動力學(xué)(如服裝動力學(xué)),而利用視頻擴散先驗的方法雖然可以合成非剛性運動,但存在質(zhì)量瑕疵和身份丟失的問題。為克服這些局限性,我們提出了Ani3DHuman框架,該框架將基于運動學(xué)的動畫與視頻擴散先驗相結(jié)合。我們首先引入了一種分層運動表示,將剛性運動與殘余非剛性運動分離。剛性運動由運動學(xué)方法生成,然后生成粗渲染結(jié)果,以引導(dǎo)視頻擴散模型生成恢復(fù)殘余非剛性運動的視頻序列。然而,基于擴散采樣的這種恢復(fù)任務(wù)極具挑戰(zhàn)性,因為初始渲染結(jié)果屬于分布外數(shù)據(jù),導(dǎo)致標準的確定性O(shè)DE采樣器失效。因此,我們提出了一種新穎的自引導(dǎo)隨機采樣方法,該方法通過將隨機采樣(用于實現(xiàn)逼真質(zhì)量)與自引導(dǎo)(用于保證身份保真度)相結(jié)合,有效解決了分布外問題。這些恢復(fù)后的視頻提供了高質(zhì)量的監(jiān)督信息,從而能夠?qū)堄喾莿傂赃\動場進行優(yōu)化。大量實驗表明,Ani3DHuman能夠生成逼真的3D人體動畫,優(yōu)于現(xiàn)有方法。代碼可在github.com/qiisun/ani3d獲取。

[27] L3DR: 3D-aware LiDAR Diffusion and RectificationL3DR:3D感知的激光雷達擴散與校正
摘要:基于距離視圖(Range-view,RV)的激光雷達擴散技術(shù)最近在2D照片級真實感方面取得了巨大進展。然而,它忽略了3D幾何的真實感,并且常常會產(chǎn)生各種RV偽影,如深度滲色和波浪狀表面。我們設(shè)計了L3DR,這是一個3D感知的激光雷達擴散與校正框架,它可以在3D空間中回歸并消除RV偽影,準確恢復(fù)局部幾何結(jié)構(gòu)。我們的理論和實證分析表明,3D模型在生成清晰、真實的邊界方面本質(zhì)上優(yōu)于2D模型?;谶@樣的分析,我們設(shè)計了一個3D殘差回歸網(wǎng)絡(luò),通過預(yù)測3D空間中的點級偏移來校正RV偽影,并實現(xiàn)卓越的幾何真實感。此外,我們設(shè)計了一種韋爾什損失(Welsch Loss),它有助于聚焦局部幾何結(jié)構(gòu),并有效忽略異常區(qū)域。在包括KITTI、KITTI360、nuScenes和Waymo在內(nèi)的多個基準數(shù)據(jù)集上進行的大量實驗表明,所提出的L3DR在生成效果和幾何真實感方面始終達到了最先進水平。此外,L3DR通常適用于不同的激光雷達擴散模型,且計算開銷很小。

[28] Direction-aware 3D Large Multimodal Models方向感知的3D大多模態(tài)模型
摘要:3D大多模態(tài)模型(3D LMMs)嚴重依賴自我姿態(tài)(ego poses)來實現(xiàn)定向問答和空間推理。然而,大多數(shù)現(xiàn)有的點云基準測試包含豐富的定向查詢,但缺乏相應(yīng)的自我姿態(tài),這使得它們在3D大多模態(tài)建模中本質(zhì)上是不適定的。在這項工作中,我們重新定義了一個新的嚴格范式,通過識別自我姿態(tài)并將其補充到點云基準測試中,并根據(jù)識別出的自我姿態(tài)轉(zhuǎn)換相應(yīng)的點云數(shù)據(jù),從而實現(xiàn)方向感知的3D LMMs。我們通過兩種新穎的設(shè)計實現(xiàn)了方向感知的3D LMMs。第一種是PoseRecover,這是一個全自動的姿態(tài)恢復(fù)管道,它通過對象 - 視錐體相交和使用Z緩沖器進行可見性檢查,將問題與RGB - D視頻外參中的自我姿態(tài)相匹配。第二種是PoseAlign,它將點云數(shù)據(jù)進行轉(zhuǎn)換以與識別出的自我姿態(tài)對齊,而不是將自我姿態(tài)注入文本提示或在投影層中引入姿態(tài)編碼特征。大量實驗表明,我們的設(shè)計在多個3D LMM骨干網(wǎng)絡(luò)(如LL3DA、LL3DA - SONATA、Chat - Scene和3D - LLAVA)上都產(chǎn)生了一致的改進,將ScanRefer的平均交并比(mIoU)提高了30.0%,將Scan2Cap的大語言模型評判準確率提高了11.7%。此外,我們的方法簡單、通用且訓(xùn)練效率高,只需要進行指令微調(diào),同時為方向感知的3D - LMMs建立了一個強大的基線。

[29] TeFlow: Enabling Multi-frame Supervision for Self-Supervised Feed-forward Scene Flow EstimationTeFlow:為自監(jiān)督前饋場景流估計啟用多幀監(jiān)督
摘要:用于場景流估計的自監(jiān)督前饋方法具有實時效率,但它們基于兩幀點對應(yīng)關(guān)系的監(jiān)督不可靠,并且在遮擋情況下往往會失效。多幀監(jiān)督有可能通過整合過去幀的運動線索來提供更穩(wěn)定的指導(dǎo),然而,簡單地擴展兩幀目標是無效的,因為點對應(yīng)關(guān)系在各幀之間會突然變化,產(chǎn)生不一致的信號。在本文中,我們提出了TeFlow,通過挖掘時間上一致的監(jiān)督來為前饋模型啟用多幀監(jiān)督。TeFlow引入了一種時間集成策略,通過從跨多幀構(gòu)建的候選池中聚合時間上最一致的運動線索來形成可靠的監(jiān)督信號。大量評估表明,TeFlow為自監(jiān)督前饋方法樹立了新的技術(shù)水平,在具有挑戰(zhàn)性的Argoverse 2和nuScenes數(shù)據(jù)集上實現(xiàn)了高達33%的性能提升。我們的方法與領(lǐng)先的基于優(yōu)化的方法表現(xiàn)相當,但速度提高了150倍。代碼與訓(xùn)練好的模型權(quán)重一起在github.com/KTH-RPL/Open上開源。

[30] OpenVO: Open-World Visual Odometry with Temporal Dynamics AwarenessOpenVO:具有時間動態(tài)感知的開放世界視覺里程計
摘要:我們提出了OpenVO,這是一個在有限輸入條件下具有時間感知的開放世界視覺里程計(VO)的新穎框架。OpenVO能夠從具有不同觀測速率和未校準相機的單目行車記錄儀視頻中有效地估計真實世界尺度的自我運動,從而能夠從行車記錄儀記錄的罕見駕駛事件中構(gòu)建穩(wěn)健的軌跡數(shù)據(jù)集?,F(xiàn)有的VO方法是在固定的觀測頻率(例如10Hz或12Hz)上進行訓(xùn)練的,完全忽略了時間動態(tài)信息。許多先前的方法還需要具有已知內(nèi)參的校準相機。因此,當(1)在未見過的觀測頻率下部署時,或者(2)應(yīng)用于未校準的相機時,它們的性能會下降。這些顯著限制了它們在許多下游任務(wù)中的通用性,例如從行車記錄儀視頻中提取軌跡。為了解決這些挑戰(zhàn),OpenVO(1)在兩幀位姿回歸框架中顯式地編碼時間動態(tài)信息,并且(2)利用從基礎(chǔ)模型中導(dǎo)出的3D幾何先驗。我們在三個主要的自動駕駛基準測試——KITTI、nuScenes和Argoverse 2上驗證了我們的方法,比最先進的方法實現(xiàn)了超過20%的性能提升。在不同的觀測速率設(shè)置下,我們的方法顯著更穩(wěn)健,在所有指標上的誤差降低了46% - 92%。這些結(jié)果證明了OpenVO在現(xiàn)實世界3D重建和各種下游應(yīng)用中的通用性。

[31] Marginalized Bundle Adjustment: Multi-View Camera Pose from Monocular Depth Estimates邊緣化束調(diào)整:基于單目深度估計的多視圖相機位姿
摘要:運動恢復(fù)結(jié)構(gòu)(Structure-from-Motion, SfM)是一項基礎(chǔ)的3D視覺任務(wù),用于從多視圖圖像中恢復(fù)相機參數(shù)和場景幾何信息。盡管近期深度學(xué)習(xí)的進展使得無需依賴相機運動就能從單張圖像中進行準確的單目深度估計(Monocular Depth Estimation, MDE),但將MDE集成到SfM中仍然是一個挑戰(zhàn)。與傳統(tǒng)的三角測量稀疏點云不同,MDE生成的密集深度圖具有顯著更高的誤差方差。受現(xiàn)代隨機抽樣一致性(RANSAC)估計器的啟發(fā),我們提出了邊緣化束調(diào)整(Marginalized Bundle Adjustment, MBA)方法,以利用其密度來降低MDE的誤差方差。通過MBA,我們證明了MDE深度圖足夠準確,能夠在SfM和相機重定位任務(wù)中取得最先進(SoTA)或具有競爭力的結(jié)果。通過廣泛的評估,我們展示了該方法在不同規(guī)模下的一致魯棒性能,從少幀設(shè)置到包含數(shù)千張圖像的大型多視圖系統(tǒng)。我們的方法凸顯了MDE在多視圖3D視覺中的巨大潛力。

[32] PhysConvex: Physics-Informed 3D Dynamic Convex Radiance Fields for Reconstruction and SimulationPhysConvex:用于重建和模擬的物理感知3D動態(tài)凸輻射場
摘要:以視覺真實感和物理一致性對動態(tài)3D場景進行重建和模擬仍然是一個根本性的挑戰(zhàn)。現(xiàn)有的神經(jīng)表示方法,如NeRF和3DGS,在外觀重建方面表現(xiàn)出色,但在捕捉復(fù)雜的材料變形和動力學(xué)方面存在困難。我們提出了PhysConvex,一種物理感知的3D動態(tài)凸輻射場,它將視覺渲染和物理模擬統(tǒng)一起來。PhysConvex使用由連續(xù)介質(zhì)力學(xué)支配的基于物理的凸基元來表示可變形輻射場。我們引入了一種邊界驅(qū)動的動態(tài)凸表示,通過頂點和表面動力學(xué)對變形進行建模,捕捉空間自適應(yīng)、非均勻變形和不斷演變的邊界。為了有效地模擬復(fù)雜的幾何形狀和異質(zhì)材料,我們進一步開發(fā)了一種降階凸模擬方法,該方法使用神經(jīng)蒙皮特征模式作為形狀和材料感知的變形基,在牛頓動力學(xué)下以隨時間變化的降階自由度對動態(tài)凸場進行平流。凸動力學(xué)還提供了緊湊、無間隙的體積覆蓋,提高了幾何效率和模擬保真度。實驗表明,PhysConvex能夠從視頻中實現(xiàn)對幾何形狀、外觀和物理屬性的高保真重建,優(yōu)于現(xiàn)有方法。

[33] SceneTok: A Compressed, Diffusable Token Space for 3D ScenesSceneTok:用于3D場景的壓縮、可擴散令牌空間
摘要:我們提出了SceneTok,這是一種新穎的分詞器,用于將場景的視圖集編碼為一組壓縮且可擴散的非結(jié)構(gòu)化令牌?,F(xiàn)有的3D場景表示和生成方法通常使用3D數(shù)據(jù)結(jié)構(gòu)或視圖對齊的場。相比之下,我們引入了第一種將場景信息編碼為一組小的、與空間網(wǎng)格解耦的排列不變令牌的方法。場景令牌由多視圖分詞器根據(jù)許多上下文視圖進行預(yù)測,并通過使用輕量級整流流解碼器渲染成新視圖。我們表明,與其他表示相比,這種壓縮強度高出1 - 3個數(shù)量級,同時仍能達到最先進的重建質(zhì)量。此外,我們的表示可以從新的軌跡(包括偏離輸入軌跡的軌跡)進行渲染,并且我們證明解碼器能夠很好地處理不確定性。最后,高度壓縮的非結(jié)構(gòu)化潛在場景令牌集能夠在5秒內(nèi)實現(xiàn)簡單高效的場景生成,比以前的范式實現(xiàn)了更好的質(zhì)量 - 速度權(quán)衡。

[34] BiMotion: B-spline Motion for Text-guided Dynamic 3D Character GenerationBiMotion:用于文本引導(dǎo)的動態(tài)3D角色生成的B樣條運動
摘要:文本引導(dǎo)的動態(tài)3D角色生成取得了快速進展,但生成能夠忠實反映豐富文本描述的高質(zhì)量運動仍然具有挑戰(zhàn)性?,F(xiàn)有方法由于固定長度的時間輸入和離散的逐幀表示無法捕捉豐富的運動語義,往往會生成有限的子動作或不連貫的運動。我們通過使用連續(xù)可微的B樣條曲線來表示運動,在不修改底層生成模型能力的情況下,實現(xiàn)更有效的運動生成,從而解決了這些局限性。具體而言,我們的閉式拉普拉斯正則化B樣條求解器能夠?qū)⒖勺冮L度的運動序列高效壓縮為具有固定數(shù)量控制點的緊湊表示。此外,我們引入了一種法線融合策略以確保輸入形狀的貼合,并使用對應(yīng)感知和局部剛性損失來提高運動恢復(fù)質(zhì)量。為了訓(xùn)練我們的模型,我們整理了BIMO,這是一個新的數(shù)據(jù)集,包含多樣化的可變長度3D運動序列以及豐富、高質(zhì)量的文本注釋。大量評估表明,我們的前饋框架BiMotion比現(xiàn)有的最先進方法生成更具表現(xiàn)力、更高質(zhì)量且更符合提示的運動,同時實現(xiàn)更快的生成速度。我們的項目頁面地址為:wangmiaowei.github.io/B。

[35] Enhancing 3D LiDAR Segmentation by Shaping Dense and Accurate 2D Semantic Predictions通過塑造密集且準確的二維語義預(yù)測來增強三維激光雷達分割
摘要:三維激光雷達點云的語義分割在城市遙感中對于理解現(xiàn)實世界的街道環(huán)境至關(guān)重要。通過將激光雷達點云和三維語義標簽投影為稀疏地圖,這項任務(wù)可以重新表述為一個二維問題。然而,投影后的激光雷達和標簽地圖的固有稀疏性可能導(dǎo)致中間二維語義預(yù)測稀疏且不準確,進而限制了最終的三維精度。為了解決這個問題,我們通過塑造密集且準確的二維預(yù)測來增強這項任務(wù)。具體而言,我們開發(fā)了一個多模態(tài)分割模型MM2D3D。通過利用相機圖像作為輔助數(shù)據(jù),我們引入了跨模態(tài)引導(dǎo)濾波,通過用從相機圖像中導(dǎo)出的密集語義關(guān)系來約束中間二維語義預(yù)測,以克服標簽地圖的稀疏性;并且我們引入了動態(tài)交叉?zhèn)伪O(jiān)督,通過鼓勵二維預(yù)測模仿相機圖像的語義預(yù)測的密集分布,來克服激光雷達地圖的稀疏性。實驗表明,我們的技術(shù)使我們的模型能夠?qū)崿F(xiàn)具有密集分布和更高精度的中間二維語義預(yù)測,從而有效地提高了最終的三維精度。與先前方法的比較表明,我們在二維和三維空間中都具有更優(yōu)越的性能。

[36] LaS-Comp: Zero-shot 3D Completion with Latent-Spatial ConsistencyLaS-Comp:基于潛在空間一致性的零樣本3D補全
摘要:本文介紹了LaS-Comp,這是一種零樣本且與類別無關(guān)的方法,它利用3D基礎(chǔ)模型豐富的幾何先驗知識,實現(xiàn)跨多種類型部分觀測的3D形狀補全。我們的貢獻主要有三點:首先,LaS-Comp通過互補的兩階段設(shè)計利用這些強大的生成先驗進行補全:(i)顯式替換階段,保留部分觀測的幾何形狀,以確保補全的準確性;(ii)隱式細化階段,確保觀測區(qū)域和合成區(qū)域之間的邊界無縫銜接。其次,我們的框架無需訓(xùn)練,并且與不同的3D基礎(chǔ)模型兼容。第三,我們引入了Omni-Comp,這是一個綜合基準,結(jié)合了真實世界和合成數(shù)據(jù),具有多樣且具有挑戰(zhàn)性的部分模式,能夠進行更全面、更真實的評估。定量和定性實驗均表明,我們的方法優(yōu)于先前的最先進方法。我們的代碼和數(shù)據(jù)將在[LaS-Comp](github.com/DavidYan2001)上公開。

[37] WiCompass: Oracle-driven Data Scaling for mmWave Human Pose EstimationWiCompass:用于毫米波人體姿態(tài)估計的神諭驅(qū)動數(shù)據(jù)擴展方法
摘要:毫米波人體姿態(tài)估計(mmWave HPE)在保護隱私方面具有優(yōu)勢,但在分布偏移情況下泛化能力較差。我們證明,簡單粗暴的數(shù)據(jù)擴展方法對于分布外(OOD)魯棒性而言效果不佳;效率和覆蓋范圍才是真正的瓶頸。為解決這一問題,我們引入了WiCompass,這是一個具有覆蓋感知能力的數(shù)據(jù)收集框架。WiCompass利用大規(guī)模的動作捕捉語料庫構(gòu)建了一個通用的姿態(tài)空間“神諭”,該神諭可以量化數(shù)據(jù)集的冗余度并識別出代表性不足的動作。在這個神諭的引導(dǎo)下,WiCompass采用閉環(huán)策略來優(yōu)先收集有信息價值的缺失樣本。實驗表明,在相同的預(yù)算下,WiCompass能夠持續(xù)提高OOD準確率,并且與傳統(tǒng)的收集策略相比,表現(xiàn)出更優(yōu)的擴展性能。通過將關(guān)注點從簡單的數(shù)據(jù)擴展轉(zhuǎn)移到具有覆蓋感知能力的數(shù)據(jù)采集上,這項工作為實現(xiàn)穩(wěn)健的毫米波傳感提供了一條切實可行的途徑。

[38] Depth from Defocus via Direct Optimization通過直接優(yōu)化實現(xiàn)散焦測距
摘要:盡管基于光學(xué)物理存在合理的模糊正向模型,但從一組散焦圖像中恢復(fù)深度仍然是一個計算上具有挑戰(zhàn)性的優(yōu)化問題。在本文中,我們表明,利用當代優(yōu)化方法和合理的計算資源,散焦測距的全局優(yōu)化方法是可行的。我們的方法基于交替最小化。當固定深度圖時,正向模型相對于全聚焦圖像是線性的。當固定全聚焦圖像時,每個像素的深度可以獨立計算,從而實現(xiàn)高度并行計算。我們表明,在凸優(yōu)化和并行網(wǎng)格搜索之間交替進行,可以比當前的深度學(xué)習(xí)方法更有效地解決更高分辨率下的散焦測距問題。我們在具有合成和真實散焦模糊的基準數(shù)據(jù)集上展示了我們的方法,并與先前的方法相比取得了有前景的結(jié)果。我們的代碼可在github.com/hollyjackson獲取。

[39] Scaling Ultrasound Volumetric Reconstruction via Mobile Augmented Reality通過移動增強現(xiàn)實擴展超聲容積重建
摘要:病變的準確容積表征對于腫瘤診斷、風(fēng)險分層和治療規(guī)劃至關(guān)重要。雖然計算機斷層掃描(Computed Tomography)等成像方式可提供高質(zhì)量的3D數(shù)據(jù),但由于成本、便攜性和安全性等因素,二維超聲(2D-US)仍然是乳腺和甲狀腺成像的首選一線檢查方式。然而,即使是經(jīng)驗豐富的臨床醫(yī)生,通過2D-US得出的體積估計也存在較高的用戶間差異?,F(xiàn)有的三維超聲(3D-US)解決方案使用專門的探頭或外部跟蹤硬件,但這種配置增加了成本并降低了便攜性,限制了其在臨床上的廣泛應(yīng)用。為解決這些局限性,我們提出了移動增強現(xiàn)實容積超聲(Mobile Augmented Reality Volumetric Ultrasound,MARVUS),這是一個資源高效的系統(tǒng),旨在提高準確且可重復(fù)的容積評估的可及性。MARVUS可與傳統(tǒng)超聲(US)系統(tǒng)互操作,使用基礎(chǔ)模型來增強跨專業(yè)的泛化能力,同時相對于當前的3D-US解決方案,將硬件要求降至最低。在一項由經(jīng)驗豐富的臨床醫(yī)生對乳腺模型進行測量的用戶研究中,MARVUS在體積估計準確性方面有顯著提高(平均差異:0.469 cm3),并降低了用戶間差異(平均差異:0.417 cm3)。此外,我們證明了增強現(xiàn)實(AR)可視化可提高客觀性能指標和臨床醫(yī)生報告的易用性。總體而言,我們的研究結(jié)果表明,MARVUS可以以可擴展、經(jīng)濟且資源高效的方式改善基于超聲的癌癥篩查、診斷流程和治療規(guī)劃。使用視頻演示可在(youtu.be/m4llYcZpqmM)查看。

[40] Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization通過物理感知的聯(lián)合形狀和姿態(tài)優(yōu)化實現(xiàn)適用于仿真的雜亂場景估計
摘要:從現(xiàn)實世界的觀測中估計適用于仿真的場景對于下游的規(guī)劃和策略學(xué)習(xí)任務(wù)至關(guān)重要。遺憾的是,現(xiàn)有方法在雜亂環(huán)境中表現(xiàn)不佳,通常存在計算成本過高、魯棒性差以及在擴展到多個相互作用對象時通用性受限等問題。我們提出了一種基于統(tǒng)一優(yōu)化的真實到仿真場景估計公式,該公式在物理約束下聯(lián)合恢復(fù)多個剛體的形狀和姿態(tài)。我們的方法基于兩項關(guān)鍵技術(shù)創(chuàng)新。首先,我們利用最近引入的形狀可微接觸模型,其全局可微性允許在建模對象間接觸的同時對對象幾何形狀和姿態(tài)進行聯(lián)合優(yōu)化。其次,我們利用增廣拉格朗日 Hessian 矩陣的結(jié)構(gòu)稀疏性,推導(dǎo)出一種高效的線性系統(tǒng)求解器,其計算成本隨場景復(fù)雜度的增加而有良好的擴展性。基于此公式,我們開發(fā)了一個端到端的真實到仿真場景估計管道,該管道集成了基于學(xué)習(xí)的對象初始化、受物理約束的聯(lián)合形狀 - 姿態(tài)優(yōu)化以及可微紋理細化。在包含多達 5 個對象和 22 個凸包的雜亂場景上進行的實驗表明,我們的方法能夠穩(wěn)健地重建出符合物理規(guī)律、適用于仿真的對象形狀和姿態(tài)。

[41] Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains用于圖像派生域幾何感知離散化的結(jié)構(gòu)化位圖到網(wǎng)格三角剖分
摘要:我們提出了一種模板驅(qū)動的三角剖分框架,該框架將光柵或分割派生的邊界嵌入到規(guī)則三角網(wǎng)格中,以便在圖像派生域上進行穩(wěn)定的偏微分方程(PDE)離散化。與可能觸發(fā)全局連通性更新的約束Delaunay三角剖分(CDT)不同,我們的方法僅對與邊界相交的三角形進行重新三角剖分,保留基礎(chǔ)網(wǎng)格,并支持無同步的并行執(zhí)行。為確保確定性和可擴展性,我們根據(jù)離散等價性和三角形對稱性對所有局部邊界相交配置進行分類,得到一個有限的符號查找表,該表將每種情況映射到一個無沖突的重新三角剖分模板。我們證明了所得網(wǎng)格是封閉的,具有有界角度,并且與基于余切的離散化和標準有限元方法兼容。在橢圓和拋物型PDE、信號插值和結(jié)構(gòu)度量方面的實驗表明,在復(fù)雜邊界附近,該方法產(chǎn)生的狹長元素更少,三角形更規(guī)則,并且?guī)缀伪U娑雀?。該框架非常適合在圖像派生域上進行實時幾何分析和基于物理的模擬。

[42] Compact Hadamard Latent Codes for Efficient Spectral Rendering用于高效光譜渲染的緊湊哈達瑪潛在代碼
摘要:光譜渲染能夠準確再現(xiàn)與波長相關(guān)的外觀,但計算成本高昂,因為必須在許多波長樣本上進行著色評估,并且計算量大致與樣本數(shù)量呈線性關(guān)系。此外,整個渲染流程都需要光譜紋理和光源。我們提出了哈達瑪光譜代碼,這是一種緊湊的潛在表示,它允許使用標準的RGB渲染操作進行光譜渲染。光譜圖像通過少量的RGB渲染通道進行近似,隨后進行解碼步驟。我們的關(guān)鍵要求是潛在線性:光譜空間中的縮放和加法對應(yīng)于代碼的縮放和加法,并且光譜的逐元素乘積(例如反射率乘以光照)可以通過它們潛在代碼的逐元素乘積來近似。我們表明,當潛在維度k小于光譜樣本數(shù)量n時,對于任意光譜,不存在精確的低維代數(shù)保持表示。因此,我們引入了一種學(xué)習(xí)到的非負線性編碼器和解碼器架構(gòu),該架構(gòu)能精確保持縮放和加法,同時鼓勵在哈達瑪積下實現(xiàn)近似乘法性。當k = 6時,我們使用未修改的RGB渲染器每幀渲染k/3 = 2張RGB圖像,重建潛在圖像,并解碼為高分辨率光譜或XYZ或RGB。對3D場景的實驗表明,與RGB基線相比,k = 6顯著降低了顏色誤差,同時比樸素的n樣本光譜渲染快得多。使用k = 9可提供更高質(zhì)量的參考結(jié)果。我們進一步引入了一種輕量級的神經(jīng)上采樣網(wǎng)絡(luò),它可以將RGB資產(chǎn)直接映射到潛在代碼,從而使傳統(tǒng)RGB內(nèi)容能夠集成到光譜流程中,同時在渲染圖像中保持感知上準確的顏色。



  業(yè)務(wù)實施流程

需求調(diào)研 →

團隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生