懂3D的語言模型來了!UCLA、上交、MIT等聯合提出3D-LLM:性能大漲9%

0 評論 6681 瀏覽 4 收藏 12 分鐘

就在最近,有研究人員提出了全新的3D-LLM任務,即將3D世界的知識注入到大型語言模型中,進而執行相關任務。具體如何理解這個“懂3D”的大語言模型?研究人員又是如何訓練3D-LLM的?一起來看看本文的解讀。

大型語言模型(LLM)和視覺語言模型(VLM)在各種評測基準中都展現出了強大的性能,比如可以看圖說話、進行常識推理。

但這些模型的訓練過程并沒有引入3D物理世界,也就無法理解更豐富的現實概念,包括空間關系、布局、物體反饋等。

最近,加州大學洛杉磯分校、上海交大、華南理工大學、麻省理工學院等機構的研究人員聯合提出了一個全新的3D-LLM任務,把3D世界的知識注入到大型語言模型中,以3D點云及其特征作為輸入,從而可以執行各種3D相關的任務,包括描述生成、3D問題回答、任務分解、3D輔助對話、導航等。

懂3D的語言模型來了!UCLA、上交、MIT等聯合提出3D-LLM:性能大漲9%

論文鏈接:https://arxiv.org/pdf/2307.12981.pdf

基于這個思路,研究人員設計了三種類型的提示機制,收集了超過30萬的3D語言數據來支持上述任務。

為了有效地訓練3D-LLM,首先使用從渲染的多視圖圖像獲得3D特征的3D特征提取器,再用2D VLMs作為模型的骨干來訓練3D-LLM網絡;通過引入3D定位機制,3D-LLM可以更好地捕獲3D空間信息。

在ScanQA上的實驗結果表明,該模型顯著優于最先進的基線模型,例如,BLEU-1指標上的性能提升達到9%。

懂3D的語言模型來了!UCLA、上交、MIT等聯合提出3D-LLM:性能大漲9%

此外,在3D描述生成、3D輔助對話等數據集上的實驗表明,該模型優于2D VLMs。

定性結果也表明,該模型可以執行超出現有的LLM和VLM能力范圍的一些任務。

三維語言數據生成:

從互聯網上可以輕松獲取海量的二維圖像和相應文本的數據對,不過三維多模態數據的獲取卻非常困難,網絡上的三維資產非常稀缺,而且提供文本標注也更有挑戰。

現有的三維語言數據,如ScanQA、ScanRefer等在數量和多樣性方面都很有限,而且每個數據集都僅限于一項任務,如何自動生成一個可用于各種三維相關任務的三維語言數據集非常值得深入研究。

受GPT等大型語言模型的啟發,研究人員提出利用此類模型來收集3D語言數據。

懂3D的語言模型來了!UCLA、上交、MIT等聯合提出3D-LLM:性能大漲9%

具體來說,主要有三種方法來提示純文本GPT模型來生成數據:

1. 基于boxes-demonstration-instruction的提示。

輸入三維場景中房間和物體的軸對齊包圍框(AABB),提供場景的語義和空間位置信息,然后向GPT模型提供具體指令,以生成多樣化的數據。

研究人員給GPT模型提供0-3個少樣本演示示例,用來指示生成的數據類型。

2. 基于ChatCaptioner的提示。

使用ChatGPT輸入提示詢問一系列關于圖像的有信息量的問題(informative questions),然后用BLIP-2模型回答這些問題。

為了收集三維相關數據,研究人員將不同視角的圖像輸入 BLIP-2,然后要求ChatGPT提問并收集不同區域的信息,從而形成整個場景的全局三維描述。

3. 基于revision的提示,可用于將一種三維數據遷移到到另一種類型的三維數據。

經過上述流程,GPT能夠生成各種類型的三維語言數據,主要基于下列三維資產:

  1. Objaverse,包含80萬個三維物體,不過由于語言描述是從在線資源中提取的,未經人工檢查,因此大多數對象的描述都包括大量噪聲,比如網址等,或是無法生成描述。研究人員利用基于 ChatCaptioner 的提示功能為場景生成高質量的 3D 相關描述。
  2. Scannet,包含約1000個3D室內場景的富標注數據集,提供了場景中物體的語義和邊界框。-
  3. Habitat-Matterport (HM3D) ,具身人工智能(embodied AI)的三維環境數據集。HM3DSem為HM3D的200多個場景進一步添加了語義注釋和邊界框。

一、3D-LLM

懂3D的語言模型來了!UCLA、上交、MIT等聯合提出3D-LLM:性能大漲9%

1. 3D特征抽取器

訓練3D-LLM的第一步是建立有意義的3D特征,使之可以與語言特征相匹配,但由于缺乏大規模三維資產數據集,所以無法采用預訓練的方式學習表征。

受到從二維多視角圖像中提取三維特征的方法啟發,研究人員提出通過渲染多個不同視角的三維場景來提取三維點的特征,并從渲染的圖像特征中構建三維特征。

首先提取渲染圖像的像素對齊密集特征,然后針對不同類型的三維數據,設計了三種方法從渲染圖像特征中構建三維特征:

1)直接重建(direct reconstruction)

基于3D數據,使用真實相機矩陣,直接從三維數據渲染的rgbd圖像中重建點云,將特征直接映射到重建的三維點。

這種方法適用于具有完美相機姿勢和內在特征的 rgbd 渲染數據。

2)特征融合(feature fusion)

使用gradslam將二維特征融合到三維映射中,與稠密映射方法不同的是,除了深度和顏色之外,模型還融合了其他特征。

這種方法適用于具有噪聲深度圖渲染或噪聲相機姿勢和內在特征的三維數據。

3)神經場(neural field)

利用神經voxel場構建三維緊湊表征,具體來說,除了密度和顏色外,神經場中的每個voxel都有一個特征,可以利用 MSE 損失對射線中的三維特征和像素中的二維特征進行對齊。

這種方法適用于有 RGB 渲染但無深度數據的三維數據,以及有噪聲的相機姿態和本征。

2. 訓練3D-LLMs

考慮到使用三維特征提取器可以將三維特征映射到與二維圖像相同的特征空間,因此使用這些二維視覺語言模型作為3D-LLM的骨干是合理的。

鑒于三維特征與三維特征抽取器提取的二維特征處于相同的特征空間,而且感知器能夠處理相同特征維度的任意輸入大小,因此任意大小的點云特征也可以輸入到感知機中。

因此,研究人員使用三維特征提取器在與凍結圖像編碼器特征相同的特征空間中提取三維特征,然后使用預訓練二維視覺語言模型作為骨干網絡,輸入對齊的三維特征和收集的3D語言數據集來訓練3D語言模型。

3. 3D定位機制

除了建立與語言語義相匹配的三維特征外,捕捉三維空間信息也至關重要。

研究人員提出了一種三維定位機制,以提高三維LLMs吸收空間信息的能力。

該機制由兩部分組成:

  1. 用位置嵌入增強三維特征,將所有嵌入串聯起來作為最終特征;
  2. 將三維位置放入嵌入詞匯表,用AABB的形式表示邊界框,連續角坐標被統一離散為voxel整數,在語言模型的輸入和輸出嵌入中解凍這些token的權重。

二、實驗部分

從ScanQA驗證集和測試集的實驗結果中可以看到,幾乎所有的評估指標都得到了明顯提升。

懂3D的語言模型來了!UCLA、上交、MIT等聯合提出3D-LLM:性能大漲9%

懂3D的語言模型來了!UCLA、上交、MIT等聯合提出3D-LLM:性能大漲9%

例如,對于BLEU-1指標,該模型在驗證集上比最先進的ScanQA模型高出約9%,在測試集上高出約7%。

這些結果表明,通過將3D注入LLM,模型生成的答案與真實答案更為相似。

此外,基于3D的基線使用對象檢測器(如 VoteNet)來分割對象,然后將每個對象的特征發送到它們的模型中,而文中提出的模型輸入是整體3D特征,沒有顯式的對象表征。

結果表明,即使沒有明確的對象表征,該模型也能對物體及其關系進行視覺推理。

還可以發現,以單視角圖像或多視角圖像作為輸入,二維VLM的性能會比三維VLM下降很多,也就是說多視角圖像也包含整個場景的信息,但與3D-LLM相比,3D VLM的性能仍然要低得多,可能是因為多視角圖像的特征是無序的,從而丟失了與3D有關的信息。

參考資料:

https://arxiv.org/pdf/2307.12981.pdf

編輯:LRS

來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯網+”邁向“智能+”。

本文由人人都是產品經理合作媒體 @新智元 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!