一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型( 二 )


Point-E架構與運行機制

Point-E模型首先使用文本到圖像的擴散模型生成一個單一的合成視圖,然后使用第二個擴散模型生成一個三維點云,該模型以生成的圖像為條件 。
雖然該方法在采樣質量方面仍未達到最先進的水平,但它的采樣速度要快一到兩個數量級,為一些使用情況提供了實際的權衡 。

下圖是該模型的一個high-level的pipeline示意圖:

一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖


我們不是訓練單個生成模型,直接生成以文本為條件的點云,而是將生成過程分為三個步驟 。
首先,生成一個以文本標題為條件的綜合視圖 。
接下來,生成?個基于合成視圖的粗略點云(1,024 個點)。
最后,生成了?個以低分辨率點云和合成視圖為條件的精細點云(4,096 個點) 。
在數百萬個3D模型上訓練模型后,我們發現數據集的數據格式和質量差異很大,這促使我們開發各種后處理步驟,以確保更高的數據質量 。
為了將所有的數據轉換為?種通用格式,我們使用Blender從20個隨機攝像機角度,將每個3D模型渲染為RGBAD圖像(Blender支持多種3D格式,并帶有優化的渲染引擎) 。
對于每個模型,Blender腳本都將模型標準化為邊界立方體,配置標準照明設置,最后使用Blender的內置實時渲染引擎,導出RGBAD圖像 。
然后,使用渲染將每個對象轉換為彩色點云 。首先,通過計算每個RGBAD圖像中每個像素的點,來為每個對象構建?個密集點云 。這些點云通常包含數十萬個不均勻分布的點,因此我們還使用最遠點采樣,來創建均勻的4K點云 。
通過直接從渲染構建點云,我們能夠避免直接從3D網格中采樣可能出現的各種問題,對模型中包含的點進行取樣 , 或處理以不尋常的文件格式存儲的三維模型 。
最后 , 我們采用各種啟發式方法 , 來減少數據集中低質量模型的頻率 。
首先,我們通過計算每個點云的SVD來消除平面對象,只保留那些最小奇異值高于某個閾值的對象 。
接下來,我們通過CLIP特征對數據集進行聚類(對于每個對象,我們對所有渲染的特征進行平均) 。
一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖


我們發現,一些集群包含許多低質量的模型類別,而其他集群則顯得更加多樣化或可解釋 。
我們將這些集群分到幾個不同質量的bucket中,并使用所得bucket的加權混合作為我們的最終數據集 。
一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖


應用前景

OpenAI 研究人員指出 , Point-E的點云還可用于制造真實世界的物體 , 比如3D打印 。
通過額外的網格轉換模型,該系統還可以進入游戲和動畫開發工作流程 。
雖然目前的目光都集中在2D藝術生成器上,但模型合成人工智能可能是下一個重大的行業顛覆者 。
3D模型廣泛應用于影視、室內設計、建筑和各種科學領域 。
一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖


當下3D模型的制造耗時通常需要幾個小時,而Point-E的出現恰恰彌補了這一缺點 。
研究人員表示現階段Point-E還存在許多缺陷 , 如從訓練數據中繼承的偏差以及對于可能用于創建危險物體的模型缺乏保護措施 。
Point-E只是個起點 , 他們希望它能激發文本到3D合成領域的「進一步工作」 。
參考資料:
https://techcrunch.com/2022/12/20/openai-releases-point-e-an-ai-that-generates-3d-models/?tpcc=tcplustwitter

相關經驗推薦