一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型


一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖

一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖

一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖


新智元報道
編輯:Joey Aeneas
【新智元導讀】文本除了生成圖像、視頻,還有3D模型!OpenAI最新發布的POINT-E , 輸入Prompt一分鐘內便可生成3D模型 。
席卷AI世界的下一個突破在哪里?
很多人預測,是3D模型生成器 。
繼年初推出的DALL-E 2用天才畫筆驚艷所有人之后,周二OpenAI發布了最新的圖像生成模型「POINT-E」 , 它可通過文本直接生成3D模型 。
一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖


論文鏈接:https://arxiv.org/pdf/2212.08751.pdf
相比競爭對手們(如谷歌的DreamFusion)需要幾個GPU工作數個小時,POINT-E只需單個GPU便可在幾分鐘內生成3D圖像 。
經小編實戰測試,Prompt輸入后POINT-E基本可以秒出3D圖像,此外輸出圖像還支持自定義編輯、保存等功能 。
一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖


地址:https://huggingface.co/spaces/openai/point-e
網友也開始嘗試不同的prompt輸入 。
一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖


但輸出的結果并不都令人滿意 。
一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖


還有網友表示,POINT-E或許可以實現Meta的元宇宙愿景?
一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖


需要注意的是,POINT-E是通過點云(point cloud),也就是空間中點的數據集來生成3D圖像 。
一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖


簡單來說,就是通過三維模型進行數據采集獲取空間中代表3D形狀的點云數據 。
一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖


從計算的角度來看,點云更容易合成,但它們無法捕獲對象的細膩形狀或紋理 , 這是目前Point-E的一個短板 。
為解決這個限制,Point-E團隊訓練了一個額外的人工智能系統來將Point-E 的點云轉換為網格 。
一顆GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三維點云模型

文章插圖


將Point-E點云轉換為網格

在獨立的網格生成模型之外 , Point-E 由兩個模型組成:
一個文本圖像轉化模型(text-to-image model)和圖像轉化3D模型(image-to-3D model) 。

文本圖像轉化模型類似于OpenAI的DALL-E 2和Stable Diffusion,在標記圖像上進行訓練以理解單詞和視覺概念間的關聯 。
然后,將一組與3D對象配對圖像輸入3D轉化模型,以便模型學會在兩者之間有效轉換 。
當輸入一個prompt時,文本圖像轉化模型會生成一個合成渲染對象 , 該對象被饋送到圖像轉化3D模型,然后生成點云 。
OpenAI研究人員表示 , Point-E經歷了數百萬3D對象和相關元數據的數據集的訓練 。
但它并不完美,Point-E 的圖像到 3D 模型有時無法理解文本到圖像模型中的圖像,導致形狀與文本提示不匹配 。盡管如此,它仍然比以前的最先進技術快幾個數量級 。

他們在論文中寫道:
雖然我們的方法在評估中的表現比最先進的技術差 , 但它只用了一小部分時間就可以生成樣本 。這可以使它對某些應用程序更實用,并且發現更高質量的3D對象 。

相關經驗推薦