[博客翻译]Text2CAD从文本提示生成顺序CAD设计


原文地址:https://arxiv.org/abs/2409.17106


Text2CAD: 设计师可以高效地从文本提示生成参数化CAD模型。这些提示可以从抽象的形状描述到详细的参数化指令。

贡献

我们提出了Text2CAD作为首个使用多级文本描述生成参数化CAD设计的人工智能框架。我们的主要贡献包括:

  1. 新型数据标注流水线 利用开源LLM和VLM为DeepCAD 数据集标注包含不同复杂度和参数细节的文本提示。
  2. Text2CAD Transformer:一种端到端基于Transformer的自回归架构,用于从输入文本提示生成CAD设计历史。

数据标注

我们的数据标注流水线生成描述CAD模型构建流程的多级文本提示,其中复杂度各不相同。我们采用两阶段方法 ——

  1. 第一阶段:使用VLM (LlaVA-NeXT) 生成形状描述。
  2. 第二阶段:使用LLM (Mixtral-50B) 生成多级文本标注。

Architecture

Text2CAD Transformer

我们开发了Text2CAD Transformer,将自然语言描述转化为3D CAD模型,通过自回归方式推导出所有中间设计步骤。我们的模型以文本提示T和长度为t-1的CAD子序列C1:t−1作为输入。文本嵌入Tadapt通过预训练的BeRT编码器提取,然后经过一个可训练的适配层。最终嵌入Tadapt与CAD序列嵌入Ft−10一起通过L个解码器块来生成完整的CAD序列。

Architecture

视觉结果

使用不同提示生成3D CAD模型的视觉示例。(1)三个不同的提示产生了相同的环形模型,其中一些没有明确提及“”。(2)三个不同的提示产生了相同的星形模型,每个提示都强调了不同的星形特征。

Image 3

DeepCAD 和 Text2CAD 在 DeepCAD 数据集上的重建CAD模型定性结果。从上至下 - 输入文本、使用DeepCAD 和 Text2CAD 分别重建的CAD模型以及GPT-4V评估结果。

Image 1

DeepCAD 和 Text2CAD 在 DeepCAD 数据集上的重建CAD模型定性结果。从上至下 - 输入文本、使用DeepCAD 和 Text2CAD 分别重建的CAD模型以及GPT-4V评估结果。

Image 2

使用不同提示生成3D CAD模型的视觉示例。(1)三个不同的提示产生了相同的环形模型,其中一些没有明确提及“”。(2)三个不同的提示产生了相同的星形模型,每个提示都强调了不同的星形特征。

qual_3_light.png

DeepCAD 和 Text2CAD 在 DeepCAD 数据集上的重建CAD模型定性结果。从上至下 - 输入文本、使用DeepCAD 和 Text2CAD 分别重建的CAD模型以及GPT-4V评估结果。

定量结果

我们使用两种策略评估了Text2CAD的性能。

  1. CAD序列评价:我们评估生成的CAD序列与输入文本之间的参数对应关系。这通过以下指标进行:
    • F1得分:线、圆弧、圆形和拉伸的F1得分,方法取自于CAD-SIGNet
    • Chamfer距离(CD):测量文本生成CAD(Text2CAD)和 DeepCAD 重建模型与真实模型之间的几何对齐。
    • 无效比率(IR):衡量重建CAD模型的无效性。
  2. 视觉检查:我们将Text2CAD和 DeepCAD 进行GPT-4和人类评估比较。
CAD 序列评价 视觉检查
F1得分 CD 和 IR

f1.png

视频

即将推出

鸣谢

本研究部分得到欧盟地平线欧洲计划资助协议编号 101135724(LUMINOUS)的支持。