乐高设计新纪元:卡内基梅隆AI模型LegoGPT让文字变积木

   发布时间:2025-05-09 23:10 作者:顾雨柔

近日,卡内基梅隆大学的一支研究团队在人工智能领域取得了创新突破,他们成功研发出一款名为LegoGPT的AI系统。该系统能够根据用户的文字指令,自动生成可实际搭建的乐高设计图。

据了解,LegoGPT项目的详细信息和代码已全面开源,用户可以通过访问GitHub上的项目地址进行了解和使用。该项目的GitHub链接为:https://github.com/AvaLovelace1/LegoGPT/

研究团队通过训练一种大型自回归语言模型,使LegoGPT能够预测并确定下一块应该放置的乐高积木。为了实现这一目标,团队为模型设计了复杂的算法,通过不断预测下一个token的方式,逐步构建出完整的乐高设计。

为了确保生成的乐高设计既实用又稳固,团队还为LegoGPT增加了有效性校验和物理感知回滚机制。这一机制能够检测并避免积木重叠或悬空等问题,保证最终的设计既符合用户要求,又能实际搭建。

LegoGPT不仅能够生成人手可搭建的设计,还支持机器人操作。这意味着,用户不仅可以根据自己的想象来创造乐高作品,还可以通过机器人实现自动化搭建。

为了实现LegoGPT的训练,研究团队构建了一个名为StableText2Lego的数据集。该数据集的构建过程相当繁琐,它首先将文本提示转化为ShapeNetCore网格模型,然后将其嵌入一个20×20×20的体素网格中,生成初步的乐高积木布局。之后,系统会对这些布局进行变化,并剔除结构不稳定的设计。保留下来的样本会从多个角度进行渲染,并最终生成相应的描述文本。

StableText2Lego数据集包含了超过47000个乐高建构样本,涵盖了28000多种三维造型,如书架、桌子、椅子、汽车、船只和吉他等。这些丰富的数据为LegoGPT的训练提供了坚实的基础,使其能够从文字描述中生成独特且原创的乐高设计。

在使用LegoGPT时,用户只需输入文字描述,系统就会将描述转化为乐高设计图。然后,LegoGPT会按照从底部到顶部的顺序,将这些设计编码为文本token。系统会根据这些token生成指令,将乐高积木结构与注释相对应,使模型学会理解文本与积木组件之间的关系。

接下来,LegoGPT会采用自回归的方式,逐步预测并放置下一块积木。每次添加积木时,系统都会进行严格的格式校验和冲突检测,确保积木的放置正确无误。这一过程会持续进行,直到设计完成。最后,系统还会对生成的设计进行稳定性测试,以确保其结构稳固。

如果系统在测试过程中发现结构不稳,LegoGPT会自动回滚到最近的稳定状态,并从该点继续生成设计,直到完成一个稳定且可行的乐高作品。

 
 
更多>同类内容
全站最新
热门内容
本栏最新