奥本 AI 将所有的最新 AI 聚合到了一起,为您开启多模型 AI 绘画新时代!

扫码即刻关注公众号

3D Gen AI模型背后的全部真相


7 个月前

3D世代人工智能模型背后的全部真相

想象一个世界,在那里你可以与算法合作写一本小说,神经网络创建令人惊叹的3D模型,或者你的虚拟助手不仅回答你的问题,还为你编造引人入胜的故事或为你设计独特的体验。这就是产生式人工智能的惊人力量。

到2023年底,预计估值约为450亿美元,从2023年到2030年,生产性人工智能市场的规模将几乎翻一番,实现指数级增长。甚至麦肯锡集团也表示,新一代人工智能应用程序的价值将在一年内为世界经济增加4.4万亿美元。与此同时,今年3D地图和3D建模的市场规模为74.8亿美元,预计到2029年将达到148.2亿美元,在预测期内以14.67%的复合年增长率增长。

考虑一下将这些估值中的一部分合并到3D GenAI行业。那是一大笔钱。对吗?

因此,让我们从GenAI及其对日常时刻的影响开始,来证实这些估值说法。

什么是GenAI,它是如何工作的?

用外行人的话来说,Chatgpt、Luma等就是我们所说的GenAI的模型。维基百科将其描述为“能够使用生成性模型生成文本、图像、视频或其他数据的人工智能,通常是对提示的响应。”

用3D生成性人工智能彻底改变写作

例如,在娱乐业,GenAI通过分析用户偏好的算法来个性化内容创作,比如Netflix基于观看历史来推荐观看电影/电视节目的算法。在医疗保健领域,它通过分析医学图像和患者数据加快诊断速度,金融服务受益于GenAI检测欺诈模式的能力。

可以肯定的是,它会做出令人惊叹的事情。但为了理解它是如何发挥作用的,让我们引导你完成它的过程。

-数据收集:首先,GenAI需要大量的例子来学习。对于文本生成,可以是书籍、文章或网站。对于图像来说,它可能是数千张照片。 -培训:然后GenAI查看所有这些示例并学习模式。对于文本,它学习句子是如何结构的,以及哪些单词通常会组合在一起。对于图像,它学习形状、颜色和对象的外观。 -神经网络:神经元层:将神经网络视为一个由连接点组成的大网络。每一个点,或称“神经元”,都会处理部分信息。该网络有多层,每一层都有助于完善对输入数据的理解。 -激活功能:这些功能通过引入复杂性和生成新内容来帮助网络做出决策。这就像是教网络识别更微妙的细节。 -文本生成:当你给一个生成文本的人工智能一个开始的句子时,它会根据它所学到的预测下一个单词。它继续这个过程,创建一个完整的句子或段落。 -图像生成:使用GANS(生成性对抗网络)等技术来生成图像。GAN由两部分组成: -生成器:尝试创建逼真的图像。 -鉴别器:判断图像是真是假,帮助生成器改进。 5.改进和微调

-反馈循环:在培训期间,GenAI会得到关于其输出与真实示例的接近程度的反馈。这有助于它随着时间的推移而改进。 -微调:有时,预先训练的模型(已经从大量数据中学习)会针对特定数据进行微调,以提高特定任务的性能。 6.使用AI-推理:一旦训练完毕,GenAI就可以生成新的内容。你可以输入一个主题或几个词作为文本,人工智能就会写一篇文章或一篇故事。你可以用图像描述一个场景,然后由人工智能来绘制它。

现在,问题来了:“GenAI如何与3D行业合作?”

新一代AI如何在3D模型上工作?

一款经典的GenAI 3D软件在得到提示后会喷出数据,并在数百万个3D模型上进行训练。在讨论它的技术工作原理之前,让我们先了解一下它在文本到3D和图像到3D的转换中是如何工作的。

-文本到3D-NVIDIA的Magic3D等技术正在为从详细的文本描述制作高质量的3D模型铺平道路。这些模型可以纯粹基于描述性文本来反映复杂的形状和复杂的细节,即使是那些没有传统3D建模技能的人也可以访问该过程。然而,该领域仍处于初级阶段,需要进行研究以提高准确性和多功能性。 -图像到3D-Alpha3D等工具可以从单个图像创建基本的3D模型。这些模型通常是一个坚实的起点,但可能需要进一步改进才能捕捉到更复杂的细节和细微差别。目前的技术可以很好地处理简单的对象,但它们难以处理复杂或高度详细的主题,这表明需要继续进步以提高精度和深度。 现在的问题是,这些模型是如何训练出来的?其他所有创建3D模型的平台都是以同样的方式工作的吗?简短的答案是,这就是为什么我们深入调查了GenAI 3D工具的工作原理,以获得这些信息。让我们开始吧。

1.了解3D模型

-体素网格:想象一下将3D空间划分为微小的立方体,类似于用乐高积木构建结构。这些称为体素(体积像素)的小立方体表示3D空间中的特定点。就像乐高积木一样,这些体素可以堆叠、组合和操纵,以创建复杂的3D形状和结构。通过调整体素网格的分辨率,可以实现不同级别的细节和精度。 -点云:想象一个由无数个小点组成的云,每个点都有一个独特的空间位置。这是一个点云,是在三维坐标系中定义的数据点的集合。每个点代表着空间中的一个特定位置,通常使用激光雷达或摄影测量等3D扫描技术进行拍摄。这些数据点可以被处理以创建详细的3D模型。 -网格:将网格视为由线连接的点编织而成的网,形成3D曲面。该网络由顶点(点)、边(线)和面(封闭区域)组成,创建3D对象的结构。网格是计算机图形学和3D建模中的基础,为渲染细节和逼真的形状提供了框架。通过操纵顶点,人们可以调整网格的形状和复杂性,允许创建从简单的几何形状到复杂的有机结构的一切。网格是动画、视频游戏和模拟的支柱。 -隐式函数:使用数学公式定义3D对象的形状,超越了传统的逐点建模。隐式函数通过方程描述曲面和体积,创建易于操作和变换的光滑且连续的形状。隐函数在计算机辅助设计(CAD)和计算几何等领域是强大的工具,能够以数学的优雅创建复杂而精确的模型。 2.数据准备和使用

-预处理:在将数据提供给AI之前,3D模型会调整大小并居中,以便它们都适合同一空间。 -数据增强:通过各种方式(如旋转或缩放)调整数据,为AI提供更多可学习的例子。 3.AI模型类型

-3D卷积神经网络(3D CNN):3D卷积神经网络的操作类似于图像处理中使用的传统2D CNN,但将其功能扩展到三维。3D CNN不是扫描平面的二维图像,而是分析体数据,其中包括一个额外的深度维度。这使得他们特别擅长处理来自医学成像(例如,MRI和CT扫描)的3D模型和体积数据,甚至是时间信息被认为是第三维的视频序列。 -PointNet和PointNet++:这些是特殊的AI模型,旨在理解由点(点云)组成的3D形状。PointNet采取了一种独特的方法,分别对待每个点,并使用共享的多层感知器(MLP)来处理它们。然后,它将这些功能与max pooling函数结合在一起,该函数巧妙地确保模型不会因点的顺序而被抛出。这使得PointNet能够有效地捕捉整体形状,使其非常适合对象分类和零件分割等任务。 PointNet++更进一步,将点云分解为重叠区域,并将PointNet应用到每个线段,使其能够捕获不同比例的详细局部要素。这种层次化的方法帮助PointNet++处理不同的点密度和复杂的形状,使其在识别复杂细节方面更加出色。这些改进使得PointNet和PointNet++对于3D建模中的应用必不可少,因为在3D建模中,精确度是关键。

-图形神经网络(GNN):GNN将网格的顶点(点)和边(连接)表示为图形,允许它们捕获局部和全局几何关系。图中的每个节点通过迭代消息传递步骤与其邻居交换信息,并基于接收到的信息更新其状态。该过程使网络能够了解网格内的复杂依赖关系和关系。GNN可以通过聚合所有节点的信息,对网格的整体形状或特定区域进行复杂的预测或分类。这种灵活性和丰富的特征提取能力使GNN特别适合于形状分类、分割和变形预测等任务。它们处理不规则和复杂网格结构的能力使其在3D建模等领域具有无可估量的价值,在3D建模领域,真实感和准确性是至关重要的。 ** 生成对抗网络(GAN),说明训练过程中生成器和NPS网络之间的交互。**

生成对抗网络(GAN)说明了训练过程中生成器和RST网络之间的交互。

  • 生成对抗网络(GAN):通过合成详细的形状和纹理来增强3D模型的视觉质量,使其更加逼真。他们还可以进行低质量的3D扫描并提高分辨率,增加更细的细节和准确性。
  • 生成器:人工智能的这一部分尝试从头开始创建逼真的3D模型。
  • 鉴别器:此部分试图将真实的3D模型与生成器创建的模型区分开来。他们玩一款游戏,生成器更擅长创建现实模型。 探索变分自动编码器(VAES)的体系结构-这是一种强大的深度学习模型,用于生成和重建复杂数据,应用于图像合成、异常检测等。

-变分自动编码器(VAE):这些AI模型学习将3D模型压缩成更简单的形式,然后将其重新展开,这有助于它们理解和生成新的3D形状。 -自回归模型:这些模型逐步生成3D模型,逐段构建形状。 -隐式神经表示:这些表示使用神经网络直接创建平滑和连续的3D曲面,而不是使用立方体或点等固定形状。 4.人工智能的教学与测评

-损失函数:将损失函数视为AI的评分标准。就像老师根据预定义的标准给学生的作业打分一样,损失函数会评估人工智能创建3D模型的好坏。损失函数量化了人工智能生成的模型与期望结果之间的差异。通过分析这些差异,人工智能可以了解它需要改进的地方,并相应地调整其方法。 -优化:AI使用技术来随着时间的推移提高性能,例如为测试而学习。 -评估:我们使用生成的模型与真实模型的匹配程度等指标来检查人工智能的工作质量。 5.点睛和应用

-精细化:在创建模型后,可能需要进行一些修饰,如平滑粗糙的边缘。 -转换:有时,需要将3D模型从一种形式更改为另一种形式,如从点云到网格。 6.应用:

-3D对象生成:自动为各种数字应用程序制作新的3D模型。 -3D重建:从不完整的数据构建3D模型,就像从一张照片创建完整的对象一样。 -形状补全:填充3D对象的缺失部分。 -定制:允许用户创建个性化的3D模型。 3D模型的生成性人工智能就像拥有一台智能机器来创建或修改3D形状,如视频游戏、电影和虚拟现实中使用的形状。

2024年最受欢迎的GenAI 3D模特

3D产生式人工智能场景最近非常令人兴奋,因为我们看到了该行业的一些新兴发展。当我们深入研究2024年最具生产力的3D人工智能模型时,看到这些模型带来的创新和创造力是令人惊讶的。因此,让我们来看看哪些GenAI在3D建模领域掀起了波澜。

当前限制

-质量控制:在生成的3D模型中保持一致的质量仍然是一项挑战。虽然GenAI可以生产许多型号,但确保每一款都满足特定的质量标准和功能要求是困难的。为了改进和验证产出,常常需要人为干预。 -视觉质量:3D AI工具通常难以产生视觉上有吸引力的输出。生成的模型可能缺乏细节、连贯性或逼真特征,导致斑点状网格不适合基本原型或背景元素以外的许多应用。 -知识产权和道德:生成性人工智能提出了关于知识产权、数据所有权和算法问责的复杂伦理和法律问题。确定错误或滥用生成的内容的责任可能具有挑战性,特别是在决策缺乏人的监督或涉及敏感知识产权的情况下。 开发限制

-数据依赖性:生成性人工智能模型通常需要大量数据集来进行训练,这可能是昂贵和耗时的。训练数据的质量和多样性直接影响模型的性能和推广能力,对获得相关数据有限的组织构成了准入障碍。 -云托管的成本:在云平台上托管生成的AI模型会产生很大的费用,特别是对于大型项目或需要频繁模型迭代的项目。高昂的托管成本阻碍了较小的企业或个人利用先进的人工智能功能。 -计算需求:训练和运行生成性AI模型需要大量的计算能力,往往超过标准硬件的能力。这种对强大硬件的依赖增加了运营成本,并限制了用户在不访问专门计算资源的情况下访问。 -性能和稳定性:尽管取得了进步,但生成性人工智能模型,特别是基于生成性对抗网络(GANS)的模型,容易受到模式崩溃等问题的影响。当生成器产生有限种类的输出时,就会发生模式崩溃,从而降低模型的整体性能和稳定性。 正在进行的研究和开发工作正在解决这些限制,以增强生成性人工智能技术的稳健性、效率和伦理框架。包括研究人员、行业利益相关者和政策制定者在内的协作倡议对于应对这些挑战和实现人工智能驱动的3D建模的全部潜力至关重要。

为什么3D GenAI暂时还不能接手3D行业?

尽管人工智能在许多领域掀起了轩然大波,但它还没有准备好执掌3D行业。它缺少必要的人情味。

-小训练集:想想欧特克的贝尔尼尼。它已经在1000万种不同的3D形状上进行了训练。现在,这听起来可能很多,但当你把它与GPT-4这样的考试相比时,它是很小的。GPT-4训练了大约10万亿个单词。要想让3D AI变得真正出色,它需要从更多的例子中学习,而收集所有这些数据需要时间。 -知识有限:这些人工智能模型中的大多数关注的范围都相当狭窄。例如,Latte 3D对动物和日常物品了解很多,而Alpha 3D在鞋子和家具方面很棒。然而,这种有限的培训意味着他们还不能创建各种各样的3D模型。 -现有库:已经有一些非常棒的3D资源库,如Base Mesh,它提供由艺术家创建的随时可用的3D模型,这些模型通常是免费的或非常负担得起的。这些资产通常经过打磨,随时可以使用,不像许多人工智能生成的模型在使用之前需要进行大量调整。 -实验阶段:许多3D生成性AI工具仍处于实验阶段,只有通过他们的研究项目才能向公众开放。此外,他们还没有准备好在各种类别中交付一致的、高质量的结果,而且由于严重的开发限制,他们的产出有限。 简而言之,虽然3D产生式人工智能潜力很大,但它还没有完全准备好接管3D建模世界。它需要更多的数据,更广泛的学习基础,以及更多的现实世界测试,才能成为游戏规则的改变者,因为3D世界都是关于协作和客户需求的,人类艺术家之所以闪耀,是因为他们可以交流和理解人们的需求。人工智能就是无法复制那种程度的直觉和联系。

当然,人工智能可以处理3D建模和动画中的一些繁琐工作,但人类仍然需要添加这种特殊的天赋和个性。毕竟,我们独特的触感给3D创作带来了令人惊叹的因素。

?,你知道吗?

一些公司声称使用他们内部的GenAI生成高质量的3D模型,但据推测,3D艺术家实际上从头到尾都在制作模型,资产是在通过GenAI创建的虚假借口下交付的。

人们目前是否在使用GenAI进行3D建模?

是!GenAI越来越多地用于3D建模和相关任务的各个方面。通过利用先进的机器学习算法,GenAI能够快速创建和优化3D模型,为艺术家和设计师节省时间和精力。这项技术正在被整合到多个行业的工具和平台中,同时仍然依赖于人类创造力和专业知识的基本投入。

以下是它的应用方式:

-基础网格:GenAI可以为3D模型生成基础网格,为艺术家提供一个起点。这些网格可以根据项目的特定需求进行调整和细化。 目前使用GenAI创建基础网格的工具-NVIDIA Omniverse with GANverse3D,Lumirthic。

-背景资源:GenAI可以帮助生成背景资源,如景观、建筑、树叶和其他填充场景的元素。这可以为需要创建复杂环境的艺术家节省时间。 当前使用GenAI创建背景资源的工具-3DFY.ai

-手机游戏资产:GenAI可以帮助生成针对手机游戏使用进行优化的资产,在手机游戏中,性能和文件大小是至关重要的考虑因素。这些资产可以包括根据移动平台的要求量身定做的角色、道具和环境。 目前使用GenAI创建移动游戏资产的工具--Luma AI、MasterPix Studio、Avaturn等

-优化和协助3D艺术家:GenAI可以通过自动化重复性任务、优化性能或渲染模型以及提供改进工作流程或设计的建议来帮助3D艺术家。 总体而言,在3D建模中使用GenAI提供了简化创作过程、提高工作效率和探索新的设计可能性的机会。然而,虽然人工智能可以在3D建模的各个方面提供帮助,但人类的创造力和专业知识对于实现高质量的结果仍然至关重要。

3D行业中GenAI的未来是什么

产生式人工智能有望给3D建模世界带来革命性的变化,但仍处于早期阶段。技术进步,包括改进的算法和硬件开发,再加上广泛的行业采用和协作生态系统,将推动该领域的显著增长。NVIDIA、谷歌和欧特克等主要参与者,以及Luma AI等创新初创公司,准备在将AI功能集成到3D工作流程方面发挥带头作用,最终塑造人工智能驱动的3D内容创作和创新的未来格局。以下是根据当前的趋势和研究,对未来的展望:

-人工智能支持的设计助理:枯燥的任务,如重新拓扑学(优化多边形结构)和UV展开(准备纹理)可能会成为过去。GenAI助手可以在后台处理这些任务,让3D艺术家腾出时间从事更具创造性的工作。欧特克等公司的研究正在探索人工智能如何分析数据并生成多种设计选项,从而加快设计过程。 -增强的真实感和自动化:想象一下人工智能可以自动为您的3D模型生成逼真的纹理、照明和材质。这是GenAI正在取得进展的另一个领域。像Meshy这样的公司正在开发人工智能工具,这些工具可以分析真实世界的材质,并为3D模型生成数字表示,从而增强其真实感。 ?

3D艺术家对3D Gen AI未来的看法:我是一名独立开发人员,正在寻找任何可以帮助加快我的工作流程的东西。我将人工智能用于许多事情,但3D模型还需要数年时间才能实现。对于主要角色和重要的高知名度资产,仍然要完全外包,或者大量重新掌握/重新创作现有的东西。

结论:

虽然3D生成性人工智能显示出巨大的前景,但它的旅程仍在展开。通过精心培育和创新,它可能会成为像ChatGPT一样的变革性产品,重塑3D建模和设计景观。为3D模型开发GenAI的公司面临着确保一致的质量、实现视觉真实感和获取足够的训练数据等问题。

此外,成本和可访问性限制可能会阻碍广泛采用。尽管存在这些障碍,但在人工智能支持的设计辅助、逼真的材质生成和文本/图像到3D转换方面的进步即将到来。GenAI即将成为一个有价值的工具,但它可能会与人类的创造力一起工作,而不是取代它。

常见问题:

高质量数据在训练生成性AI模型中的重要性是什么?

生成性人工智能模型从广泛、高质量的数据集学习,以生成多样化、创造性的输出。干净和准确的数据对于最佳性能至关重要,而糟糕的数据质量可能会导致模型生成无意义、有偏见或低质量的输出。

产生式人工智能能否用于实时应用?

随着硬件和优化技术的进步,产生式人工智能可以用于互动聊天机器人、现场视频效果和实时音乐生成等实时应用。

用什么数据集来训练生成性AI 3D模型?

常用的数据集包括ShapeNet和ModelNet,ShapeNet提供3135个类别的300多万个CAD模型,ModelNet包含分为40和10个类别的3D CAD模型,用于各种形状分类任务。此外,一些公司,如欧特克公司,也有自己的数据库,如Make-a-Shape。

产生式人工智能与人工智能有什么区别?

生成性人工智能专门创建模仿训练数据特征的新数据,如图像、文本或音乐。其他类型的人工智能,通常被称为歧视性人工智能,专注于根据输入数据对结果进行分类或预测。

你能举个例子说明生成性人工智能和鉴别性人工智能的区别吗?

生成性人工智能可以生成训练数据中不存在的全新的猫和狗的图像。识别性人工智能可以查看图像,并根据它从训练数据中学习的特征来确定它是猫还是狗。

上海赋迪网络科技

电话:18116340052