Luma AI戴高乐:AI与3D的结合 | 嘉程创业流水席204席精彩回顾
    01.17.2024 | 嘉程资本:创新者的第一笔钱 | 嘉程创业流水席

    我们希望通过3D重建和3D生成这两方面的探索,让3D成为一种更直接、更沉浸式的内容和表达的形式,寻找它的适合的使用场景,让它成为一种像短视频一样的大众化的内容消费形式,那时候我们就会看到各种各样的可能。

     

     

    近日,嘉程创业流水席第204席【探讨AI生成视频与3D内容的全球前沿动态】,邀请了Luma AI的增长与产品负责人戴高乐分享,主题是《AI与3D的结合:NeRF,Gaussian Splatting和3D生成》。

     

    以下为正文部分:

     

    我是戴高乐,Luma AI的增长与产品负责人。今天,我想和大家分享一下我们在硅谷进行的一些AI 3D方面的尝试。

     

    Luma AI是一家2021年成立于美国的初创公司,CEO曾是苹果的员工,CTO是伯克利的一个实验室的负责人,最早做3D重建NeRF的算法。今天的分享会分为两个部分,分别是三维重建和三维生成,以及它们的应用场景。

     

    3D是接触真实世界的媒介

     

     

    首先,作为一个用AI赋能3D内容的公司,我们为什么选择3D方向?因为我们认为3D是最终每个人能接触真实世界的媒介我们看到的所有东西,都是以3D的形式呈现在我们面前的。但是,由于我们目前的硬件和软件的局限,我们在屏幕上看到的大部分东西都是二维的,比如文字和视频,都是二维对三维的模拟。但是我们认为从效率和内容消费的层面,3D是最能直接表达和体验所有现实内容的载体,也是我们思考和想象的方式。比如,当我们看视频的时候,我们可能只是觉得这是一个视频,但是当我们的大脑去思考或者做梦的时候,我们都会用3D的方式去想。这也是我们平时向别人表达的时候,脑海里所想象的东西。但是,由于表达方式的限制,我们往往只能用二维的方式来展示。

     

    Luma AI的愿景是:让3D成为一种新的艺术形式和内容形态。目前,市场上还没有一个非常成熟的平台和软件来支持,但这也是我们努力的方向。我们相信,3D就像弹钢琴一样,是一种立体的、沉浸式的、交互性很强的放松、娱乐、工作和处理问题的方式。它也是一种直接的表达方式,不像写字或拍照那样,需要间接的媒介。3D让我们用手去触碰,用五官去体验真实的事物。

     

    我们创始之初的方向就是做3D的重建,也就是通过扫描的形式,把现实中的场景和物体重建成3D的模型,也就是通过一系列图片或者视频生成3D的重建。

     

    One Direction的主唱在最新的音乐视频《Love Like This》中,就使用了我们的APP来扫描他骑摩托车的瞬间,他的视频里其实有很多处都用了我们的产品,保存下他最酷最有张力和表现力的那一帧。

     

    另一个例子是,我们的APP可以制作出无人机的视角的视频。通过扫描一个站在篮球场上的女生,以及周围的环境,就可以重建出整个场景。然后,我们可以用不同的视角和相机的轨迹来重现这个画面,就像有一架无人机在飞行一样。这样即使没有无人机,我们也可以拍出无人机的效果。

     

    这一切都是基于NeRF(神经辐射场)的原理,它的本质是通过围绕一个物体中心点拍摄一系列的照片或视频,然后利用每个点的位置数据和光线数据(这些照片最终都上传到云端,这个模型不知道照片之间的关联),通过深度学习的算法,不断地进行优化和重建,从而重现出每个照片对应的位置,最终生成这个物体的三维视图。

     

    NeRF不需要用手机上的任何传感器,不像之前的Photogrammetry(照片测量法),它是基于纯视觉和深度学习网络的方式来重建三维模型的。在精度上,NeRF在某些情况下可能比传统的Photogrammetry的效果更好,这也意味着3D重建的技术可以适用于各种手机,只要能上传到云端,就可以重建出来,而不像有些APP只能在iPhone上使用。

     

    3D重建新进展——Gaussian Splatting

     

    今年的八九月份,视频3D重建领域有了一个重大的突破,就是Gaussian Splatting(高斯扩散法)。这种方法可以在网页上显示一个3D重建的视图,与之前的NeRF相比的一个显著优点是它可以实时交互。

     

     

    大家现在如果能打开网页,可以在网页上看到旋转不同的视图,它都是会实时渲染出来的,所以我们把这个称之为Interactive Scene,因为它是可以实时交互的三维的场景。

     

    这个技术的核心是一项新的突破,叫做Gaussian Splatting。它的原理其实跟NeRF很类似,但是它的一个优点是它不需要通过多层的神经网络进行训练,而是直接把物体的每一个点云图和每一个高斯点渲染出来,然后把它们拼凑在一起,让这些高斯点互相找到位置,从而生成三维重建。

     

    Gaussian Splatting的一个好处是它可以实现实时的渲染,不需要加载的时间这与之前的NeRF不同,NeRF是通过神经网络的训练的,所以它的渲染需要一段时间。我们的产品可以在Gaussian Splatting和NeRF两种模式之间切换。Gaussian Splatting可以做到实时渲染,速度更快,而NeRF可以更好地重建,转换成物体的Mesh,它们各有优劣。

     

    3D重建的应用场景

     

    关于3D重建的应用场景,一方面就是现在已经大规模被使用的创作场景。很多视频创作者会用我们的产品来捕捉3D的场景,然后把它们发布在Instagram或TikTok上,大家看到以后就会下载Luma的APP,去尝试新视角的拍摄。

     

     

    同时我们也在探索在电商场景或者品牌场景下对产品的三维重建。比如一些鞋履的公司都会有3D视图的展示,但是可能需要在专业的工作室里拍摄3D视图,但是如果是一个小商家,是没有条件去做这样的三维体验的。因此Luma APP也给他们提供了低成本三维重建的可能,让品牌的消费者能够更好地看到产品的各个方面,通过一系列的图片和视频,就可以重建出三维的产品。

     

    3D生成的技术现状和未来展望

     

     

    下面我想分享的是3D的生成,stable diffusion出来以后,开始有三维的diffusion技术的出现,它的本质还是基于diffusion的原理,但是不像传统的文生图只生成一张图片,它需要生成的是物体各个方面的图片,这些图片必须是连贯的。然后,我们再通过三维重建的方式,把这些图片重构成一个三维的影像。

     

    当然,我们也在尝试直接通过三维模型生成的方式,但是因为三维模型的数据不够多,所以我们可能还需要用图片的数据补充训练,能够用更好的图片的diffusion模型生成三维的模型。

     

     

    我们认为,目前对虚拟3D需求最大的场景之一就是游戏,而游戏所需的三维素材的门槛很高。这也是为什么我们看到很多视频和图片的场景,都有很多C端的消费者参与创作,而游戏的创作却很少。即使有一些平台,比如Roblox,可以让用户做一些简单的游戏,除了游戏类型会受到局限之外,要做出一个游戏还是一件很难的事情。

     

    我们希望3D能够成为一种新的内容形式,游戏是其中的一种可能。我们的产品可以通过3D生成的方式,快速地创造3D资产,甚至可以把它们组合在一起,创造一些新的体验。这些体验不一定要像现在的大型专业游戏那样复杂,但是它们可以是一些微缩版的体验,或者是介于视频和游戏之间的体验。比如,我们可以把《原神》中的一个场景重建出来,或者通过3D生成的方式,在其中加入一些有趣的机制,这样就可以创造一些新的UGC体验。

     

    所以,我们希望通过3D重建和3D生成这两方面的探索,让3D成为一种更直接、更沉浸式的内容和表达的形式,寻找它的适合的使用场景,让它成为一种像短视频一样的大众化的内容消费形式,那时候我们就会看到各种各样的可能。

     

    当然,这也可能需要一些未来的硬件的发展,比如如果AR和VR更成熟,对3D的内容的需求肯定会大幅增加,因为它们需要更多的沉浸式的内容。但我们相信,即使目前这些硬件还没有发展到成熟的阶段,我们也可以通过目前的手机,创造很多新的内容,可能通过3D和现有的形式的组合,帮助我们探索一些新的内容消费的场景。

     

    Q&A

     

    席友:您认为是否有必要将这样的技术应用到某个垂直的场景中,还是您觉得只提供一个通用的工具,让用户自己去寻找应用场景?


    戴高乐:我觉得这两者是不冲突的,Luma的定位是一个research&product company,最终是想通过research和product两个的飞轮,把公司和产品运转起来。我觉得目前很多AI公司都专注在模型的层面,但是模型做出来以后,虽然可以开放给用户使用,但是如果能够明确用户场景,可以在模型的训练上少走很多弯路。

     

    Flythroughs是我们在房地产方面的一个产品落地场景的早期尝试,后来我们发现,如果我们当时在3D重建的模型训练中,专门针对房屋的数据进行训练,可能能够得到一个更好的模型,它们比我们通用的3D重建的模型可能更适用。

     

    所以我觉得对于目前的很多AI的大模型也是如此,如果在早期就能够明确用户场景是什么,以及它最终训练得出来的结果也会更高质量。所以这就是为什么我们会很强调用户应用,我们的愿景是想给大家提供一个产品,而不是一个模型。因为现在AI的发展阶段还比较早期,所以大家可能都还在做模型的阶段,而我们团队的定位是更多地寻找产品上的应用场景,让它们能够反哺模型的训练,从而实现两方面的互动和提升。

    席友:Luma作为一个创业公司,你怎么看未来3D生成和3D重建的关系?


    戴高乐:我认为3D重建和3D生成之间是可以实现融合的。比如,3D重建目前一个很大的门槛,就是用户操作门槛太高,用户必须把物体的360度的每一个角度都拍到,甚至有时候可能要绕几圈才能得到一个很好的结果。这对于一般的用户来说是比较困难的,我们经常收到用户的反馈,说为什么他们的重建结果不理想,很多都是因为操作上的不当。如果3D生成可以做得更好,可以用更少的图片重建出一个基本的正面视图,然后再通过3D生成补全其他视图,这可能是一个很大的突破,它可能就能够开拓一些新的应用场景。

     

    所以我觉得3D重建出来的数据都可以反哺到3D生成中,帮助它生成得更好。我们目前是在这两方面都同时进行的,最开始是做重建的方面,重建做到一定程度以后,就有了更多的能力去做3D生成的模型。所以在目前的一段时间内,我们可能会继续推进这两个方向的应用场景,甚至寻找它们之间的融合。

     

    席友:在越来越卷的3D行业,你觉得Luma的优势是什么?

     

    戴高乐:我觉得一方面是我们对产品化的探索,一方面是我们对3D领域的用户和数据有深入的理解和积累。我们看到现在有很多公司只提供底层的数据,没有看到太多的公司把应用场景想得非常明白,而我们的Luma APP和Genie都有很大的使用场景。Luma APP每天都有数千名influencer和视频制作者使用。所以我觉得这是我们的主要优势。

     

    席友:目前3D重建和3D生成的内容在游戏方面有哪些问题和差距,以及如何去优化和解决?


    戴高乐:我觉得目前要把3D重建和3D生成的内容应用到游戏方面还比较早期,现在可能有一些创作者会把我们生成或重建的模型进行一些优化,比如优化边缘,能够让它做到更顺滑以后,然后再把它们导入到他们自己制作的游戏中。当然这中间还需要他们用一些专业的软件,比如Blender,来处理我们生成的模型,因为我们生成的模型还达不到游戏公司建模师的质量,它需要经过一定的优化才可以放到游戏的环境中使用。

     

    这也是我们未来模型优化的一个方向。但我觉得更多的可能性还是在于没有游戏制作背景的用户,也就是小白用户,Roblox的用户很多都是高中生,他们能够用Roblox做出简单的游戏。我们最终也希望能够让这样的用户,在没有基础的情况下,也能够用我们的产品做出这样的内容,它可能不一定是一个游戏,可能是一种新的内容形式。

     

    嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。

    我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。

    嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。

    嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。

    嘉程资本是创新者思考的伙伴,成长的伙伴。

     

    嘉程资本
    握手未来商业领袖
    BP 请发送至 BP@jiachengcap.com
    微信ID:NextCap2017