N7 Interactive梁芊荟：探索Vision Pro空间交互场景和开发细节 | 嘉程创业流水席213席精彩回顾

05.11.2024 | 嘉程资本：创新者的第一笔钱 | 嘉程创业流水席

互联网将物理世界数字化做了1%，空间计算将继续完成10%，核心先带来的是线下诸多生产、娱乐、体验场景数字化后的增量市场。

近日，嘉程创业流水席第213席【探讨Vision Pro最新应用和开发实践】，邀请了N7联合创始人&CEO梁芊荟分享，主题是《AVP 空间交互的 AHA & TuT Moment》。

以下是正文内容：

我今天的分享是从手机到AVP（Apple Vision Pro）。在创业之前，我在MIT从事空间计算和人因相关的研究，后续在某大厂从事手机大场景AR的产品与商业化工作，对于ARKit等尝试了很长一段时间。现在，大家手中的AVP虽然有一些局限，但从业内人士的角度看，它已经取得了极大的进步。

我将介绍空间交互，分为两个部分：空间和交互。在空间方面，我们更多地关注外部环境，传统上是通过手机的后置摄像头来实现，而现在的AVP则利用了所有外部传感器，包括雷达和摄像头。

之前探索应用场景的过程，我最大的感受是：将虚拟与现实融合何以如此困难？在XR领域，AVP相较于手机的ARKit，在技术的演进路径上并没有太大的区别。当它们跨越了两个关键体验门槛——“快速”和“稳定”之后，许多体验场景便达标了。这也得益于Vision Pro强大的计算能力和众多传感器。因此，沿着这条道路，可以思考的场景是手机AR已经成立的场景+迈过体验threshold后的新场景。

空间计算：从感知、理解到渲染

围绕空间，空间计算分为三个环节：

第一是感知，感知意味着要对场景进行定位和深度估计。在之前国内领先技术支撑定位速度和加载速度都非常快的情况下，仍需要可感知的请求等待时间，即在产品体验上需要先提示用户正在定位，定位成功后才显示。现在，戴上Vision Pro后，用户可以立即体验到物体在真实世界中锚定的过程，这是实现虚拟物体在现实世界中真实存在的核心。

第二个环节是理解，包括物体识别、位置估计和光照估计等。其核心也是解决“快速”的问题。图片所示是在苹果iPhone 12第一代引入LiDAR后，Snapchat开发的环境滤镜。它是基于LiDAR进行空间扫描重建后生成的。鸟在场景中飞来飞去，正是为了引导用户用手机扫描更多特征点。Snapchat投入了大量资金，专门请艺术家进行体验设计。但对于当时大多数手机上的AR应用，其最终状态就像截图所呈现的那样。用户在没有引导情况下大量时间扫描单调重复的纹理，而无法呈现。而在Vision Pro上，设备一戴上，物体就能立即出现在场景中，即使离开位置后返回，物体也能再次出现，这是用户体验的巨大提升。

第三个步骤是渲染，即在确定了空间关系、理解了场景之后，将实际物体渲染出来。我认为Vision Pro的核心是第一人称视角。Snapchat之前做过场景滤镜，例如一只巨鲸以夸张的方式出现在日常生活中，利用“巨物”与苹果当前的大恐龙应用非常相似。但手机和Vision Pro带给用户的体验完全不同：从第一人称视角看到的巨型物体具有更强烈的冲击力，而且足够稳定，虚拟物体可以在场景中保持，不会出现跳帧现象。

遗憾的是，我认为之前在手机上的大部分AR场景并未真正成立。最成功的例子是人脸滤镜，例如抖音上曾经流行的变身迪士尼公主和搞怪人脸特效。如果苹果允许自定义Persona效果，我相信会有更多人参与制作人脸滤镜，也会吸引用户买单。

其次是一些视觉效果类的媒体，这些媒体通常只是One hit，之后便不了了之。用户更多是消费媒体内容，因为这些内容缺乏交互性，它们更多关注于广告和营销。在手机上，这些内容以第三人称视角呈现，与CG并无太大差异。

最后是一小部分的工具性的展示，它们更多地发挥辅助作用，而不足以成为独立的应用程序。例如，宜家利用AR展示家具如何在房间中摆放，这只是宜家展示流程的一部分；Snapchat利用AR销售鞋子；以及现在我们在丝芙兰上看到的AR美妆镜子等。

真正让我感到兴奋的是Vision Pro带来的全新交互方式。我们之前进行了大量用户调研，发现当用户在真实场景中看到虚拟物体时，他们倾向于伸手触摸，而不是点击手机屏幕。也就是说，尽管人们已经习惯了使用手机，但在看到真实物体时，他们更愿意通过伸手进行交互。Snapchat之前也推出过类似的产品，用户既可以在手机点击，也可以用手直接操作。

AVP采用与Quest不同的交互路径

去年，我刚开始创业时，我们首先尝试了Quest生成，后来转向了Vision Pro。我认为一个主要问题是，Quest主要围绕手柄设计，这种设计更适合硬核游戏场景，能够提供精准且丰富的反馈。然而，这增加了开发和体验的难度，使得它很难真正走入普通用户。即便我是一个主机玩家，熟悉各种PS和Switch游戏，但Quest的大多数游戏按键和交互方式都有所不同，需要重新学习。此外，许多应用设计得不够细致，没有在场景中渲染手柄，以至于操作方法需要用户自行记忆。

这是目前在Quest上用户量较大的游戏的指示图。可能大多数人看后都会感到困惑，我也认为手柄并不是一个特别有效的设计。在Quest上，像Gorilla Tag这样的游戏不需要任何按键，只需简单地滑动动作，手柄就能移动。它采用了极其简单的交互方式，使所有人都能轻松享受游戏体验。

在交互设计方面，苹果与HoloLens和Quest采取了不同的路径。HoloLens和Quest的纯手势交互基于Handray模式，通过手动触发射线，而不是用眼睛观察的同时用手划动这样间接的方式。我体验后非常希望深入探索如何使用更直观的交互方式来带来新的互动体验。有一位大神，名叫Ken Pfeuffer，他是Gaze + Pinch这套新交互方式的创始人，推荐大家去看看。

当达标之后，哪里优先有机会?

最后，我想分享一些关于应用场景的思考。许多朋友问我：你认为Vision Pro会先替代电视PC还是手机？我认为Vision Pro首先将带来线下娱乐生产、产品体验数字化后的增量市场。例如，我相信那些体验过Vision Pro和沉浸式场景壁纸的人，能够在一定程度上想象未来虚拟线上旅游的可能性。再比如，苹果之前推出的VR球赛，Amaze VR演唱会等。最近，自从Spatial Persona推出后，我经常邀请群里的朋友们一起聚会、打麻将。总的来说，Vision Pro带来的主要是线下场景的数字化。

第二点，移动互联网通过降低quality（质量）来提高accessibility（可访问性），例如我们可以在线上观看视频而无需去电影院，或者在线上玩狼人杀而不需要线下聚会，那么我认为一个值得优先考虑的领域，即在过往场景里，如何最大限度地提升补齐质量，它一定是最先成立的。

第三，在数字化之前，人类有哪些依赖空间体验的生产场景可能是最先实现的？我认为写代码、文档等，从竹简、丝帛到纸张，人们一直在二维界面上进行文字和图片的创作与阅读。而对于其他场景，如建筑、工业设计、雕塑等，它们是通过三维化、空间化的方式进行生产和体验的，因此这些可能是最先采用的应用场景。

最后，我想谈谈我们目前正在做的两个方向：

首先是手势互动体验。在Vision Pro的游戏生态中，硬核的3A级大作肯定会使用外设手柄，无论是传统游戏机的手柄还是类似Quest的手柄。玩家可能需要半小时到一小时游戏时长的心理预设，才会愿意专门配置手柄进行游戏。因此，对于大多数休闲互动游戏或打发时间的游戏，我认为它们都将会采用手势操作，这样才能真正普及。基于这一点，我们目前正在开发的是手势互动体验。我们在Vision Pro上的应用名为Toyboom playground，目前已经推出了第一个玩法，用户可以尝试模拟钢铁侠掌心炮的手势来完成射击。

此外，我们还在开发Sceno——一款沉浸式相册应用，希望能够通过一张照片将用户带回到那一刻的记忆中。这款应用即将上线，我们非常期待大家能够体验并提供反馈。

AVP开发经验和设计细节

分享一些“踩过的坑”，可能偏细节。

首先，这两个应用给用户带来了截然不同的体验。因此，我认为在开发之初，首要确定的是应用是偏向于动态还是静态的体验。如果是动态，我们在开发Toyboom时的一个重要经验是，当人开始运动时，通常不可能只动身体的一部分。例如，在Vision Pro上，像Synth Riders这样节奏感强烈的应用应该主动激发用户全身参与，从而增强体验。

与此对应，如果目标是静态应用，就尽可能降低用户交互输入的门槛和成本。我们在开发Sceno初期，花费了大量时间在地图上进行缩放和切换不同照片，最终我们发现这部分交互相对冗余。更佳的方法是通过简单的捏合动作（pinch）来一张张挑选照片，进而进入到拍摄照片的场景中。

总的来说，我认为开发应用时最先需要考虑的是动静问题。

第二点，围绕手势或空间交互的多进程和独占场景存在许多权限差异。例如，SwiftUI Gesture更适合窗口交互，不建议设置更复杂的交互，因为其稳定性较差。如果需要定义更复杂的交互，基本上需要使用ARKit，但ARKit的一个问题是它不支持多进程，只能在独占应用中使用。

我认为苹果定义的VisionOS的一个核心价值在于其多进程能力，因此SwiftUI Gesture（系统级手势）vs自定义手势的使用场景就需要提前规划。设计细节方面，例如，手的活动范围有限，一旦超出相机的覆盖范围，识别就会不准确。因此，需要通过设计避免这个问题，确保手在有限的范围内移动，追踪也要做到尽可能平滑。由于手有自遮挡的情况，通常也只有食指和拇指能够准确检测到，因此应尽量避免。此外，如果涉及连续的手部动作触发和判断，应保留一定的间隔时间。去年WWDC期间，我与苹果工程师交流时，他们建议一个应用不应要求用户学习超过三个新手势，以降低用户门槛。最后，空间中三点确定一条直线。刚刚提到，Quest和HoloLens基于Pointer逻辑进行手势交互，也就是说，当手的位置不同时，比如举过肩膀、在肩膀和腰部之间、低于腰部时，手和身体关节的连线是不同的。但苹果采用眼睛来确定这些节点。因此，在设计时，仅使用两点会导致许多不准确的问题。

Spatial Persona潜力无限

一些题外话，Spatial Persona上线的那天，我兴奋得整晚没有睡觉，我认为有两点让人“毛骨悚然”：

第一点是，我第一次见识到朋友微妙表情的真实呈现。一位同事在思考问题时会不自觉地吐舌头。当我们在线上打麻将，他不经意地吐出舌头时，我有一种后背发凉的感觉，仿佛这个人真的走到了我的面前。

第二点是，在小团体聊天中的一个发现。我们当时并排坐着一起看电影，我的两位朋友坐在我的左侧，他们之间的对话我并未参与。这种场景还原了现实世界中的聊天环境，我们可能会分成两三撮小群体，讨论各自感兴趣的话题，这在目前的zoom会议中是无法实现的。这两点让我认为Spatial Persona非常杀手级的场景。

以上是我的分享，谢谢！

Q&A

席友：进入到Vision Pro，除手柄有无的变化之外，还有什么在开发设计方面的巨大变革吗？

梁芊荟：如果是制作纯VR游戏，除了交互问题需要解决之外，整体差异并不大。但如果要开发MR，我认为整体的构思和思路会有所不同。首先是软件的开发架构，我之前也想询问大家是否使用Unity来开发XR（混合现实），而我们使用的是纯原生方法。此外，在交互方面确实有较大的变化：我们最初将Quest的游戏直接移植到Vision Pro上时，发现交互无法简单地完成，手势追踪相当困难，手部经常会偏离摄像头的捕捉范围。因此，我们在一定程度上重新设计了整个游戏的机制和体验。

嘉程资本Next Capital是一家专注科技领域的早期投资基金，作为创新者的第一笔钱，我们极度信仰科技驱动的行业创新，与极具潜力的未来科技领袖共同开启未来。

我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。

嘉程资本旗下的创投服务平台包括「嘉程创业流水席」，「NEXT创新营」、「未来联盟」等产品线，面向不同定位的华人科技创新者，构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态，超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。

嘉程资本投资团队来自知名基金和科技领域巨头，在早期投资阶段富有经验，曾主导投资过乐信（NASDAQ:LX）、老虎证券（NASDAQ:TIGR）、团车（NASDAQ:TC）、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮，并创办过国内知名创投服务平台小饭桌。

嘉程资本是创新者思考的伙伴，成长的伙伴。

嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID：NextCap20176