趣加科技樊一丁:从几何学到游戏工业化,AI如何在游戏业界落地提效 | 嘉程创业流水席217席精彩回顾
06.06.2024 | 嘉程资本:创新者的第一笔钱 | 嘉程创业流水席

在AI技术方面,最大的挑战是灾难性遗忘和可持续学习问题。

近日,嘉程创业流水席第217席【探讨AI+行业的全球化应用和创业机会】,邀请了趣加科技强化学习ai算法研究员樊一丁分享,主题是《几何学在AI领域的应用以及AI如何在游戏业界落地提效》。

以下是正文内容:

今天分享的内容涉及样条曲线在AI中的应用,以及AI如何在游戏行业中实现落地提效。主要内容分为三个部分:第一部分探讨样条曲线与神经网络,它们最近有一些有趣的有机结合;第二部分介绍AIGC与LLM如何在游戏业内落地,这也是我目前的工作;第三部分,我将讨论当前及未来热门的概念以及AGI的发展趋势。

什么是样条曲线?

首先是样条曲线的定义。20世纪40年代,为了设计既美观又具有低风阻系数的车辆外壳,法拉利的工程师们发明了一种数学工具。这种工具通过设定一组控制点来生成一条曲线。每个控制点都有不同的权重,这些权重会影响曲线的形状。该工具的优点包括:其一,它具有良好的光滑性;其二,它是连续且可导的,允许在曲线上添加更多控制点来调整其形状。即使添加新的控制点或改动后端控制点,也不会对前端已固定的控制点和曲线形状产生很大影响。

目前,样条曲线广泛应用在计算机辅助工程(CAE)环境中,尤其在汽车外形设计、高精度零部件加工以及轨迹规划等领域。样条曲线(也称贝塞尔曲线)的设计思路与船工一致(如图),将一根直木条弯曲成曲线时,通常会固定两端,并在中间插入不同的钉子。两端和之间的钉子就是所谓的控制点,通过改变控制点的位置,我们可以控制曲线的最终形态。

样条曲线的应用案例

最近,微信支付推出了一项新功能:掌纹识别。掌纹是一种几乎人人都有的稳定生理特征,掌纹识别与面部识别具有业务共通性。然而,掌纹识别在技术层面面临一些问题。首先,掌纹的数据集非常少。与人脸数据集不同,后者可以通过视频或照片获取,数量级可达千万级别;而专门的手部数据集很少,目前市场上最优秀的掌纹数据集也只能达到约10k-100k的量级。

由此,腾讯实验室考虑到了数据增强的可能性:随着人年龄的增长和劳动量的累积,掌纹会逐渐出细小的曲线,或许可以在原始图片上添加这些曲线,以此来扩充数据量进行数据增强。腾讯实验室进行了多项实验,包括打点、使用直线和不同长度的线条来增强数据集,但发现将细小的线通过添加样条曲线的方式,能够取得最佳效果。

人类的掌纹很少呈现完整的直线,通常都带有一定的曲度。这是第一个样条曲线与AI结合的应用,它在前年投入研究,在去年落地。目前,这项技术在广州的便利店使用较多。

当前,神经网络的使用比较普遍,基本原理是模仿人类神经元的功能。每个神经元都能接触或产出信号,神经网络利用这些数据来学习并调整神经元之间的连接权重,进而更新模型,由此让神经网络能够拟合多种方程分布。

现实生活中遇到的问题往往不符合数学上的线性分布,而是呈现非线性分布。因此,我们需要引入激活函数,常用的是ReLU(Rectified Linear Unit)。简单来说,ReLU的工作机制是:当数据传入时,如果数值大于零,则保持不变;如果数值小于零,则将其归置到0。这样可以发现,它是连续、不可导而且引入了非线性映射的关系。

最近一个月比较热门的是KAN网络,它也是与样条曲线结合的产品。此前的MLP和RSNet已经采用了刚才提到的技术,通过调整神经元权重来适应世界上大多数方程的分布。2023年一篇文章提到,这些复杂的大型模型可以通过一个仅有三层的MLP来达到相同的效果,显示出多层感知可以实现的事物有很多。

目前的做法是使用固定的激活函数,并将学习的权重放在边上。相反,新提出的KAN网络采用了Kolmogorov–Arnold定理,任何方程都可以通过一阶函数的集合来表征。与传统的MLP不同,KAN网络将所有可学习的参数放在样条曲线上,即之前提到的控制点及其权重。

这种方法的好处在于:在样条曲线中,移动尾端的点不会影响前端点的曲线形状。这解决了MLP中一个普遍问题:所有激活函数都是固定的,新知识的加入仅影响边的权重。但改变任何一条边的权重可能会影响这一层所有神经元的效果。这在强化学习和大型语言模型中导致了灾难性遗忘和不可持续学习的问题。当模型经过大量训练后,新数据的加入可能会导致模型学习效果下降,甚至忘记之前的知识和技能。但是,KAN有潜力解决这个问题。

目前,利用样条曲线的特性,解决了灾难性遗忘问题,在许多小数据集上可以追平MLP,甚至在AI for Science领域超越了MLP。另一方面,虽然ReLU函数为MLP引入了非线性映射,但当样条曲线具有超过四个控制点时,它能够使神经网络的状态分布不仅限于高斯或正态分布。在自然界中,不是所有现象都遵循高斯分布,有些可能呈现多峰分布,可能有不同的表征。

神经网络面临的一个主要问题是,它输出状态的分布大多数情况下基于高斯分布。以AlphaGo为例,如果玩家让出九个棋子,AlphaGo反而不会下棋了。这是因为它没有遇到过这种情况,AlphaGo的行为都是基于高斯分布。当决策位于高斯分布的两侧或处于极端情况时,它就会失能。

然而,目前这种方法也有一些缺点:首先,在运行时,我们发现它的GPU优化非常差,速度大约是MLP的十倍以上。此外,神经元激活函数节点数的选择没有成型的理论支撑,仍需炼丹或寻找超参来确定。尽管如此,我相信这种方法有希望解决NLP和大模型遇到的灾难性遗忘问题。

处理三维模型的“不可能三角”

另外,目前我们在解决三维模型和几何问题时,通常采用三种方法:体素、点云以及Nerf/深度图像。在这一过程中,经常会出现“不可能三角”——在网络的大小、处理精度以及处理对象的大小之间,只能三选二。例如,若需要处理一个波音飞机这样大的物体,并且追求毫米级的公差(实际装配可能需要更高的精度),模型的规模将非常庞大,因为需要大量的点来满足这些要求。同理,如果模型较小且处理精度要求较高,则可能只能处理一立方厘米大小的物体,这就是所谓的“不可能三角”。

将真实的三维模型转换为体素或点云时,就放弃了它的拓扑信息。尽管目前有方法可以将所属面的信息嵌入到体素中,形成思维体素或思维点云,但面与面之间的关系仍然会丢失。因此,在处理复杂的多规格问题时,它的效果会非常差。

NURBS通过固定的控制点来表示曲面。当这些控制点的位置坐标发生变化时,所表示的曲面也会相应地变化。如果我们将这些点固定下来,其效果与CV中的图像类似,相当于用固定数量的点来表示不同的曲面。当控制点较为平滑时,固定数量的点可以表示较大的曲面;如果控制点变化较多,固定数量的NURBS控制点可能只能表征较小的平面。

目前,NURBS在一些下游任务中,如面积预测、周长预测等方面达到了追平Sota的效果,并在模型大小和处理速度上都优于点云。

AIGC时代下的游戏工业化

谈到AIGC时代下的游戏工业化,避不开目前最成功的手游或多端游戏——《原神》跟《崩坏:星穹铁道》,它们的市值在中国手游界处于“碾压地位”。《原神》能够产出番剧化内容,基于其成熟的美术管线和扎实的人才基础。此外,番剧化产出还为《原神》积累了庞大的社群和客流,孵化出了诸如“影月月”这样的KOL,从而大幅降低了宣发成本跟买量成本。目前,一个成功的SLG游戏的海外用户付费转化率的买量成本约为1000元人民币。然而,对于《原神》这样的大规模游戏来说,付费成本和买量成本可能极低,甚至不到1元人民币。

在AIGC的美术应用中,目前常用的是基于LoRA加扩散模型的解决方案。但目前,技术上会有很多问题:首先,随机性较差。不论是否调整LoRA,生成的面部图像往往过于相似。如果目标是生成每张面部图像都独一无二,那么在连续输出同一人物的面部图像时就会遇到困难。如果追求一致性,那么生成新的面部图像就会变得困难。其次,是细节处理问题。例如手指的不自然姿势,这可以通过CTRL Net来解决。最后,高质量的训练图像难获得。

简单介绍一下LoRA。这是Low-Rank Adaptation of Large Language Models的缩写,意指大型语言模型的低秩适应。这与之前提到的灾难性遗忘问题有很大关联。由于模型通常通过ReLU函数统一激活,因此大部分权重没有得到有效利用。LoRA会找到那些低秩状态,让它解耦,并实现快速、小参数量地更新模型。

我们做了一些工作流上的变革。画师们不再一次性生成图像,而是先提供一些初步的概念和prompt。例如,如果我们需要一张蒸汽时代的法老图像,我们会收集一些蒸汽时代和法老的图片,基于这些图片训练出一版LoRA模型。初步产出的效果可能参差不齐。接下来很重要的一步是画师们对图像进行自行修正,修正后的图像将作为LoRA的训练素材。训练就在这一过程中迭代,这一过程是有人参与的。画师对产出满意或仅需少量修改即可满意的prompt,一定是高质量的训练图片。这样,我们形成了一个工作流,随着这个工作流的不断迭代,最终将呈现出一版LoRA,它将成为公司美术资产的一部分。即使画师离职或项目组发生变动,也不会导致角色产出的数量和质量急剧下降。可以说,LoRA解决了缺乏成熟管线和人才的问题。

LLM精灵是一个已经产生很大正效益的实际落地场景。精灵在许多游戏中扮演客服角色,回答用户的各种问题。与LLM在其他领域的应用相比,如客服机器人,其技术方案主要依赖模糊匹配来回答问题。初看之下,客服机器人似乎可以节约客服运营成本,但如果仔细思考,我们会发现用户寻求客服的主要目的通常是退货、索赔或情绪宣泄。目前,LLM尚不能完全实现端到端服务,特别是在处理退货和补偿方面,很难将相应权限交由大语言模型处理。当用户仅将情绪宣泄于AI模型时,他们可能会感到需求未得到满足,因此最终仍需人工介入。

但是在游戏中,AI精灵作为攻略提供者,能够进行任务讲解和培养推荐,从而取代了之前的模糊匹配技术。在模糊匹配下,大语言模型经常出现答非所问的情况。LLM将匹配率从原先的40%—50%提升至80%—90%。在我们的实际应用中,点赞率、用户留存和付费意愿都有了显著提升。在高流水的游戏中,提升约5%,每天的成本约为100美元,这一比例相当可观。

强化学习——改善游戏体验的策略之一

聊聊我自己一直在做的方向:强化学习。以SLG和MMORPG等重社交属性或包含PVP元素的游戏为例,零氪或低氪玩家在某种程度上是高消费玩家游戏体验的一部分。强化学习旨在解决以下问题:首先,我们提供拟人化的游戏机器人,在不被看破的情况下提供低练度的账号给玩家消费,确保每位玩家,无论消费水平如何,都能匹配到旗鼓相当的对手。对于大玩家,这也是游戏体验的一部分。一种说法是:每有一个AI被打败,就有一个小R的留存被拯救,同时,它也延缓SLG需要滚服的时间。

简要介绍一下强化学习的过程。我们从Agent模型开始,它从环境中(例如《超级玛丽》)获取图像或向量特征,基于这些特征,模型做出决策动作。反馈给环境后,环境会根据结果给予模型奖励,模型则根据这些奖励不断更新自身。这一过程能够训练出高强度的AI模型。在实际应用中,我们并不追求AI模型能够像AlphaGo下棋或OpenAI Five打《王者荣耀》或《Dota》那样炫技、高强度地去打败人类玩家,只需要加入一些规则限制让它更加拟人化。

将智能NPC植入游戏生态

SLG买量成本极高,1000元才能提供一位有效的玩家。通过引入拟人化AI,我们能够在买量阶段使用少量真实玩家客户搭配大量强化学习机器人来构建游戏生态,从而降低买量成本。然而,强化学习的训练和接入成本较高,且存在机器人被玩家识破的尴尬场面。

为了避免这一情况,我们的下一步计划是智能PC环境构筑,在游戏生态中实现PVPVE模式。网易的《董卓讨伐战》等SLG游戏在这方面做得较好,它们考虑将智能PC作为游戏体验的一部分提供给玩家,以避免强化学习被识破的问题。

  • 总结来说,第一部分,为了实现工业化的游戏产出,我们需要成熟的美术管线和扎实的人才基础。由于成本高昂且人才流动性大,一年换一个项目组是常见现象。解决方案是结合“AIGC+美术资产化”,美工在输出产品的同时,也能帮助我们训练成熟的LoRA,形成美术资产。由此,公司对人才流失的担心程度也会下降。

  • 第二部分,成熟的玩家社群+KOL。在冷启动时期,运营社群的成本很高,KOL很难培养,容易“翻车”,成本同样很高。因此,我们认为,处于冷启动阶段的游戏需要LLM精灵来替代部分KOL进行视频攻略的产出,并进行及时的付费引导。

  • 第三部分,强化学习首先,智能NPC可以作为游戏内容的产出。此外,冷启动时期我们提供机器人陪玩,增加玩家体验感。

AI+游戏的未来

  • 在AI技术方面,最大的挑战是灾难性遗忘和可持续学习问题。通用人工智能必须具备学习新事物和适应变化的能力。目前,尽管在训练方法和模型改进方面进展有限,但KAN是个很不错的开始。此外,中国科学技术大学提出的T样条理论,虽然尚未实际应用,但未来可能成为很好的数学工具。

  • 第二个方向是NLP和CV的输入方法,目前还不够高效和准确。许多Sora网络模型和CV模型都忽略了拓扑性和结构完整性。尽管NeRF通过高斯分布补充了这一缺陷,但其效果仍未达到预期。有了更精确的、拓扑更完善的输入,技术才能发展到下一个层级。

  • AGI到底能不能被取代?在AGI出现之前,结合AIGC和LLM的人机协作工作流,比端到端的解决方案落地更加快捷,效果更好。如果仅对prompt进行修改或进行无目的性的训练和产出,难以形成真正的生产力。

我的分享结束,谢谢大家。

 

Q&A

席友:如何利用强化学习在游戏设计方面来解决问题,还有哪些瓶颈需要突破?

樊一丁:在游戏设计方面,我之前做得比较多是三消游戏或小游戏的关卡测试。具体来说,就是开发或设计一个关卡,然后将其投放到市场上进行游戏难度测试。这一过程的测试成本通常很高。但如果我们训练一个泛化能力较强的AI来进行测试,可能只需5分钟就能完成1万局的测试。对于PVP或PVE游戏,利用强化学习代替玩家参与测试,可以快速生成数据,也可以技能改动的有效性,比如一个英雄或角色是不是过强。但目前,它的挑战在于模型的泛化性不够强。建模时,可能会出现在某个公司或某个游戏中用一模型比较好,但一旦“换皮”或改动较大,可能又需要重新训练模型的问题。

 

全文完

 

嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。

我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。

嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。

嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。

嘉程资本是创新者思考的伙伴,成长的伙伴。

 

嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap20176