李未可科技茹忆:AI Agent如何实现与AR设备的双向奔赴 | 嘉程创业流水席203席精彩回顾
01.11.2024 | 嘉程资本:创新者的第一笔钱 | 嘉程创业流水席

希望AI生态不是一个APP,而是一个鲜活的数字人,背后可能有很有趣的灵魂,它的模型能够真正地为每个用户提供服务。

近日,嘉程创业流水席第203席【探讨中外大模型在端侧落地的最新趋势】,邀请了李未可科技创始人&CEO茹忆分享,主题是《AI Agent如何实现与AR设备的双向奔赴》。

 

以下为正文部分:

我从事AI行业有很长时间了,但我的主要方向是智能设备,以及端侧设备和AI的结合。李未可科技在创立之初,就是向着这样一个目标进发的。我们在过去5年一直在做天猫精灵,也就是语音交互设备,当时我们认为它是一个家庭的助手。

所以,我一直在思考一个问题就是,那就是我们如何打造一个个人的助手。相信大家都看过一部关于人工智能的电影,叫做《她》,里面有一个AI助手叫萨曼莎。无论是Copilot、Agent还是萨曼莎,我都认为这是AI的一种进化,它能够用人类的方式与人类沟通。最近这几个概念都比较火,但不管概念如何,我们做的事情就是让AI更好地为我们服务。在这个过程中,我想到了一种可以落地的设备,它可能是一种随身携带的,且能够最方便地与人交互的设备。最适合的可能就是AR眼镜。这就是我当时创业的想法。

 

探索AI的最佳交互方式

其实AI的模型发展的还是很快的。2016年3月,阿尔法狗击败李世石,这件事对我的影响特别大。我们都期待AI以及语音交互的模型能够快速地实现突破。

2017年,我们在阿里巴巴开发了天猫精灵,这是一种语音交互设备。我们当时希望它能够实现全双工和更自然的交互方式。但实际上,最常用和最流畅的还是语音控制和语音指令。这是因为当时的大模型技术受到了很多限制,或者说有很多技术难题没有解决。

2022年,ChatGPT发布,其实那时候GPT-3已经开发了很长时间,我们能看到它的快速迭代。但我们往往会高估未来一两年的技术进步,而低估未来五到十年的技术成就和迭代速度。从2016年3月到2022年12月,短短六年半的时间,AI技术的进步非常快,从一个领域的一个任务,比如下棋,到了基本上全领域的认知。当然,它还有很多问题,但它的迭代速度已经非常快,未来几年可能会超出我们的想象。

大模型发展的速度很快,但我们还在用打字或触摸的方式与大模型交互,我认为这不是承载大模型或AI的最佳交互方式。因此,我们公司李未可一直在探索一个方向,我们认为交互应该更加人性化或者人格化。所以我们一开始就设计了一个李未可的数字人。这个数字人有一个故事,李未可这个名字来源于我们公司的英文名Let AI Awaken。我们希望让智能觉醒,用音译就是李未可,我们也希望未来可期。

数字人李未可

AR眼镜承载未来AI服务生态

我们现在是用语音交互,最好的方式是我们能够面对面地交谈,你能看到我的表情,可能能更深地理解我的意思,同时这也是符合人类最直觉、最原始的交互方式。那么最好的承载设备可能就是AR眼镜了。

李未可Meta Lens S3

AR眼镜发展到今天,要么像Vision PRO那样非常沉重,要么像其他一些轻便的眼镜,但只能实现简单的语音交互,无法进行复杂的计算,除非采用分体式的设计。这是AR领域的一个难题。但是,我们不能因为遇到了这些问题,我们就不去往未来探索。我们做这样一个选择,应该以终为始地看,从长远的角度,从10年后的视角,来思考今天我们的技术应该如何发展。所以,在创立李未可的时候,我们就在思考一个问题:10年之后的交互方式是什么?你应该如何与一个具备AI能力的AR设备,甚至一个机器人进行交互和交流?

比如,如果你现在感到饥饿,想去附近找点好吃的,在手机上你可能需要打开饿了么等APP搜索,但是如果你和一个AI交互的时候,你只需要说我现在饿了,附近有什么好吃的,它不可能告诉你:“哥们,你别慌,你先下载一下饿了么”。

所以,未来所有的服务可能很难用一个APP来承载,而是会融入我们的模型和交互中,这也是我们在思考的一个问题——如何去承载这些服务。

基于这样的逻辑,我们认为AR眼镜是一个非常好的、非常典型的设备,在家里可能还会有AI Pin这样的设备,但AR眼镜会是一个非常典型的交互入口。在它的基础上,交互层可以定位为一个虚拟数字的AI Agent或者一种多模态的交互方式,而真正为我们提供服务的可能是AI和云端的能力。

右上方为李未可科技眼镜端内显示的AI Agent 小柯

我觉得AI最终肯定是云-端的,甚至前端只是一个小的分发器的模型架构,但是以我们现在对算力和AI的理解,我觉得让它完全放在端上,还是有点困难的。如果你真的希望它是一个AI助理,可能它的大部分的理解力还是要在云端的。

我们的目标是从技术到场景,探索能够让科技服务于每个人的场景或生活方式,或者说是能够在特定场景下解决用户问题的产品。

我们也在微调一些模型,不是为了炫耀我们的技术,而是觉得在这个场景下没有更好的解决方案。我们自己构建了一个类似于多级的架构,但是它并不能解决所有的问题。比如说如何找到附近的美食,如何去解决吃喝玩乐的问题,可能我们需要去自己做一些探索。再比如,如何融合语音控制、设备控制和设备功能。

举个例子,假如我们做一个户外的眼镜,它可以用于室外娱乐,比如骑行、徒步或citywalk。你可以问附近有什么好吃的,我们会给你一些推荐。你也可以问这座断桥的故事,我们会给你讲解。你还可以问附近哪里有洗手间,我们会帮你导航。

李未可AR眼镜端美食推荐显示

这个时候,有些问题是传统的大模型,比如文心或星火,可以解决的。有些问题是不能解决的,有些问题是和设备相关的,比如导航功能。为了达到用户使用的预期,我们要解决这些问题,不管是用向量数据库的方式,还是自己训练模型,还是直接接入GPT或星火,去调用它们的服务,其实最后都要整合起来,给用户提供一个真正的Agent。我们顶在前端,对用户来说是一个Agent,要解决用户的问题,而且让用户觉得你的回答是一致的。这是一个非常好的应用场景。

探索AI Agent的最佳场景和模式

另外我们还有一个思考:未来服务人的是Agent、Copilot还是多个各种各样的专家。你是需要一个秘书,还是需要一个运动专家,遇到问题的时候可以去找警察,去医院的时候要去找医生,去购物的时候有个导购员,出去玩的时候可能有个导游。现在的Agent确实可以提供各种各样的功能,但是它不能拥有同样的专业能力,你需要用基础的prompt或者向量数据库去释放它的专有能力。这是一个浅层的问题,在人格化或者专业知识方面,还有一系列的服务在背后支撑。比如说点餐的服务后面可能是美团或者滴滴,他们会通过自己的数据提供相应的服务。但有一些领域比如医院,它的数据是很难公开的,它如何去提供一个服务给你,这也是我们在思考的一个问题,就是如何去接入更多的模型来服务我们的用户。

我们的尝试是先做一款易于落地的产品,让用户体验它的功能。这款产品足够轻便,适用于骑行和户外等场景,具有导航、音乐、拍照等刚需功能,还加入了多模态交互和个性化助手。比如,我们自己打造了一个领航员,它可能是个Copilot,它可以为你规划路线,告诉你前面有什么好玩的,解释这个断桥的来历,让它成为一个智能的助手。

我们还会在更多的场景下进行测试,从领航员到导游,再引入更多的数字人或Agent来合作,希望未来它的生态不是一个APP,而是一个鲜活的数字人,背后可能有很有趣的灵魂,它的模型能够真正地为每个用户提供服务,这是我们的探索。

我们用一个很小的场景,和一个最适合和人交互的设备,去寻找AI Agent在大模型的技术红利下的最佳场景,特别是在toC方面。这是我们公司的一个探索方向。

 

Q&A

席友:你当时是怎么考虑这个场景的选择的呢?

 

茹忆:其实我们做产品,都是寻找技术红利最大化的场景,也就是提升用户体验的流畅性。比如说天猫精灵,很长一段时间里,用户真正用到的功能就那么几个,比如点歌、查时间、开灯等。这些指令之所以常用,是因为它们比手机更高效。如果你用手机点一首歌,你要打开QQ音乐,然后搜索这首歌;如果你要设闹钟,你要在时钟应用里面点好几次。这些都是用户体验不好的地方,而当天猫精灵的体验比原来的设备高出很多的时候,这就是技术带来的红利。

其实在室外的场景下,用手机也不是很方便。你在骑行或者徒步的时候,要拿着手机导航其实很麻烦,所以在这个场景下,用语音交互就相对比较方便了。用户用过之后,就会慢慢转移到更日常的场景中去。我们当时就是这样考虑的。但是我们也发现,有些场景下,用户可能没有那么强烈的交流需求,主要是用来控制一些设备。但是当我们把产品放到city walk或者文旅的场景中之后,语音交互的场景就会增加很多。因为当你在行走的时候,一个可穿戴的设备比手机更方便,因为你不可能一边走一边按手机。在家庭的场景下,手机的替代性还不是很高,但是在室外,手机的替代性就要高出很多。

用户使用Meta Lens S3 进行City walk 打卡

席友:现在市场上有两种观点,一种是未来的大模型可以根据每个人的使用习惯或者需求,生成一个个性化的小模型或者定制的模型。另一种是像AI Agent一样,有专门针对教育、财经金融、投资等不同行业的模型。因为现在是从原来的COI到UI再到LUI,现在是LUI的一个过程。未来的LUI是大模型赋能个人做一个定制化的finetune,还是按照AI Agent的方式做一个垂直领域的模型,我只是在前端做一个预分类或者分拣,就像我做一个感知之后再做一个认知的选择?

 

茹忆:这也是我们这几年一直在探索的方向,我认为最后的结果,Copilot还是Agent,其实不是取决于技术,而是取决于商业和人性。首先,Copilot是一个秘书,人人都希望有一个秘书,所以从人性上来说,Copilot一定会存在,它能够更好地服务我。但是Agent也会存在,为什么呢?因为有很多数据是不会共享的,比如说医院不会把数据给任何模型公司,所以一定会有医院的Agent出现,滴滴、美团也是一样,他们会用自己的数据来提供Agent服务,或者会有一家公司来做Agent。这也符合人性,人类对各种人或者AI Agent的认知,肯定是有一个固定的标签的,它也符合人的认知习惯,所以我觉得从商业和人性的角度,Agent会存在,Copilot也会存在。

Copilot一个可能就够了,适合自己的一个就够了,但是肯定有公司会提供多个,你也不排除可能会有一两个秘书,我觉得它们一定会收敛,而且它们要更了解你,所以说Copilot其实是针对你自己的数据的一个Agent。它要理解你自己的数据,它是你个人的数据。它又是你个人数据的一个Agent,因为你拿不到医院的数据,你也拿不到美团的数据,你也拿不到滴滴的数据,你的Copilot未来会和这些Agent去交互,所以就会出现模型和模型之间的交互,因为它要为你服务。

 

席友:作为一个用户,我买一个AR眼镜,我携带这个眼镜的不便利性,相对于我获得的便利性,您认为这方面怎么权衡?

 

茹忆:我们尝试从两个方面解决这个问题,第一个是硬件的问题,硬件也在不断迭代,我们是中国第一个量产的MicroLED+衍射光波导最轻薄的一体机。实际上它已经推出一年多了,我们现在也看到更轻薄更日常的眼镜出来了,这种轻薄的AR眼镜的技术在明年可能会更多,这是我在这个行业看到的一个技术方向,达到完全可以日常佩戴,我觉得是有机会的。

Meta Lens S3 实图

第二个是场景的问题,其实在户外、徒步、游玩的场景下都可以佩戴AR眼镜,屏幕显示的不仅仅是导航的功能。纯从功能上讲,骑行的专业用户一般都有一块码表,码表有导航、有数据,像这些东西我们都可以替代。但为什么不低头去看码表呢?因为在运动过程中,低头看电子设备是不安全的。如果有一个设备可以透过去,数据就在边上,你可以直接看到,它是相对比较安全的。这也是为什么后来有一些厂商来找我们合作,希望它能看起来更安全一些。

 

从交互的层面来说,眼镜这个位置更适合交互,耳机也可以,但是它没有屏幕,你在自行车上把手机架在前面,低头看一下很危险,你在走路的时候,一直举着手机也不方便,你在徒步的时候,一直举着手机也不方便,所以从携带到穿戴是电子设备一个非常重要的趋势,更方便,交互更方便,呈现也更方便。

 

席友:您怎么看AI Pin的诞生和意义?

 

茹忆:AI Pin我觉得是一个非常有创意的产品,但我觉得也不是很方便,因为还是要别在身上。但至少在当前阶段,对于视觉的处理方式可能是目前我们探索出来的对于硬件比较好的方式,因为如果把摄像头放在眼镜上放得太多,又会很重,换电池又比较不方便。从便携的角度做视觉的交互,这种方式在我看来是一个妥协。

其实这家公司的核心还是AI能力,我们叫多模态交互的能力,硬件只是一个载体,所以我会从交互的角度来看这个事情,我们永远会希望找到一个合适的硬件来和人进行更好的交互。我认为未来AR眼镜在多模态交互中是一个非常重要的设备。也正是因为这样,李未可科技选择这条路。

 

全文完

 

嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。

我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。

嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。

嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。

嘉程资本是创新者思考的伙伴,成长的伙伴。

 

嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap2017