聆思科技李璞:大语言模型在智能终端设备上的应用进展与趋势 | 嘉程创业流水席203席精彩回顾
    01.11.2024 | 嘉程资本:创新者的第一笔钱 | 嘉程创业流水席
    大参数规模的LLM会通过网络赋能小算力的端侧设备;小参数规模的LLM会直接部署在大算力的端侧设备。

    近日,嘉程创业流水席第203席【探讨中外大模型在端侧落地的最新趋势】,邀请了聆思科技方案产品部总经理李璞分享,主题是《大语言模型在智能终端设备上的应用进展与趋势》。

     

    以下为正文部分:

    我来自聆思科技,依靠芯片+算法+云服务做一体化解决方案,助力智能硬件产品的快速落地。

    什么是有竞争力的智能硬件产品?上面是几个比较典型的用我们的芯片并且出货量比较大的产品。比如离在线扫描笔,自动跟拍功能的云台以及搭载麦克风阵列的会议机。

    在使用我们的芯片之前,扫描笔用的可能是Linux视觉芯片;跟拍云台用的可能是安防摄像头类的芯片;会议机可能是用一些Linux音频处理芯片。这些方案的整个硬件平台的成本大概在200元左右,终端售价必然会在500元以上。而我们的芯片方案可以把这三个品类的硬件成本显著降低,让这些品类的售价从500元以上降到300元以内,从而让这些产品的销量呈指数级的增长。在我们新的芯片方案的参与下,扫描笔市场出货量已经超过千万,而云台和会议机也是在百万级别的规模稳步增长。

    下面我们要聊的是大模型应用的当前现状和未来趋势,我们通过与很多终端的品牌客户和方案商的交流,发现了以下两大趋势:

     

    大规模参数LLM赋能小算力端侧设备

     

    第一个趋势就是使用大规模参数的大模型,比如100B以上的,它们会通过网络来赋能小算力的终端设备。

    什么是小算力的终端设备呢?就是那些几乎无法在本地运行一个大模型,但又迫切需要智能化的设备。其中,速度较快的就是消费电子,如智能音箱、智能手表等品类。我们现在有很多客户都在为这些品类制定硬件方案,打造最终的终端产品。例如,上面的天猫精灵音箱已经上市了,也是我们看到的能够实现大语言模型交互的第一个音箱,同时也有很多白牌的产品已经上市,它们目前主要面向海外市场,通过亚马逊等渠道销售。再往后就是偏慢一点但最终也会上线的大模型智能家居系统,比如智能空调、智能冰箱,它们肯定不会在本地运行一个大模型,但它们也非常需要大模型的能力来提升智慧家庭的体验,这一批的智能家居的方案预计会在2024年下半年正式对外发布。

    我们对以上这些产品的一个判断,就是这些设备会因为算力不足直接对接云端大参数规模的大模型,提供最佳的交互体验。也是我们重点在做的一个方向。因为我们的芯片虽然被称为AI芯片,但本质上是专注在端侧的感知智能的,比如语音唤醒,通话降噪,把一些简单的传感器的信息收集,把视觉的一些简单的处理在端侧完成,让大模型接收到更丰富、更准确的信息,从而输出更好的结果。所以这也是我们重点关注的一个方向。

    以下就是基于我们的芯片跟大模型连接做的案例。

     

    (视频字幕)

    Q:室内机滴水怎么办?

    A:收到,检查并关闭门窗,防止室外湿热空气进入室内,等待降低房间湿度。

    Q:跟我说一下广州那边有什么好玩的,顺便查一下那边的天气。

    A:稍等一下,广州有很多好玩的地方,比如长隆野生动物世界、广州塔、白云山、陈家祠等。广州今天全天晴,气温15摄氏度,近28摄氏度,空气质量良,有东风微风,气候温暖。

    Q:小聆小聆。

    A:在呢。

    Q:冰箱里有什么吃的?

    A:我在处理了,冰箱里有番茄、牛肉、茄子、猪肉、鸡蛋、土豆、鲫鱼、豆腐和青菜。

    Q:用这些食材给我做个三菜一汤。

    A:给我点时间,番茄炒蛋,土豆炖牛肉、红烧鲫鱼和豆腐青菜汤。

    Q:这些菜能提供什么样的营养成分?

    A:请稍后,番茄炒蛋提供蛋白质和维生素C,土豆炖牛肉提供蛋白质,也含维生素b6,红烧鲫鱼提供蛋白质、钙和磷,豆腐青菜汤提供蛋白质、钙和维生素k。

    Q:小聆小聆。

    A:在呢。

    Q:空调支持哪些模式?

    A:给我点时间,空调支持舒适、制冷、除湿、送风、制热5种模式。

    Q:什么是空调的舒适模式?

    A:请稍后,舒适模式是空调的一种运行模式,在此模式下,空调会根据采集到的温度、湿度、风速、热辐射、着衣量、活动量等参数进行处理,自动调整运行状态,以使人体达到较为舒适的状态。

     

    这是我们为某家电的大客户打造的智能家居的智能问答解决方案,它结合了云端的知识库和大模型,以及本地的认知能力——包括唤醒、降噪和多模态的处理能力。基于大模型,云端使用的是星火130B+的模型,端侧使用的是我们的芯片,中间通过一个通道芯片连接到网络。

    做这种方案,我们考虑最核心的问题有两个:

     

    • 一个是响应速度,因为大模型运行较慢,所以我们要在整个链路中,从芯片到大模型输出首字,再到语言转音频的TTS合成,做全链路的优化,最终实现了现在的平均响应时间,从用户说完最后一个字到播出应答语音只需1.5秒左右,保证了交互体验不会感觉太慢。中间的一系列流式处理是我们要解决的核心问题,以提升响应速度。

     

    • 另一个是调用成本,毕竟调用大模型都是按Token计费的,我们要想办法用更少的Token,更快的速度,更低的推理成本,来生成用户需要的内容,这是在这个趋势下要解决的另外一个核心问题。

     

    小参数规模LLM直接部署大算力端侧设备

    另外一个趋势就是参数较小的10B以内的大模型可以直接部署在大算力的终端设备上。

    什么是大算力的终端设备呢?就是像现在的旗舰手机、智能座舱,以及一些类似苹果大型头戴的AR视觉设备等,这些设备基于芯片指令集的优化是有机会运行一些参数规模较小的开源或者定制大模型的。

    这一类的核心趋势,可能一开始还是以云为主或者终端云结合的方式,但随着用户使用得越来越多,积累的数据越来越多,比如先用130B的模型,通过Promote或者少量的SFT的方式,达到比较好的交互体验,积累了足够多的用户交互的优质数据,再通过模型蒸馏或者小参数规模的大模型的定制化训练,让它在特定场景下提供几乎跟大参数大模型一样效果的交互体验。例如在车机里,用户不会期望它在车上做一篇文章,画一幅漂亮的画,这没有意义,但它能够通过对多意图的理解,对请求的长上下文的理解,对用户繁琐的表达的精简,最后实现非常精准的控制,这对于特定场景下提供更加自然的交互体验是非常有帮助的。

    利用小参数规模的大模型,也要解决两个核心问题,一个是定制效果,一个是部署成本。定制效果就是先用大模型存储数据,再用小模型定制化,在特定领域实现小参数规模的大模型达到大参数规模大模型相近的水平。部署成本就比如一个手机要部署一个7B的模型就要十几个G的内存,我们要想办法把十几个G的内存逐步减少,让它能够在用户的手机上以一个较合理的资源占用方式运行。

    以上是我的分享,谢谢。

     

    Q&A

    席友:目前大模型在家电或家居设备上的普及度趋势的速度可能是怎样的?

    李璞:家电的更新一般都比较慢,一个创新迭代的版本,差不多都要一年,很多家电的大模型方案都是在2023年年中开始的,成果估计要到2024年的下半年才能看到。

     

    席友:推出这样的功能,大概会对成本有多大的影响? 

    李璞:如果是对接云端大模型的方式,成本在边际上不是很大的,主要要解决的是持续调用的成本,而持续调用的成本,可以通过一套完整的计算方式来优化,比如根据用户的活跃率、每次交互的访问次数、每周的活跃次数,最终形成一个大的调用量预估。我们现在很多智能家电是语音交互的,但是他们的激活率其实并不高,如果是上了大模型之后,还是按照原来不高的比例激活,它的代价并不大。但随着时间的推移,可能它的活跃用户会因为口碑的传播比例越来越高。不过与此同时,他们在云端也积累了足够多的可以用于训练的数据,他们可以通过模型降维的方式,比如之前先用云端的130B的模型,可能降维到65B的SFT的版本,自己本地私有化一下,未来就只是个服务器的成本,再加上随着时间的推移,云端推理芯片的成本也会越来越低,我相信摩尔定律一定能把这个问题解决了。

     

    席友:你现在看到有一些什么样的有意思的用例,能不能也跟大家分享一下?

    李璞:大模型本身在我们看来,它对于跨行业的0~1的知识是非常完善的。例如,我在客厅桌子上放一个我们的大模型开发板,吃饭的时候我问它一个鸡蛋有多少卡路里,我健身的时候,问俯卧撑到底是下落的时候呼气还是撑起的时候呼气,有很多这种本来以前要去拿出手机或者电脑去查询确认的信息,现在随口一问它就能告诉我了,整个对我的感受是非常好的。

     

    席友:如果检测到小模型回复不了的问题是不是就要上端?如果是这样,那这个端侧怎样判断什么问题能处理,什么问题处理不好,以及中间会产生多少的延时?如果要上云的呢?

    李璞:如果是控制类的指令,比如你让它打开车窗,如果本地小参数规模的大模型返回来的结果没有按照约定,比如约定是一个Json,一定要有哪些字段,每个字段的值一定是什么范围的,通过本地约束性的检查发现它缺失了关键指标,那就立刻把这个请求送到云端大参数规模的大模型来处理。至于中间的延迟,我们估计就是基本上端侧处理的时间,再加上一个云端响应的时间,如果端侧的模型是个参数规模偏小的模型,可能两三百毫秒就能处理完的。如果是大一点的模型,可能整个链路是一秒左右。

     

    席友:比如随口说历史故事这样的指令呢?

    李璞:如果需要处理的内容不止是控制类指令,我们一般倾向于在前面再加一个超小的模型来做分类器,这个分类器来决定落域,也就是你的请求到底属于哪个域,是落在控制域,还是落在生成域,还是落在闲聊域,还是落在其他什么样的需要依赖网络的,比如问天气,这一类的需要网络来执行的。分类器的耗时大约是毫秒级的。

     

    席友:目前支持哪些多模态的输入,包括具体在端侧是实现了一些什么样的功能?

    李璞:三大类,视觉类的、音频类的和其他除了视觉和音频以外的传感器类的。视觉和音频类我们现在能做一些姿态检测、坐姿检测、手势检测,头肩检测、唇动检测这一类的能力,可以和优化后的人的语音内容相结合,一起送到云端。而传感器的能力,比如温湿度这一类的,可以跟空调控制,再结合用户的一些习惯,形成一个更智能的空调的温度曲线的调整。

     

    席友:这些多模态控制,您说只是做采集,都是送到云端处理是吧?

    李璞:最终都是送到云端处理,不过我们甚至可以在本地做基本处理,比如当前用户的手势是ok,我们会送到云端说用户说了这么一段话,同时比了一个ok的手势,把它送到云端让大模型决策。

     

    全文完

    嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。

    我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。

    嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。

    嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。

    嘉程资本是创新者思考的伙伴,成长的伙伴。

     

    嘉程资本
    握手未来商业领袖
    BP 请发送至 BP@jiachengcap.com
    微信ID:NextCap2017