若能将语音采集做得更加人性化,整个语音交互系统就能基本满足用户体验需求。从这个角度来看,语音是未来智能时代的变革因子,它不是新功能,但有可能成为未来智能产品设计的最大变量,同时也是最大增量之一。
近日,嘉程创业流水席第228席【探讨2024 AI+硬件在不同场景落地的最新趋势】,邀请了黄鹂智声创始人刘志分享,主题是《语音大模型给智能音频产品带来的新机遇》。
以下是正文内容:
大家好,我是黄鹂智声的创始人刘志。自2005年至今,我已在声音领域创业近20年,早期涉足过语音识别与口语测评。目前成立了黄鹂智声,专注于声音前端处理解决方案,为更好的声音采集提供技术和产品。我们可以看到随着语音大模型的不断发展,或将为智能硬件,特别是智能音频产品,带来新机遇。
GPT-4o引发语音交互新思考
前段时间,OpenAI发布了GPT-4o的最新版,各方面性能带来了显著的提升:速度更快、准确性更高,尤其在理解上下文方面表现突出。从用户体验角度看,它更加贴近用户需求,更加友好。多模态输出的整体表现优秀,让人难以分辨对方是机器还是真人,达到了以假乱真的程度,体验甚至比之前的GPT-4还要好。
语音是人与人之间最直接的交流方式,按理说人机之间也应如此。但过去由于种种原因,这一点并未实现。GPT-4o发布后,我们更加确信这一点未来能够实现。接下来,我们要思考的是:未来智能硬件的设计中,语音功能能否成为一种新的设计范式?
人机交互方式变化带来应用革新
每次人机交互方式的革新,都会引发应用层面的巨大变化。信息革命之后,从人机交互角度来说有过几次跨时代的变化。首先是PC时代,键盘、鼠标和Windows视窗系统成为人机主要的交互方式。PC是那个时代主要的硬件形式,随后,笔记本电脑等移动PC以及手机的出现,让我们来到了移动互联时代,这时触控与摄像头成为了人机交互的新方式,而伴随着新的交互框架和形式,也催生了前所未有的新应用。
人工智能的发展未来会引领人机交互进入到智能时代,端到端语音交互能力有可能成为智能时代的新变量。因为人机交互最便捷的方式是声音,如果假设成立的话,对于软件、硬件形态的变革,和过往应用的重构以及新的原生应用,可能带来的发展将会是跨时代的新机会。
语音交互成为新范式
语音交互可能成为新范式的原因很简单。首先,语音是人与人之间最自然的交流方式,传递的信息量超过65%。我们常常忽视声音,误以为文字才是信息的主要载体,其实只是因为声音存储起来较难。实际上,声音是最直接的交互方式,在线交流时,语音往往是传递信息的主力。其次,语音输入比打字更快,也更直观,无需额外训练。再者,语音交互对特殊人士特别友好,不仅限于视障或行动不便者。在很多生活或工作场景中,如开车、做饭等,语音可能是唯一的交互方式。最后,语音交互能解放双手,让人可以一边处理其他事务,一边进行交互。综上所述,语音交互在人机交互中占据重要地位。
搭建语音交互闭环系统
但是现在不论是PC还是移动设备,语音交互的比例非常低。语音交互变换系统的构成并不复杂,共有4个环节。一是语音采集,通过机器上面的麦克风来捕捉用户的语音输入并处理,以此作为整个系统的起点。二是语音识别,把语音信号转化成文本。这个过程中语音识别和语义理解会相互配合。三是语义理解,分析内容、理解意图,实现意图的识别、关键信息的提取等。四是语音合成,对系统来说理解之后把系统响应转换成自然语言的输出就完成了交互的闭环。虽然步骤不复杂,但每个环节都有难题。语音识别是目前最成熟的,识别准确率已接近或超越人类。在实时性、跨语种识别和嘈杂环境适应性上,语音识别已能满足多数语音交互需求。
尽管如此,语音识别仍面临挑战,特别是在识别专有名词、方言及多语种混杂时,语音输入常出问题。但是从总体看,语音识别部分是整个语音交互闭环系统里面进展最好的。过去用户体验不佳,主要是语义理解拖了后腿,因为传统方法仅基于规则和浅层学习,难以应对复杂语境和多样化表达。回想上一代产品,以智能音箱为典型的人机交互产品,很多时候被戏称不是人工智能,而是人工智障,对于很多的响应答非所问。现在,大模型通过海量数据训练和参数推理,能更好地理解上下文,处理模糊、隐喻和多义性表达。
语音交互系统的进步,大模型功不可没。我们能看到它未来的发展趋势,比如结合专业知识进行微调来更精准地识别场景,还有融合语音、文本、图像、视频等多模态信息,实现更全面的理解。声音的本质是传递信息,因此理解信息是大模型中最难也最关键的部分,语音大模型技术有望彻底改变声音交互。
语音合成仍然是重要的点,过去的语音合成系统最直观的感受就是一听就知道是合成的声音,目前语音合成在几个方面取得了新的突破,包括整体合成的自然流畅度、情感的表达、个性化的声音,甚至是模拟定制的声音,以及多场景的适应,理解当前的场景来相应的进行合成的输出。这些点使得这个机器听起来更像人,可以有效减少人和机器交互时产生的不适感和心理障碍。
另外一个重要的部分就是黄鹂智声目前在做的工作:声音的前端处理,目的是打通整个语音交互的最先一公里。采集端把复杂环境下所需要的声音清晰的提取出来,这项工作不像大模型技术那样复杂、高参数且需要大数据量的训练。但却是决定整个系统成败的关键因素,以往声音交互系统中,这部分常被忽视,却对用户体验有着巨大影响。
我们的重点包括环境噪声消除,确保采集的声音中不含周边噪声。同时,我们还在探索新需求,如人我分离技术,即区分使用者和环境中的其他人。这样,系统就能准确识别用户声音,过滤掉他人干扰,提升语音交互的精准性。例如,开车时喊小度导航,若设备无法区分用户,就会导致所有手机都回应,严重影响用户体验。再往后的需求是多人的分离,在多人的对话或者多人沟通的场景当中,分离并且识别不同的说话人,支持更复杂的交互场景。在分离之后,还要做声音的增强,提升声音采集的质量,使人机交互系统的输出效果和效率都能得到显著提升。
语音:AI时代的变革因子
过去几十年,语音交互的研究从未停歇,今天,语音识别、大模型语义理解和语音合成等方面已有显著提升。若能将语音采集做得更加人性化,整个语音交互系统就能基本满足用户体验需求。在这个角度上来说,语音是未来智能时代的变革因子,它不是新功能,但是有可能成为未来智能产品设计的最大变量,也是最大的增量之一。如果去类比,可以比照移动互联时代的触控摄像头和 LBS的位置去思考创新的契机在什么地方。
近年来,不少案例颇具参考价值,如Meta Ray-Ban眼镜,因其作为语音助手实现免提操作和信息获取而广受市场欢迎,Meta还计划增添更多功能。再看讯飞的Nano,其核心应用是自动生成会议纪要,大幅提升工作效率。而时空壶品牌的翻译耳机,则实现了实时翻译,满足了跨越语言障碍的需求。市场反馈显示,语音助手、自动会议纪要、实时翻译等功能已被验证有效。在语音交互系统中,这些新应用往往是基于旧有需求但未充分满足的领域,或是全新尝试,且紧密结合了新型硬件。
AI语音加持下硬件的可能性
这也引起我们很多思考。一是硬件形态的可能性,有很多新的可能或者机会。主要依据应用场景可分为智能穿戴、车载和智能家居三大类,其中智能穿戴的变数最大。在智能时代,手机是否仍是移动互联的最佳硬件形态尚存疑问。近年来虽有新形态尝试,但多不尽如人意。眼镜虽开始摆脱手机束缚,但仍面临诸多问题。一段时间内,配件加手机的方式,特别是受算力和功耗限制,仍为主流。但智能时代完全有可能出现全新硬件形态,通过人机交互、语音交互,成为新时代的最佳实践,这一领域也将激发大量探索。
二是车载系统,车本身有很多限制,所以目前的形态还是集成式的语音控制台,未来演化方向有可能变成分离的,比如车玻璃变成大屏,分区对不同的人进行语音的识别和交互、监控。
三是智能家居,很大的变量是机器人。在现有的基础上,联网的家电,通过家电的互联实现随时随地在家里任何位置、任何角落,声音清晰的识别和交互。这是在现有硬件形态上的可能性。还有种可能的形态是机器人可以跟着人跑,这是硬件上的可能性。
AI语音加持下软件的可能性
随着硬件形态和交互方式的变革,软件应用的可能性更加引人注目。如果语音交互成为AI时代的主要交互方式,那么几乎所有的应用都将迎来重构。以教育为例,现在的英语学习软件已经与过去大相径庭,孩子们可以与机器对话,就像有外教实时提供反馈和指导一样。
在社交层面,人机语音交互将开辟新的社交维度。虚拟人物,如抖音上的虚拟主播,已不再是新鲜事物。然而,目前的交互还远远不够,交互做的还不够,包括智能陪伴、个人成长的助手,都是现有的应用基础上可以直接联想到的升级,比如游戏等完全用语音进行操控等的可能性,新的时代一定会有大量的探索。
如果开一点脑洞,AI时代未来语音交互成为主流的情况下,哪些可能是新的原生应用?比如虚拟分身,通过语音和行为模式来创造自己的分身,帮助处理大量的日常事务。又如个体的增强,不再依赖于APP,我们每个人都可以成为“APP”,通过语音接口将计算机界面直接融入大脑,拓展认知能力。虽然目前有些应用,如眼镜通过语音识别提示对面声音,还属于辅助类,但更引人注目的是直接增强个体的应用。
语音语言承载的是个人的情感思想等,如果通过记录个人语音和行为数据,全方位无死角的从出生到消亡,全部记录下来,基于这些数据来创建数字化永生,实现生命的延续。这些在今天基于过往的交互方式是没有办法去实现的,但是随着未来的语音交互方式,包括其他的存储等各类技术的发展,可能会成为新的原生应用和新现实。
语音交互应用面临两大挑战
语音的交互应用上仍然存在着诸多的挑战,主要来自两个方面,一是技术难题。大模型在实时处理,尤其是移动设备上的网络依赖,实现起来很困难。在嘈杂或多人的复杂环境中,识别及语义理解的准确率仍待提高。此外,多语言支持的深度和广度也是一大挑战。其次因为人工智能大模型思考问题的方式和人类智能的本质仍然有差异。从生物学的机理上,包括能耗的表现、参数的规模等方面还在继续挑战,或者仍然还想去发掘人类智能的本质去提升人工智能系统的效能和效果。
二是产品和市场方面的挑战。首先,打造产品时确保用户体验细腻入微,极为不易。每种新交互方式从出现到被用户接纳,都需跨越应用层面的鸿沟。例如,触控交互起初也不被看好,直到苹果引入电容屏,让体验变得流畅,才被大众接受。现今许多语音交互产品仍显粗糙,就像早期的电阻屏,不够流畅,细节处理不足。像语音翻译应用若需手工干预或说话时还得手动提示,就大大影响了用户体验。每多一步操作,都会显著降低用户满意度和选择意愿。
其次,用户心理接受度也是一大障碍。新交互方式,尤其是语音,要成主流,还需时间让用户从心理上接纳。很多人担心在公共场合用语音交互会泄露隐私。再者,隐私安全及AI伦理问题也日益凸显。个人声音数据如何使用、是否触及伦理底线,都是应用和市场面临的新挑战。
作为技术上的谨慎乐观者,并在语音领域深耕多年,我深知语言与思想紧密相连。借用维特根斯坦的话,语言的边界就是思想的边界。语音承载了人类最宝贵、最核心的价值——思想。
在未来,语音交互是一个引子,它触及众多应用领域,并深刻影响我们对人类思想的理解与探索。大模型技术的发展正是基于“语言的边界就是思想的边界”这一理念。对于人类语言的本质理解,蕴藏着无尽的探索空间与价值。
我的分享结束,谢谢大家。
Q&A
席友:做AI硬件产品如何在竞争中防守,不被巨头产品的延伸功能覆盖掉?
刘志:这涉及智能硬件从哪些点出发,语音交互还处在百花齐放,百家争鸣的阶段,哪些应用的点未来真的成为主流还在探索。所以怎么去选,包括在功能层面上主打哪个点、哪些用户群,创业者的机会是非常多的。有点像移动互联刚兴起的时候,虽然看起来很多大的机会是大厂自然延伸。但小的创业机会非常多,抓细分场景、细分应用、细分人群。交互的角度要做到极致,对于任何大厂来说也不容易。比如翻译场景,翻译的实时性、准确性、多语种,在同一个内容中有多语言很多小的点。对用户来说直接决定了东西好不好用。AI硬件产品要极度关注用户体验上细小的差异。
席友:现在语音交互的场景,大部分都会需要声音前端采集的技术吗?
刘志:随着语音交互应用的深入,越来越多需要用到声音前端采集的技术。目前大量的语音交互都处在比较浅层次,或者比较初期的阶段。场景的单一性和交互的简单性,有一部分对于前端处理的需求还没有那么强。但是随着多项技术的叠加式的发展,用户使用场景的变化以及对语音交互的需求,前端采集技术的需求也会越来越强。
全文完
嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。
我们的投资涵盖人工智能、硬科技、数字医疗与健康、
科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。
嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。
嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。
嘉程资本是创新者思考的伙伴,成长的伙伴。