未来的方向可能是如何利用大模型来满足客户需求,而不仅仅是提高翻译质量。
近日,嘉程创业流水席第207席【探讨2024年AI最新应用和趋势】,邀请了云上曲率联合创始人&人工智能副总裁周吴夏朗分享,主题是《大语言模型在机器翻译中的应用》。
以下为正文内容:
应用行业出海是机翻行业趋势
先说一下行业现状。一般来说,国内有机器翻译需求的通常是做应用出海的,这几年可以很明显地感觉到应用出海是一个很大的趋势。这些应用出海中,有一些是强社交的,比如全球同服的SLG游戏和一些出海的直播应用,它们会对翻译的质量提出很高的要求,因为不能流畅交流会很显著地影响到应用的用户体验。
这些强社交应用上的文本有一个特点,就是很口语化。这些文本中会包含很多不规范的输入,比如错拼音、缩写,还有一些只有本地人可能才能看懂的网络用语和俚语。在这种类型的文本上,现有的机器翻译产品处理得都不是太好。无论是大厂、Google、微软还是专门做机器翻译的DeepL,对口语化的文本支持都不太好。我们之前对游戏和社交领域的口语化内容做了一些优化,效果会好一些。但是一方面,这种内容很难穷举;另一方面,它很依赖于专家知识,是一个非常费力又费时的事情。
最后不得不提一下ChatGPT,特别是GPT4。它的出现对于很多做AI应用的厂家都造成了不小的冲击,对机器翻译行业也是一样的。如果不考虑成本、稳定性和速度,GPT4在大语种上的翻译效果是很好的。特别是对口语化的文本能够很好地理解,并且以流畅的语言翻译出来。从2023年开始,我们的客户在测试的时候,经常拿我们的翻译结果和GPT4做对比,所以可以说,我们在机器翻译领域面临着直接与GPT4的竞争。
大语言模型能解决哪些机翻问题
看到这个后,我们也在思考,它对口语化翻译效果的优点这么好,我们怎么样能这种效果移植到我们的产品中呢?其实,我们内部对大型模型的讨论早在2022年就开始了,当时我们开始研究如何扩大模型规模,让它能够有更好的效果。当时,我们将模型从100M扩展到了约1B,经过用户自行对比测试,我们的翻译质量已经超过了Google,相比之前会有一个质变。但是,当我们尝试继续扩大模型规模而数据规模不变时,我们并没有取得很好的效果,而且尝试的成本也非常高。
大型语言模型和传统翻译模型有什么区别呢?从模型结构上来说,区别是显而易见的。传统翻译模型基于encoder-decoder结构,而目前主流的大型语言模型是基于Decoder-only的结构。但我们认为这种结构上的差异并不是影响其质量的关键原因。之前有研究指出,如果在相同的数据规模下,Encoder-only模型的性能会不如encoder-decoder模型。也就是说,Decoder-only模型胜在训练效率上,能够快速扩展,从而为更多的数据提供更好的效果。我们讨论下来认为,主要区别在于数据和训练方式。大型语言模型能够接触到的语料库,无论是时效性还是覆盖范围,都远远超过机器翻译所使用的平行语料库。这些语料库使得模型能够理解更多的语言现象和语法习惯。
大型语言模型可以利用这些知识进行翻译,在处理俚语或网络用语等非标的文本时能够提供较大帮助。同时因为它的数据规模足够大,它的输出也会更符合人类的偏好。
传统翻译强依赖于平行语料,但是语言模型的训练方式能够很好地利用一个单语料。单语料的数量级是远远大于平行语料的,对于一些小语种来说,平行语料的搜集是非常困难的,所以它对于小语种的翻译来说应该是一个很大的优势。
最后一个可能就是指令微调。这可能是大语言模型很迷人的一点,它能够理解你的指令,对你的指令做出反馈,对它的输出做出调整,这一点使得大语言模型在翻译上能够实现比较好的定制。
对大模型的调整之一——继续预训练
明确了这些问题后,接下来就是我们如何解决。目前市面上有许多开源语言模型,其中效果最好的应该是欧洲公司Mixtral开源的MoE模型。无论是社区测试还是自己的测试,都认为它的综合能力比ChatGPT强,但是弱于GPT-4。
但对于特定的翻译任务来说,市面上的开源模型没有办法做到开箱即用,主要有几个原因:
首先是语种问题。目前的开源模型大多支持英文,国内一些开源模型支持中文,像前面提到的Mixtral还支持一些欧洲地区的语言。但是对于一些小语种或者研发力量较弱的地区,它们的开源模型支持就会比较差。例如韩语、菲律宾语、泰语、越南语,甚至阿拉伯语,这些语种缺乏强大的开源模型支持。但是这些语种又是我们的用户很关注的,比如一些出海东南亚的客户会非常关注越南语和泰语上的翻译质量,因为这是一个新兴的市场,对他们来说可能是一个增长点。
第二个问题是输出稳定性的问题。使用过语言模型的人应该能感受到,它的输出并不完全按照你的意愿进行。许多模型虽然具有一定的翻译能力,但输出的结果可能会存在各种问题。例如,它可能会添加一些完全不必要的解释,也可能会因为文本中包含敏感词或被视为违反价值观的广告等内容而拒绝翻译文本。抛开这些问题,即使是在正常输出的翻译结果中,一些开源模型也存在一些翻译得非常好的例子,但总体而言还是不如传统的翻译模型,因为它们可能存在漏译或多译的情况,没有办法直接去使用。
所以,要使用大型语言模型,仍然需要在开源模型的基础上进行一些改造。这里提一下,我们一开始没有想过从头开始训练,因为对于我们这样规模的公司来说,成本和时间是完全不可接受的。因此,我们会对开源语言模型进行一些操作:首先是继续预训练,这在许多行业大型模型中应该是比较常见的操作。我们这样做的主要目的有两个:一是拓展模型在我们关心的语种上的能力,同时扩展它的词表,降低它在编解码时的成本。第二个,注入一些领域的知识。这是非常关键的,因为我们期望大型模型能够在不穷举的情况下对口语化表达进行更好的翻译。因此,我们添加了许多相关数据,包括一些非常见词的聊天数据,一些对网络用语解释的词典,以及通过爬虫获取的比较活跃的社区聊天数据,例如日常对话数据。
在继续预训练的过程中有比较关键的问题,就是数据的配比。通常,通用语料需要占比较大的比重,从实践上来看,85%以上都是通用语料,可能来源于爬虫,开源的。如果通用的语料占比过低的话,就会让模型的发放能力下降得非常明显,不管是从一个通用任务,还是从翻译的任务上来说,它都会有一个比较明显的下降。
还有一个是哪些权重是开放训练的。这个我们没有最终的结论,但是从目前的实际情况来看,模型固有的词表,新增的embedding去做微调会是一个性价比比较高的操作。这是我们做的第一个事情,就是做了继续预训练。
对大模型的调整之二——SFT
第二块是进行SFT(Supervised Fine-Tuning),这是一种有监督的微调方法。这一步与翻译任务的关联比较紧密。微调任务主要分为两部分:一部分是翻译任务,数据来源是我们积累的大量平行语料,经过了非常细致的清洗,以确保数据质量。另一部分是辅助任务,主要与翻译相关,包括纠错、译后编辑和翻译质量评估等。这些任务主要用作辅助翻译,例如词语解释,尝试用于CoT(Chain-of-Thought)的推理,评价质量能够让我们快速挑出翻译结果里的一些bad case。通过这一步,模型就具备了一些基本的翻译和辅助能力。
在这些任务之外,我们也尝试过加入一些通用的CoT序列数据。最终发现,加入这些数据对于我们关注的翻译能力效果有限,而且会增加训练成本,最后是舍弃了。这样做的后果就是训练模型的通用能力非常弱,比如它做算术或者做文章的总结,它的能力是远弱于基于开源模型微调的,但在翻译能力上却远远强于它们。
对大模型的调整之三——DPO
最后我们尝试做DPO,就是Direct Preference Optimization。这一步的主要目的是纠正一些常见的翻译错误,比如漏译或人称错误。然而,我们评估结果发现,这一步的效果非常有限。更关键的是前面两个步骤,因为这一步的成本相对较低,所以最后都用了。从理论上讲,DPO的泛化性能应该会比单独使用CoT好一些,但是比较难观测到,从测评上来说它确实会好一点。
大语言模型翻译效果提升明显
最后就是结果。使用大型语言模型后,效果确实有明显提升。前期是在一些用户比较关心的语种上去做一些尝试,这张图是使用了大模型之后的测评,它采用的是随机从线上抽取语料,分别使用了大型语言模型、传统翻译模型和一个5-shot的GPT-4进行翻译。可以看到,与传统翻译模型相比,大型语言模型的提升是非常显著的,平均提高了约7%。与GPT-4相比,除了中文没有明显优势外,其他语种如日语、韩语和阿语都有4%至5%的提升。这个结果对我们来说是相当令人满意的。
给大家看一些具体的case。可以明显地感觉到现在的模型能够很好地理解“吃瓜”或者“巨硬”这样的网络梗,它对比谷歌能够给出一些更加准确的翻译。GPT4同时也做得很好,但是它会给出像刚才说的一些不必要的解释,尝试告诉你这个“巨硬”,文本上它是什么意思,它确实给出了一个正确的翻译。
未来的挑战和机遇
最后,我想谈一下我的思考。首先用大语言模型并不是一个百利无一害的事情,它最大的障碍就是成本。我们有推算过,如果将现在使用的1B模型替换为一个10B到20B的模型,推理成本将增加10到30倍,这对我们来说是完全不可接受的。因此,我们在模型之外进行了许多优化,包括部署方式和使用方式。例如,一个非常有用的技巧是根据一定的条件进行切料,因为原始模型并不是在所有情况下都表现得很差,只需要挑选出大概率表现差的案例,然后让大模型来处理,就能显著降低使用成本。目前来看,实际使用中成本确实有所增加,但还在可以接受的范围内。
其次是训练成本。对于大型模型的微调来说,它会消耗更多的机器资源,这实际上限制了快速迭代,毕竟它的实验成本太高。成本这点我觉得对于多数希望有自己行业大模型的企业来说都适用,就是在试错成本很高的情况下,如何最大化地去利用它,其实是很重要。如果它的成本收益不成正比,硬上一个大模型,并不是最优解。比如对于我们来说,未来的实时语音翻译能不能够借助文本翻译的大模型起飞,是相对来说比较关键的。
我们内部会有一些讨论,未来会不会有更强的通用模型对我们形成降维打击,因为明年后年可能会发布GPT-5或者GPT-N。我认为短期来说还不太现实,因为大型模型的训练成本非常高,这个成本对于所有人来说都是适用的,包括我们和OpenAI在内。社区有估算过,训练一次GPT-4大约需要花费6000万美元。如果按照OpenAI自己的Scaling Law,要进一步提高模型质量,将需要更多的数据、时间和计算资源。然而,从数据和计算资源的角度来看,在一定程度上是有限的,质变还是相对比较困难。
从翻译的角度来看,通用模型不太可能平等地关注所有语种。这主要受制于语料的分布,对于一些小众语种来说,模型效果可能会较差,甚至不如单独训练的模型。前段时间大家应该都看到OpenAI 发布了GPT-4 Turbo,号称是比GP4更强也更快,但是我们的测试结果发现在翻译任务上它的能力会比GP4下降大概10%左右。所以想要更好且成本更低的通用模型,相对来说是比较难实现的。
最后就是壁垒,对于我们来说大量口语化的平行语料可能是我们的壁垒之一,但是我们觉得这样是不够的。以我们的体量怎么样更好地服务客户,怎么样给客户更好的服务体验,可能现阶段来说这些问题比翻译质量会更重要。毕竟有部分客户选择是因为我们能够做快速响应,能够很配合地提供一些定制化的服务。这个是Google或者OpenAI的巨头做不到,或者是不屑于去做。因此,未来的方向可能是如何利用模型来满足客户需求,而不仅仅是提高翻译质量。
以上就是我的分享,谢谢。
Q&A
席友:具体是怎么评价翻译的质量和效果?
周吴夏朗:翻译这方面,学术上有一个指标叫做BLEU,但我们认为它过于注重词和N-Gram的匹配,实际用户更关心的是是否准确表达原文意思。因此,我们通常请人工评判翻译是否能准确表达原文意思。
席友:网络梗翻译的数据集是如何收集的?
周吴夏朗:您可以通过关键词在一些地方找到,各语种都有一些解释,可能在论坛或维基百科里面,这可能就需要一些关键词的爬取。我们有专门团队负责这项工作,因为数据非常关键,但具体爬取方式涉及很多问题,比如在哪里爬取、在哪些网站爬取效果更好等,涉及的内容很多。
席友:如何解决海外比较关注的个人数据安全的合规性问题?
周吴夏朗:我们的客户默认情况下是不会把数据共享给我们的,我们会在全球各个点都会布上服务,数据是不会过境的。如果他授权给我们使用他的数据,我们会针对他的项目会进行一些优化。
席友:实时翻译有延迟吗?
周吴夏朗:肯定会有延迟。对于一些出海客户,比如游戏,实际上是在聊天框中输入文字,然后进行翻译,对于这些客户来说,实时性要求相对宽松一些。如果不使用大模型,可能在200毫秒内能返回结果;如果使用大模型,可能时间会增加一倍,达到500至600毫秒。但是对于实时语音翻译,它要求结果非常快速,这就使得使用大模型的结果会比较困难。
嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。
我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。
嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。
嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。
嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap2017