亚马逊云科技肖培庆:Claude3企业端落地实践 | 嘉程创业流水席210席精彩回顾
04.03.2024 | 嘉程资本:创新者的第一笔钱 | 嘉程创业流水席

Claude3是一个多模态模型,不再是纯粹的文本模型。它新增了多模态功能,能够适应多种企业级应用场景。

近日,嘉程创业流水席第210席【探讨AI多模态从基座到应用的最新趋势和前沿动态】,邀请了亚马逊云科技初创资深解决方案架构师肖培庆分享,主题是《Claude3落地应用实践分享》。

以下是正文内容:

今天,我与大家分享Claude3的落地实践。我是亚马逊云科技的解决方案架构师,我将从云计算厂商的角度出发,主要介绍基于Anthropic公司最近两周发布的新LLM——Claude3的基本功能,以及从企业和初创公司角度出发,观察到的一些落地案例,可以带给大家一些洞察,让了解LLM的强大之处,以及它能在哪些方面可以帮助企业。

不同性能模型适用不同场景

我相信大家已经通过新闻报道了解到关于Anthropic Claude3的信息,整体来讲,Claude3推出了多款模型。从LLM的角度出发,我们看已经实际落地的LLM,例如文生图和文生视频模型,我们会发现没有一个单一的模型能够满足所有需求。无论是纯文本模型还是图像模型,真实应用场景的工程化里会涉及非常多的模型,这可能包括各种LLM和SLM,以及Stable Diffusion等图像处理模型,甚至还有自动分割、光线补充、肢体校正等小模型。因此,在真实落地场景中,不会是一个模型就满足所有场景需求。

当然,这也引出了其他问题,如成本和推理效率。众所周知,模型越大,成本越高,每百万token的输入输出成本相对较高。此外,大型模型的推理吞吐量通常较低,包括首个token的响应时间也相对较长。从这个角度来看,一些高级模型,如Claude3的Opus,可能更适合作为Agents或用于Tool Use场景。因为Agents需要强大的推理能力,包括COT和TOT能力,模型必须具备解决最终Agent形态所需的强大功能。同样,Tool Use场景要求模型能够知道何时调用哪个工具,以及如何通过自然语言理解问题,提取相关变量,并将它们应用于相应的功能。因此,这些场景对模型的挑战非常大,可能更适合使用功能更强大的模型。

接下来是一系列分析任务,包括Search&Retrieval任务。目前,许多企业在做RAG场景,他们可能需要从庞大的知识库中提取关联性较强的文档或数据进行RAG的Retrieval。在这方面,模型的能力尚未达到Agents的水平。

此外,我们将看到一些数据提取、分类以及Chat类模型的应用。许多用户对Chat模型的质量要求不如前两者,但对响应时间的要求却非常严格。例如,我可能基于LLM创建了一个Chat模型,但我希望在与其交流时能够实时互动。如果我说一句话,需要等待五六秒甚至更长时间才能得到回复,那么这些模型在Chat场景中的适用性就不太高。

同样,分类问题也是如此。我们观察到一些游戏/电商评论分析的应用,期望模型能够迅速地根据用户内容进行分类,判断内容是有害还是无害,并在保证一定识别精度的前提下,实现尽可能快的处理速度。因此,在不同的场景中,可以采用不同的模型。

Claude3模型分类和优势

在Claude刚发布的3系列模型中,匹配到三款产品,包括功能最强大的Claude3 Opus、中等规格的Sonnet,以及推理速度更快的Haiku。业界通常将这三种模型分别称为小杯、中杯和大杯,以表示模型的不同的能力。

Anthropic在3月份发布Claude3时,也一同公布了其benchmark表现。从公开的评测数据中可以看出,Claude3系列模型在多项评测中表现突出,尤其是Opus,在MMLU、数学推理问题、人类评估以及其他公开评测中均领先比较多。在某些评测中,Opus的0-shot-CoT评测得分尤为突出,而其他模型则可能需要5个shot的CoT。对于有PE经验的人来说,few shot模型能力的提升往往非常明显。如果一个模型在0-shot情况下就能取得高分,这表明其数据质量和模型能力都非常强。

Claude3模型相较于之前的版本,如Claude2.0或2.1,已经发生了显著的变化。现在的Claude3是一个多模态模型,不再是纯粹的文本模型。它新增了多模态功能,能够适应多种企业级应用场景。Claude3能够有效理解表格、图片、架构图和报告等多种格式的内容。我在早期也做了一些测试,将客户的亚马逊云架构图提交给Claude3进行分析。架构图相当复杂,涵盖了超过30种亚马逊云产品,包括不同级别的计算、存储和数据分析产品。将架构图输入Claude3后,模型能够像初级架构师一样详细描述架构图中的所有组件,并提供关于如何提高架构图可用性和性能的建议,令人印象深刻。

此外,Claude3的多模态推理速度也非常快。在其他场景中,如从文档、表格和图表中提取信息,以及对比保险理赔前后的图片时,模型能够进行责任判定和理赔推理。Claude3还包含了通用的OCR功能,尤其是在其小杯版本,有非常多落地场景,因为其推理速度快且成本低,整体OCR能力也十分强大。

关于Claude3,这张图展示了不同模型的智能程度、推理速度、多模态支持以及每百万token的价格。可以观察到,Opus在智能程度上非常突出,这一评价是与Claude3发布前最强的商业模型相比较得出的。例如,Claude3的Sonnet模型介于GPT3.5和GPT4之间,但提供了更快的推理速度,并支持多模态功能。Haiku则专注于速度,非常适合需要快速响应的Chatbot场景,包括角色扮演。它的推理速度极快,成本低廉,如果大家去对比一些其他的商业API模型,能看到它的成本有很大优势。

接下来比较一下多个主流的大型语言模型,主要是商业版的API模型,包括Open AI、Mistral、Google的Gemini等。在成本与吞吐量(Throughput)的图表中,可以看到Claude3的Haiku版本成本极低,比大部分的 API模型都要低很多。其token吞吐量达到了较高水平,大约是每秒120多个token。而Opus虽然总体价格较高,吞吐量不是最高,但其推理能力和COT能力非常强大。在科研领域,Opus有出人意料的表现,包括量子物理学、化学、合成生物学等领域,可以说是目前最强的模型之一。

Claude3性能多方面提升

Claude3模型相较于2.1版本,在多个方面有所提升:

  • PE方面:2.1版本的Claude倾向于使用LCM方法进行PE和提示词优化。Claude3在XML和markdown的兼容性上进行了改进。有一些客户原来在用其他的模型,迁移到Claude3的工作就会减轻非常多。

  • 拒绝回答率:Claude3在安全性方面得到了加强,创始团队将安全性视为首要目标,并在此基础上提升模型的推理能力。但是在这个基础之上,Claude3减少了错误的拒绝回答率。因为有很多场景中,客户的问题并不涉及非常严重的安全问题或有害信息,但是可能很多模型误判后,会做一些拒绝回答的动作。

  • JSON格式输出:许多客户需要将LLM的输出直接转换为标准的JSON格式,以便后端逻辑处理并集成到应用场景中。Claude3在格式输出的标准性上做得非常好,减少了很多的后置处理。

Claude3落地场景

接下来分享一些Claude3的落地场景:

  • Claude3模型在Roleplay、Character以及陪聊等场景中得到了广泛应用。这得益于Claude3模型较低的拒绝回答率和更加拟人化的回答,而非很多官腔。在测试其他API时,尽管它们也是基于大型语言模型,但在某些情况下可能会给出官方化的回答,甚至有可能会揭露自己是一个LLM,而不是一个角色。相比之下,Claude3的Haiku和Sonnet版本在拟人化方面做得更好。

例如,图片展示了一个用户在测试Claude3模型进行角色扮演时的情况,他们认为该模型非常适合角色扮演和角色设定。在拟人化程度上,Claude3具有明显优势。在速度方面,Haiku版本表现更为出色,能够在短短两秒内阅读完整本书。最近的Demo也显示了模型推理速度的优势,与业界其他开源或闭源模型相比,Claude3的time to first token非常低。

  • 另一个常见的应用场景是依赖于Claude3的200K上下文窗口,例如会议纪要总结、投研助手等,这些场景需要处理大量的财务报告和分析内容,非常依赖于LLM模型的长文本处理能力。Claude3的200K能力是其一大优势,同时,包括Claude2.1在内的Claude系列在处理“大海捞针”问题方面表现强劲。尽管内容窗口较长,但模型能够在内容的前、中、后部分都精准地找到相关内容,并将其作为最终输出。

    此外,许多客户会关心数据安全性。当调用官方API时,payload会作为API请求的一部分传递给第三方API,客户可能不清楚这些API服务器位于美国、欧洲还是其他地区。在某些情况下,客户需要明确知道数据的传输目的地和处理方式,以遵循GPT或其他数据传输要求。目前,Claude3已应用于Amazon Bedrock,这相当于在Amazon的私有云中私有化部署各种模型,包括Claude模型。因此,所有API调用,包括请求和响应,都仅在VPC内部进行。从数据合规和安全性角度来看,我觉得这是目前很多人比较关心的点。

  • 第三是OCR场景,包括发票识别、处方单识别、订单号提取和序列号提取等。Claude3能够全面识别图中衣服、眼镜和鞋子。与其他产品相比,Claude3在识别种类上非常丰富。目前,一些客户已将Claude3应用于生产环境,例如将医生开具的处方单标准化,将数据存储到数据库中。通过数据也能触发电商平台流程,例如基于用户的近视度数或散光度数,系统能自动匹配合适的眼镜,并处理发货和订单核对等,这方面已经有非常多落地的案例。

  • 第四个场景,在摄像头硬件或保险行业中,需要对大量图片和视频进行分析,如视频抽帧后形成多张图片分析。Claude3能够识别连续帧之间的变化,并详细描述图像中发生的事件。许多IPC客户希望利用LLM的能力为其客户提供增值服务,例如提供云存储和智能分析等。

  • 第五个是游戏评论分析、电商评论分析或内容过滤等场景。这更依赖于Claude3的Haiku版本,因Haiku能快速分析内容,并且成本低廉。Haiku的幻觉率比起其他模型也相对低一些,非常适合生产环境。

  • 第六是翻译场景。翻译场景中,我们做了非常多测试,它翻译的本地性、口语化其实非常强,甚至难以区分是人工翻译还是机器翻译。另外,我们也使用Claude3翻译产品英文说明书,其中文翻译与官方人工翻译版本非常相似,相似度超过95%,翻译的精准度基本能够达成机器翻译再加人工纠正的水平。

  • 另外还有一些落地场景,包括智能客服、广告素材审核、游戏NPC、运营,以及AI for science等领域。特别是在AI for science领域,Claude3在物理学、合成生物学、化学、量子力学等科研领域能力非常强,具备强大的论文理解,能够基于科研数据做推理,能显著提高科研人员的工作效率。

Claude3已在Amazon Bedrock平台上线。Anthropic在Bedrock平台提供了多款模型,包括Claude3的Sonnets和Haiku版本,以及2.1版本和Claude-instant。此外,还有开源模型,如Mixtral7B、Mixtral8×7B 、Llama2的3B和70B版本,以及Stability AI的Stable Diffusion和XL1.0版本等。这些模型均可通过API方式在Bedrock平台上调用,并且确保了数据安全性。

以上就是我的分享,谢谢!

Q&A

席友:Claude用到企业,对企业的要求是什么?

肖培庆:目前,许多企业正在利用大型语言模型进行多种操作。西门子与亚马逊云合作,将LLM的能力集成到其企业数据库中。西门子作为一家大型外企,对内部常见问题,如HR和IT问题,进行了大量数据准备和清洗。这涉及数据量过大时的切片处理,例如决定切分多少token为一个chunk,或者根据自然语言理解来切分chunk,即所谓的chunking问题。数据向量化后存储在向量数据库中,使用语言模型前需要进行问题检索,在向量数据库中进行召回。召回过程中有许多工程化的考量,召回后的token部分才会作为LLM的prompt,用于Chatbot的回答。因此,企业需要进行数据准备、清洗、分片、向量化和召回等工程化过程,这些过程中还有许多工作需要完成。

 

席友:从Claude基础模型到企业端应用,涉及哪些角色及其分工?

肖培庆:从企业角度来看,这个流程涉及多个角色。可能包括模型工程化团队,这些团队可能属于IT部门。如果涉及算法或模型,客户可能需要投入算法工程师。如果客户储备不够,亚马逊云也提供专家服务和架构师能力,以补充客户的能力不足。整个pipeline涉及多个环节。除了技术工种外,企业内部的应用落地还需要业务人员参与,例如HR和IT运维人员,他们了解用户可能提出的问题,这有助于提高整体预期效果。

 

席友:部署形式是怎么样的?

肖培庆:目前Claude3的选择不多,主要是通过API调用。可以使用Amazon官方API,也可以使用亚马逊云上的Bedrock API,两者的功能和价格相同,基本上是SaaS模式。考虑到数据隐私,一些客户可能选择在自己的IDC或机房部署开源模型。

 

席友:Claude怎么做风险评估?

肖培庆:总体来说,Claude3模型本身具有一定的安全边界,因此模型本身已进行了一部分风险评估。模型完全私有化部署在Bedrock上,因此风险评估部分依赖于模型本身的能力。目前,Bedrock也提供了额外的风险评估产品。如果需要进行风险防控,可以使用Bedrock上的产品进行额外的风险评估,过滤掉一些有害内容。

 

全文完

嘉程资本Next Capital是一家专注科技领域的早期投资基金,作为创新者的第一笔钱,我们极度信仰科技驱动的行业创新,与极具潜力的未来科技领袖共同开启未来。

我们的投资涵盖人工智能、硬科技、数字医疗与健康、科技全球化、生物科技与生命科学、企业服务、云原生、专精特新、机器人等领域。投资案例包括元气森林、熊猫速汇、寻找独角兽、店匠、士泽生物、芯宿科技、未名拾光、橄榄枝健康、硅基仿生等多家创新公司。

嘉程资本旗下的创投服务平台包括「嘉程创业流水席」,「NEXT创新营」、「未来联盟」等产品线,面向不同定位的华人科技创新者,构建了大中华区及北美、欧洲和新加坡等国家地区活跃的华人科技创新生态,超过3000位科技行业企业家与巨头公司高管在嘉程的平台上分享真知灼见和最新趋势。

嘉程资本投资团队来自知名基金和科技领域巨头,在早期投资阶段富有经验,曾主导投资过乐信(NASDAQ:LX)、老虎证券(NASDAQ:TIGR)、团车(NASDAQ:TC)、美柚、牛股王、易快报、PingCAP、彩贝壳、云丁智能等创新公司的天使轮,并创办过国内知名创投服务平台小饭桌。

嘉程资本是创新者思考的伙伴,成长的伙伴。

 

嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap2017