微软宣布对Bing搜索搜索基础设施进行更新,包含大型语言模型 (LLM)、小型语言模型 (SLM) 和新的优化技术。
此次更新旨在提高搜索结果传递的性能并降低成本。
该公司在一份公告中表示:
“在 Bing,我们一直在突破搜索技术的界限。利用大型语言模型 (LLM) 和小型语言模型 (SLM) 标志着我们增强搜索能力的一个重要里程碑。虽然转换器模型为我们提供了良好的服务,但搜索查询的日益复杂需要更强大的模型。”
性能提升
在搜索系统中使用 LLM 可能会产生速度和成本问题。
为了解决这些问题,Bing 训练了 SLM,声称其速度比 LLM 快 100 倍。
公告内容如下:
“LLM 的服务成本高昂,而且速度慢。为了提高效率,我们训练了 SLM 模型(吞吐量比 LLM 提高了约 100 倍),可以更准确地处理和理解搜索查询。”
Bing 还使用 NVIDIA TensorRT-LLM 来提高 SLM 的运行效果。
TensorRT-LLM 是一种有助于减少在 NVIDIA GPU 上运行大型模型的时间和成本的工具。
对“深度搜索”的影响
据微软技术报告显示,整合Nvidia的TensorRT-LLM技术增强了该公司的“深度搜索”功能。
优化之前,Bing 的原始 Transformer 模型每批次(20 个查询)95 百分位延迟为 4.76 秒,每个实例每秒吞吐量为 4.2 个查询。
使用 TensorRT-LLM,延迟减少到每批 3.03 秒,吞吐量增加到每实例每秒 6.6 个查询。
这意味着 延迟减少了36% ,运营成本减少了57%。
该公司表示:
“……我们的产品建立在提供最佳结果的基础之上,我们不会为了速度而牺牲质量。这就是 TensorRT-LLM 发挥作用的地方,它可以减少模型推理时间,从而减少端到端体验延迟,而不会牺牲结果质量。”
Bing 用户的好处
此更新为 Bing 用户带来了几个潜在的好处:
- 通过优化推理和更快的响应时间获得更快的搜索结果
- 通过增强 SLM 模型的功能来提高准确性,提供更加情境化的结果
- 成本效益,使 Bing 能够投资于进一步的创新和改进
为什么 Bing 转向 LLM/SLM 模型很重要
Bing 转向 LLM/SLM 模型和 TensorRT 优化可能会影响搜索的未来。
随着用户提出越来越复杂的问题,搜索引擎需要更好地理解并快速提供相关结果。Bing 旨在使用更小的语言模型和高级优化技术来实现这一点。
虽然我们还需要等待并观察其全部影响,但Bing的举措为Bing海外推广的新篇章奠定了基础。
以上就是上海上弦科技给大家分享的”Bing搜索引擎进行语言模型LLM和SLM更新”,有更多相关内容不了解,可以评论哦!