Bing搜索引擎进行语言模型LLM和SLM更新：必应搜索结果更快、更精准了

微软宣布对Bing搜索搜索基础设施进行更新，包含大型语言模型 (LLM)、小型语言模型 (SLM) 和新的优化技术。

此次更新旨在提高搜索结果传递的性能并降低成本。

该公司在一份公告中表示：

“在 Bing，我们一直在突破搜索技术的界限。利用大型语言模型 (LLM) 和小型语言模型 (SLM) 标志着我们增强搜索能力的一个重要里程碑。虽然转换器模型为我们提供了良好的服务，但搜索查询的日益复杂需要更强大的模型。”

性能提升

在搜索系统中使用 LLM 可能会产生速度和成本问题。

为了解决这些问题，Bing 训练了 SLM，声称其速度比 LLM 快 100 倍。

公告内容如下：

“LLM 的服务成本高昂，而且速度慢。为了提高效率，我们训练了 SLM 模型（吞吐量比 LLM 提高了约 100 倍），可以更准确地处理和理解搜索查询。”

Bing 还使用 NVIDIA TensorRT-LLM 来提高 SLM 的运行效果。

TensorRT-LLM 是一种有助于减少在 NVIDIA GPU 上运行大型模型的时间和成本的工具。

据微软技术报告显示，整合Nvidia的TensorRT-LLM技术增强了该公司的“深度搜索”功能。

Deep Search 实时利用 SLM 提供相关的网络结果。

优化之前，Bing 的原始 Transformer 模型每批次（20 个查询）95 百分位延迟为 4.76 秒，每个实例每秒吞吐量为 4.2 个查询。

使用 TensorRT-LLM，延迟减少到每批 3.03 秒，吞吐量增加到每实例每秒 6.6 个查询。

这意味着延迟减少了36% ，运营成本减少了57%。

该公司表示：

“……我们的产品建立在提供最佳结果的基础之上，我们不会为了速度而牺牲质量。这就是 TensorRT-LLM 发挥作用的地方，它可以减少模型推理时间，从而减少端到端体验延迟，而不会牺牲结果质量。”

此更新为 Bing 用户带来了几个潜在的好处：

Bing 转向 LLM/SLM 模型和 TensorRT 优化可能会影响搜索的未来。

随着用户提出越来越复杂的问题，搜索引擎需要更好地理解并快速提供相关结果。Bing 旨在使用更小的语言模型和高级优化技术来实现这一点。

虽然我们还需要等待并观察其全部影响，但Bing的举措为Bing海外推广的新篇章奠定了基础。

以上就是上海上弦科技给大家分享的”Bing搜索引擎进行语言模型LLM和SLM更新”，有更多相关内容不了解，可以评论哦！