Search the VMware Knowledge Base (KB)
View by Article ID

SSD 日志积累导致 VMware vSAN 群集性能低下 (2144167)

  • 1 Ratings

Symptoms

免责声明: 本文为 SSD log buildup can cause poor performance in a VMware vSAN Cluster (2141386) 的翻译版本。 尽管我们会不断努力为本文提供最佳翻译版本,但本地化的内容可能会过时。 有关最新内容,请参见英文版本。


在某些罕见的情况下,vSAN 会出现 SSD/缓存层日志记录空间填满的情况。 发生这种情况时,会对群集性能产生影响,因为 SSD 无法及时缓冲入站 IO。
如果遇到此问题,可能会出现以下一个或多个症状:
  • vCenter Server 中的主机经常进入无响应状态
  • 驻留在 vSAN 上的某些虚拟机性能极其低下
  • 驻留在 vSAN 上的某些虚拟机可能会由于超时或 IO 错误而无法启动
出现此问题的原因有多种。 最常见的情况(但并非一定)是与居高不下的 SSD 拥堵消息或 SSD 拥堵消息中的频繁波动有关。 此信息在 ESXi vSAN 主机上的 vmkernel.log 文件中显示。

注意: SSD 拥堵消息不一定与本文档中描述的问题有关。 存在 SSD 拥堵消息并不表明已经遇到此问题。
  • 居高不下的 SSD 拥堵消息

    2015-10-21T07:05:09.294Z cpu5:33450)LSOM: LSOM_ThrowCongestionVOB:2912: Throttled: Virtual SAN node esxi-01.corp.local maximum SSD 52648428-cfb4-393f-b3cc-d3850b6d0eee congestion reached.
    2015-10-21T07:06:09.408Z cpu14:32817)LSOM: LSOM_ThrowCongestionVOB:2912: Throttled: Virtual SAN node esxi-01.corp.local maximum SSD 52648428-cfb4-393f-b3cc-d3850b6d0eee congestion reached.
    2015-10-21T07:07:09.491Z cpu13:33200)LSOM: LSOM_ThrowCongestionVOB:2912: Throttled: Virtual SAN node esxi-01.corp.local maximum SSD 52648428-cfb4-393f-b3cc-d3850b6d0eee congestion reached.

  • 波动的 SSD 拥堵消息

    2015-10-20T05:55:15.773Z cpu34:33120)LSOM: LSOM_ThrowAsyncCongestionVOB:2127: LSOM SSD Congestion State: Normal. Congestion Threshold: 200 Current Congestion: 0.
    2015-10-20T05:55:15.775Z cpu34:33120)LSOM: LSOM_ThrowAsyncCongestionVOB:2127: LSOM SSD Congestion State: Exceeded. Congestion Threshold: 200 Current Congestion: 255.
    2015-10-20T05:55:15.776Z cpu34:33120)LSOM: LSOM_ThrowAsyncCongestionVOB:2127: LSOM SSD Congestion State: Normal. Congestion Threshold: 200 Current Congestion: 0.
    2015-10-20T05:55:15.813Z cpu34:33120)LSOM: LSOM_ThrowAsyncCongestionVOB:2127: LSOM SSD Congestion State: Exceeded. Congestion Threshold: 200 Current Congestion: 255.

Cause

如果此问题是因为 SSD/缓存层日志泄露引起的,那么原因在于磁盘组写入缓冲区中的数据积累。 这会导致缓冲区耗尽,最终对 IO 性能产生不利影响。

为防止每个磁盘组的 VSAN 写入缓冲区被耗尽,系统会随着可用缓冲区空间的减少而逐渐减慢写入操作的速度。 这是通过向工作负载的 IO 操作处理中插入逐渐加大的延迟来实现的。 系统使用自适应算法,随着缓冲区继续填充而缓慢增加合成延迟,以防止对暂时性的工作负载高峰产生过度反应。 最后,该算法可确保入站写入操作的速度与数据从缓冲区取消转储到容量层的速度匹配。

在一般环境中,即使是写入最密集的工作负载时,这种机制也可以有效避免缓冲区耗尽。 不过,遇到日志泄漏问题时,大量日志记录保留在日志中(而不取消转储),这样会抑制算法的有效性。 随着可用缓冲区空间被耗尽,该算法会对受影响的磁盘组以及从属对象的入站工作负载实施永久的激进型限制。 这种永久实施会导致性能急剧下降。

Resolution

注意: 必须考虑上述症状可能与存在的其他问题相关。 请与 VMware 技术支持联系,确认遇到了日志泄露问题。

该问题在以下版本中已解决:

如果您受到这一问题的影响,请与 VMware 技术支持联系,以确认行为并制定操作计划。 最终识别这一问题可能非常复杂,解决方案的操作计划则视环境而异。 因此,VMware 建议寻求正规支持。

Tags

简体中文 Simplified Chinese

See Also

Request a Product Feature

To request a new product feature or to provide feedback on a VMware product, please visit the Request a Product Feature page.

Feedback

  • 1 Ratings

Did this article help you?
This article resolved my issue.
This article did not resolve my issue.
This article helped but additional information was required to resolve my issue.

What can we do to improve this information? (4000 or fewer characters)




Please enter the Captcha code before clicking Submit.
  • 1 Ratings
Actions
KB: