IT 基础架构处于不断变化的状态。从集中式 大型机 系统到分布式 无服务器多云环境,这些变化发生得相对较快。没有什么能阻止它。预测到2023年,超过 90% 的 IT 组织将让大部分员工远程工作。这主要是由于公司转向使用更多的云服务。
IT 运营团队必须设法通过实施有效的 IT 基础架构监控来跟上进度。由于有些人不得不用更少的资源做更多的事情,因此通过使用正确的工具和最佳实践来充分利用监控非常重要。继续阅读以了解您可以实施的一些最佳实践,以及可以使用它们来更好地监控您的基础架构的情况。
了解 IT 基础架构监控
基础架构监控 是从您的所有 IT 资源中收集和分析数据的过程。由于多年来 IT 基础架构发生了许多变化,复杂性急剧增加。
最佳实践注意事项
为了帮助您处理所有这些复杂性,这里有十个最佳实践,可以将监控数据转化为有用的信息并更快地进行故障排除。
1. 创建一个清单
很高兴知道您的基础设施正在被监控。但是当出现问题时,您需要迅速采取行动来解决它们。因此,当出现问题时,请务必制定计划。
发生链路故障,响应时间突然增加,系统停机。当您的监控工具显示DNS 已关闭时,您会采取什么下一步措施?您需要制定计划,以便在问题出现之前采取措施解决此 问题 。有一个步骤清单,包括谁需要知道这个特定问题正在处理。
2. 避免警觉疲劳
借助现代 IT 基础架构中收集的所有数据,监控变得非常嘈杂。您可能会被关于可能的基础设施问题的所有警报淹没。因此,请确保降低收到误报警报或完全被警报淹没的可能性。一种方法是确保您的 IT 监控工具具有智能警报 或实施 AIOps功能集,以防止您收到无关紧要或可以快速解决的事情的警报。
但是每个组织在某些方面都是不同的。因此,您可能希望为基础设施监控设置一些自定义警报阈值。如果是这样,另一种减少警报疲劳的方法是确保仅配置特定且可操作的警报。关注可能导致用户投诉的警报。这有助于确保您收到对用户最重要的潜在问题的通知。
3.使用自动化
过去,当您的基础架构稍微简单一点时,您可以更轻松地解决基础架构问题。但随着当今基础架构的规模和复杂性——跨越多个私有云和公共云——那些日子已经一去不复返了。那时并不简单,但肯定比现在简单。
确保您的监控工具包含 自动化 功能,有助于减少管理和监控 IT 基础架构所涉及的一些体力劳动。它可能是一个包含数千个服务器实例、路由器、交换机、防火墙等的基础架构。如果新设备上线,您希望自动收集其数据。如果服务器实例的磁盘空间不足,您的工具可以自动将存储空间增加到指定数量。因此,不要因为监控工具可以为您解决的问题而陷入困境并降低您的工作效率。使用自动化始终摆脱消防模式。
4. 了解支持
每个监控工具提供商通常都包括其支持团队的帮助,以帮助解决您的基础架构或其产品的问题。完善的 IT 基础架构监控工具可以减少联系支持团队的需要。该产品具有易于理解的 用户界面,可用于查找和修复基础架构问题。或者它会自动为您解决这些问题,几乎不需要您参与。
有了这些功能,您可能认为您不需要支持。但是总有一天您需要或应该寻求帮助。了解您的供应商的支持团队。解决问题通常是一项团队运动,当您遇到问题时,您的支持团队可以成为宝贵的资源。如果他们在您需要帮助时已经知道您是谁,那么您更有可能更快地获得良好的结果。
5.监控监视器
现在是晚上 10 点,您知道您的监控是否正常工作吗?
您需要确保您的监控解决方案正在发挥作用。如果您没有收到任何警报,是因为基础设施全是绿色的,还是因为您的监控不起作用?您希望信任,但始终验证您的基础设施监控是否按预期工作。没有人愿意坐在那里观看 带有所有绿色图表的仪表板监视器 ,但您应该不时这样做,以确保这些绿色图表准确且符合预期。您需要做的最后一件事是让用户提醒您问题而不是您的监控解决方案。
6. 文件决议
始终记录对基础架构所做的任何更改。这个是不言而喻的,但有时随着变化的持续和快速的步伐,我们可以忘记这个,因为文档往往是一种痛苦。您只想解决问题并继续处理您遇到的下一个问题。但一定要为此花一些时间。
首先,记录您如何解决特定的基础设施问题可以在以后帮助您。它类似于上面的清单实践。您无需从头开始解决相同的问题,因为它已记录在案。其次,它可以帮助团队成员遵循您采取的确切步骤,这可以帮助减少MTTR 并避免 违反 SLA。
7. 到处部署
监控您的基础架构的目的是让您能够获得所需的 可见性 来快速解决或预防问题。最好的方法之一是将监控部署在任何地方或尽可能多的地方。
筒仓是能见度杀手。如果您只查看其中的一部分,那么您的监控对整个基础架构并不是很有用。无论孤岛是由于安全限制还是新合并的公司,都要尽一切努力监控您的所有基础设施,并在您可以获得它们的任何地方部署您的监控功能。
8. 执行 DR 测试
您应该 为您的基础架构制定灾难恢复 (DR) 测试计划。这是业务连续性的赌注。您还应该将您的监控作为该计划的一部分。
确保至少每年执行一次 DR 测试,了解当您的基础架构发生故障时会发生什么。当您的主路由器或该路由器上的接口出现故障时,您的监控会发生什么?您是否收到有关该故障的适当警报?当流量通过您的辅助路径重新路由时,您是否注意到仪表板中的变化?进行 DR 测试可以让您放心,如果确实发生了故障,您的监控也不会随之失败。
9. 实施冗余监控
如果您遵循之前的最佳实践(至少每年进行一次 DR 测试),您可能会遇到下一个最佳实践可以避免的问题。还能够从外部监控您的基础架构以实现冗余。
我们都希望我们的基础设施不会失败。但我们知道确实如此。无论您是在本地还是在云端,事情都会导致您的基础设施彻底失败或无法按预期运行。我们人类很容易出错。大多数基础设施问题是由于人为错误造成的。发生这种情况时,如果您的监控工具仅部署在该环境中,那就太糟糕了。
因此,请确保您能够从另一个环境监控您的基础架构,以防您的主要环境不可用。
10. 接受培训
一年前拥有的 IT 技能很快就会过时。您需要保持最新状态。你应该为你的监控做同样的事情。随着您的基础架构发生变化,您可能正在处理您的组织正在实施的新技术,例如迁移到无服务器 功能。您可能需要一些培训来了解如何最好地监控无服务器环境。接受供应商培训,以确保您获得他们推荐的方法。
此外,接受供应商 培训可能会发现您未充分利用当前监控功能的方式。正如他们所说,知道是成功的一半。通过适当的培训和工具,您可以更有效地完成另一半。
要记住的要点
如您所见,基础设施是一个多年来发生了很大变化的环境。IT 基础架构也可以快速变化并大大增加监控的复杂性。要记住的关键点是,要充分利用 IT 基础架构监控,您首先必须拥有正确的工具。将上述最佳实践与正确的工具结合使用可以使您的事情变得更简单。