本篇文章1748字,读完约4分钟

it运维高手是每个人追求的梦想,其敏锐的嗅觉似乎总是抓住了计算系统故障的根本原因。 这样快速响应和准确定位的能力基于多年来解决许多复杂数据中心基础架构难题的经验积累和个人知识积累,其成功不容易重现。 很明显,没有机构会对这种接近超自然的神级评价能力颁发认定资格。

“IT故障排查从业中的六条不变法则”

尽管如此,高强度的故障诊断业务大多遵循一般的、不成文的实践规则。 本文结合自己的经验,总结了六条不变的规律,希望对大家的实际工作有所帮助。 观察这些法则只适用于大多数情况,不适用于所有情况。

1,请勿更改当前连接的服务器或互联网设备接口

这个方法听起来可能非常愚蠢,但有些人经常更改设备通信中使用的互联网接口。 这也是许多障碍的根本原因。 这样解决有时也是不得已的,但我们可以利用其他机制来消除这个潜在的缺陷。 根据需要在接口上配置辅助ip,并暂时连接到其他设备、子网、串行控制台或kvm等。 对于位于远程办公室环境且周围没有it人员的设备,更需要此解决方案。

“IT故障排查从业中的六条不变法则”

我有时会偷一点懒,利用写的脚本在linux设备上更改ip,进行ping测试,在发生错误时取消更改。 但这其实有点作弊的嫌疑。

2、保证所有操作都有恢复的余地

如果可能的话,请务必为自己的操作准备恢复机制。 这可能意味着在解决故障磁盘之前,必须备份整个目录结构中的所有文件。 虽然看起来很麻烦,但这有助于保留所有有潜在价值的数据。 也可以在解决损坏的操作系统之前,直接从物理服务器的raid 1阵列中取出磁盘。 当然,这在虚拟机环境中变得更简单,只需要保留一个快照。

“IT故障排查从业中的六条不变法则”

3、记录、记录再记录

在今天提到的各项法则中,这恐怕是最难遵循的。 确实,在混乱中平静地记录问题和评价确实不现实。 尽管如此,我们在事件结束后,还需要为自己保存分解资料,记录解决过程的执行步骤和处理路径。 请把记录保存在安全的地方。 最好是在公司网络上托管的维基条目。 另外,请在其他地方进行多个备份。

“IT故障排查从业中的六条不变法则”

4、it行业不相信魔法,但依靠运气

托马斯&米德; 据杰斐逊说,我意识到自己越努力,幸运女神就越比我青翠。 同样的情况也适用于it行业。 在基础设施研究上花费的时间越多,对路由器、交换机和服务器的运行情况越了解,实际的管理也就越简单。 定期进行这种学习有助于培养敏锐的嗅觉,尽早对问题进行准确的评价,在出现问题时更快地做出应对。 培养it幸运的方法还有很多。 例如,使用工具自动备份互联网设备的配置,可以在交换机出现故障时在几分钟内部署备用方案,而无需花几个小时。

“IT故障排查从业中的六条不变法则”

5、在修改配置文件之前备份各个配置文件

该规则通常仅适用于unix服务器和互联网设备。 这是因为其配置文件几乎存在于设备配置体系的所有部分。 建议您在更改机密设置之前将副本保存到交换机的闪存或tftp主机上。 在unix系统中,将*.conf另外保存为*.conf.orig即可。

这样,只需复制文件并重新启动服务,即可在紧要关头轻松将服务恢复到原来的正常状态。 但是,这种方法在windows环境中没有用。 注册表的存在和windows系统的特点大大增加了简单概念的实际复杂性和复杂性。 尽管如此,大家还是可以在动手之前导出注册表。 这样的话,发生麻烦的时候我们也能手里有食物,不要心慌。 观察:由于windows注册表非常重要,更改将掌握服务器的命脉,不容忽视。

“IT故障排查从业中的六条不变法则”

6、监视、监视再监视

预防胜于治疗,需要每个月周末仔细检查工作环境。 必须仔细监控数据中心的各个方面,从室内温度到机架和服务器。 另外,服务器进程的检查、运行时间的检查等都是无限无聊但非常重要的业务。 还需要集中整理所有互联网设备的系统日志,并使用趋势和图形工具监控带宽利用率、温度、磁盘分区使用情况和其他重要数据指标。 所有这些监控机制都必须在数据超过合理阈值时发出警告。

“IT故障排查从业中的六条不变法则”

如果磁盘分区空之间不足,数据库损坏,一个小时前发送的邮件和邮件很可能会帮助我们避免像噩梦一样的紧急加班和系统停止。 没有理由不在数据中心内完全利用监控这一工具。

今天的规则总结到此为止。 这些不仅应该得到严格遵守,而且也是在it行业中扎根的指导性原因。 对于深入了解it行业本质的技术人员来说,这六大定律只是需要遵守的观念。 但是,在其他人看来,那些似乎只是it大师通常无法期待的神话。

来源:UI科技日报

标题:“IT故障排查从业中的六条不变法则”

地址:http://www.ulahighschool.com/uiyjzx/10441.html