Skip to main content
 Web开发网 » 编程语言 » Python语言

分享携程事件后迅速三步实现公司的自动化运维(转载)

2021年11月27日5780百度已收录

  上个月IT界发生了非常多的大事件,有光纤“绊倒”的巨头支付宝,有携程被程序员删了服务器运行代码,然后瘫了,知乎客户端出现短暂故障,Uber叫一次三辆车,相信只有携程惹的事最大,从中午11点多到晚上11点才恢复核心业务,5月28日的股市震荡没让太多人整夜不眠,而让携程整座大楼彻夜灯火通明。在现代企业,数据丢失不是任何一个公司所能承担的风险,这是举世所知的真理,数据丢失造成的损失远远大于保持数据不丢失所花的成本。当然,这些事件,不能全部让IT运维背黑锅,这也是由于长期运维人员用血肉之躯来到处救火的不堪重负,也由于运维部门长期边缘化,被认为是成本中心的价值观,企业只知道维持运维的白屋业务,不知道躲在黑屋中发酵的隐患,IT 和运维是完全不同的两个概念。一个不错的运维经理应该可以管理好企业IT,但是一个传统的 IT工程师很难有能力处理互联网运维任务,那么如何从网管、网工走向运维经理,如何又从单纯的维护到运维呢。

  这从三步说起:

  一、当一个企业有了一定的业务支撑的IT基地设施架构之后,针对这些IT设备与IT方面的应用进行运维层面的监控,实现对运维的数据收集,如网络的拓扑形状、网络流量采集、系统事件日志、端口状态、连接状态信息、空间缓存内存值,命令返回值等一些综合数据与关键信息。这些实际类似WeADMIN ITOSS中的NNM网络设备管理、SAM服务器与服务器应用管理模块中的部分初级功能就是实现这些数据采集存储备份到共享的CMDB数据库中,也为运维人员把企业的整个IT系统需要掌握的状态,时时刻刻都给你整理出来了,立要立现立展示。

  二、对初级数据采集后,再向上一步就进行筛选、分析、处理、应用,如对关键数值进行分析,达到故障问题状态,立即向运维人员发出告警指示,并在原始数据上进行应用,如IP与MAC的绑定,IT设备的三维精确定位,资产管理,数据报表,运行状态趋势分析等等,运维人员快速定位故障,迅速解决,对企业IT系统运维的每一个细节都了如指掌,心如明灯,这在WeADMIN ITOSS的NNM、SAM与ALM资产管理模块中得到体现,实现了对原始数据的分析再应用,以及利用经验库进行主动式的网络管理,起到自动修复故障功能。运维人员从此可以安心地对IT操控自如了。

  三、三对这些应用上升到ITIL的标准化,以及对运维人员的有效合理配置,应用中的事件流程进行标准操作,对相关应用专业运维人员进行指导,如LINUX运维师,数据库管理员,系统管理员等有非常高的促进意义,促进相互交流沟通协同处理事务,对用户服务为标准,这在ITOSS中的ITSM IT服务管理模块中实现了企业IT运维的高级应用与标准化。运维管理人员就可以很好的运维一个企业的IT,肩负重担,却可以轻松应对,并且做到有效管理。

分享携程事件后迅速三步实现公司的自动化运维(转载)  Python自动化运维 第1张

  综合这三点,企业的IT从监控到运维就清清爽爽实现了,IT运维管理的需求是随着企业规模与成长速度逐步调整形成的,从技术与管理两个维度来分析,企业IT运维管理的三个阶段:IT基础设施管理阶段、综合业务管理阶段、全域集中管理阶段。而在实际运维中,企业则可以通过对着三阶段的了解,“对号入座”。而WeADMIN ITOSS一体化业务运营支撑系统现在实现了产品的免费运营模式,也没有任何的限制,公司在其它业务上增加利润,以期ITOSS迅速占领市场,所以他们也建立了以用户服务为体系的如Q群、在线客服、论坛,微信,微博为代表的互动对话服务工具,有的企业IT运维层面还在老车破拉,运维人员也不知道IT系统什么时候会出一下问题,希望不要像携程那么庞大,出来混,都是要还的,运维关在黑屋子里没有把握没有底气的人工血肉来背,随着企业的IT系统陈旧,业务增加,应用增多,暂时压下的问题,这些欠下的债是要还的,只有真正建立透明的,标准化的自动化的IT运维才是人间正道,一点点意见,一点点感概,希望能引起大家的反思和同行关注。

评论列表暂无评论
发表评论
微信