图片-稻子网
图片-稻子网
图片-稻子网
图片-稻子网

服务器故障试题-获取腾讯云服务器智能故障诊断“秘籍”

北京时间2021年7月27日,由OCP社区主办、浪潮承办的第三届分会在北京召开,来自英特尔、浪潮、腾讯、百度、阿里、西部数据、希捷、和穗源科技。专家带来了50多场报告,分享了开放计算在数据中心基础设施领域的创新成果,以及人工智能、边缘计算等新兴技术的探索与应用。本次大会上,腾讯云与浪潮联合发布了《数据中心服务器智能故障诊断TIFDS(&Fault)系统技术白皮书》,对解决大型数据中心“顽疾”具有重要价值操作和维护。

在数字化浪潮来临之际,视频、金融、教育、医疗……各行各业都在快速上云。随着互联网公司的崛起和云计算等新兴技术的快速应用,全球范围内掀起了建设大规模数据中心的热潮。云计算的快速扩张带来了数据中心服务器数量的爆炸式增长,以及随之而来的服务器运维管理的复杂性和难度服务器故障试题,而传统的海量服务器故障运行面临更大的挑战和挑战。成本更高,从最初的脚本运维、工具运维到平台运维演进,人力逼近极限,

例如,当数据中心的服务器发生故障时,传统的解决方案是由服务器制造商在数据中心现场的工程师到现场将故障服务器下架。然后读取故障服务器的数据,现场进行初步分析,上报厂家研发部门,稍后再分析。整个过程耗时较长,不利于终端业务的快速恢复。

图片[1]-服务器故障试题-获取腾讯云服务器智能故障诊断“秘籍”-稻子网

图片[2]-服务器故障试题-获取腾讯云服务器智能故障诊断“秘籍”-稻子网

腾讯云星海实验室研发副总监刘超

为解决当前数据中心海量服务器的运维问题,腾讯云与浪潮于2021年第3日发布了《数据中心服务器TIFDS(&故障)系统智能故障诊断技术白皮书》。白皮书详细解读了当前的大规模数据。中心运维面临的挑战,阐述腾讯云与浪潮联合开发的TIFDS系统架构,为大型数据中心提升服务器运维效率,保障数据中心稳定运行提供重要参考。

图片[3]-服务器故障试题-获取腾讯云服务器智能故障诊断“秘籍”-稻子网

TIFDS系统

图片[4]-服务器故障试题-获取腾讯云服务器智能故障诊断“秘籍”-稻子网

TIFDS是服务器健康监测技术和故障预警诊断技术的总称。旨在实现运维工作从人工离线分析向自动智能在线识别发展,建立以带外BMC为核心的故障诊断系统。TIFDS系统具有风险实时预警、故障准确诊断、日志自定义、透明、安全等特点,对提升大型数据中心运维效率具有重要意义。

具体来说,TIFDS系统对于服务器故障运维具有三个重要功能服务器故障试题,分别是:

实时风险预警:基于腾讯云现网百万台服务器运维经验,结合AI智能算法,系统可对非宕机故障进行实时预警,降低服务器突发风险高负载运行下的故障。

故障诊断精准:浪潮构建专家经验库,故障自动排除率提升至95%以上,远高于行业平均水平。秒级告警,准确反馈故障触发源,提升运维效率。

图片[5]-服务器故障试题-获取腾讯云服务器智能故障诊断“秘籍”-稻子网

日志定制、透明、安全:根据腾讯云要求创新定制日志输出上报方式,使诊断流程清晰透明,发现疑难问题,建立在线联合诊断系统,持续提升系统运维效率。

为了实现TIFDS系统技术白皮书中的内容,腾讯云和浪潮付出了很大的努力。腾讯云星海实验室研发副总监刘超表示:“浪潮作为国内服务器厂商,无论从研发能力、生产能力还是市场影响力来看,浪潮都是腾讯云的最佳选择之一。腾讯云在众多优势互补下,云也可以通过浪潮的全栈服务器开发能力获得它所需要的产品形态和新技术,TIFDS只有通过对客户应用的了解,结合浪潮的研发能力,才能打造出TIFDS系统。”

图片[6]-服务器故障试题-获取腾讯云服务器智能故障诊断“秘籍”-稻子网

腾讯云星海实验室研发副总监刘超

图片[7]-服务器故障试题-获取腾讯云服务器智能故障诊断“秘籍”-稻子网

TIFDS系统要实现其功能,首先需要建立故障诊断计算模型。在模型构建初期,腾讯云整理海量服务器运维数据,交给浪潮技术工程师分析各种故障,形成故障诊断。专家经验库构建了一套故障诊断的底层代码模型,智能诊断服务器故障。然后,基于大量的服务器操作实践,对模型进行反复验证和反向验证,不断提高模型的诊断准确率。.

TIFDS系统的建设,是浪潮与客户基于联合创新的JDM模式合作的最佳范例。“TIFDS融合了腾讯云和浪潮各自的优势,是数据中心运维管理领域的优秀产品,对中心的运维效率和云计算的稳定性具有重要的参考意义。” 浪潮腾讯大客户部副总监倪旭华介绍。

图片[8]-服务器故障试题-获取腾讯云服务器智能故障诊断“秘籍”-稻子网

浪潮腾讯大客户部副总监倪旭华

图片[9]-服务器故障试题-获取腾讯云服务器智能故障诊断“秘籍”-稻子网

在与浪潮的合作中,刘超感受到了浪潮以客户为中心的优势。比如腾讯云数据中心有大量的服务器,这些服务器的数据采集和处理需要相当大的工作量。再比如,腾讯云的数据中心分布在全国各地。只要腾讯云有需求,浪潮可以随时派技术工程师到数据中心现场进行数据分析、数据提取或训练数据提取。在合作过程中,浪潮工程师展现出“迎难而上”、“勇往直前”的精神和热情,给腾讯云留下了深刻印象。

随着越来越多的数据中心在建,未来的数据中心运维必须智能化。基于这一洞察,腾讯云与浪潮联合推出的TIFDS系统,是实现数据中心智能化运维的第一步。未来,随着技术的成熟和行业需求的不断提升,数据中心的无人管理和自愈技术将不断发展。

更多《数据中心服务器TIFDS系统智能故障诊断技术白皮书》详情,请查看

()

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片