首页 欧洲联赛 正文

身份证号码查询,Azure如何使用机器学习来“预测”虚拟机故障?,人参

编者按:云服务的一大优势,是运用户无需忧虑怎么办理硬件资源和处理硬件毛病。但是,假如云服务发作了硬件毛病,该怎么办?现在,得益于微软亚洲研究院最新磁盘毛病预verify测和节点毛病猜测的研究成果(论文见文末),Azure能够“预知”云服务中的硬盘毛病,提早宣布警示,并进行用户可操控的主动搬迁流程,最大程度地削减硬件毛病的影响。

关于作业虚拟机的鼻涕门云服务器来说,硬件毛病是一个无法逃避的问题。除了硬盘毛病,超时、容积巨细、分区和推迟过错,都或许带来文件操作失利、虚拟机未呼应等问题,导致云服务呈现中止。

而现在,Azure能够“预知”硬件毛病的发作,并在保护和更新前,对虚拟机进行可控的主动实时搬迁,使因毛病发作导致的停用时刻大大减缩,每月可削减约1000小时的停用时刻。

Azure怎么“预知”硬件毛病?

毛病猜测的难点在于将军夫人生计手册,发作毛病的设红细胞偏高备越少,毛病猜测就越困难,因为每一台设备发作毛病的概率都很低,是小概率事情。而且过多中华名医名方大全的误报会使未呈现毛病的硬件也被停用,然后添加Azure的运营本钱。因而,对出产环境中的猜测功能有更高的要求。

Azure经过机器学习来猜测硬盘和整个集群节点发作毛病的或许性,现在可猜测的毛病包含驱动器毛病、I / O推迟问题、内存毛病和CPU频率问题。

Azure云硬盘过错猜测体系(Cloud Disk Error Forecasting System),归纳运用规范硬盘SMART监控数据和体系级事情数据,选用机器学习算法练习身份证号码查询,Azure怎么运用机器学习来“猜测”虚拟机毛病?,人参猜测模型来身份证号码查询,Azure怎么运用机器学习来“猜测”虚拟机毛病?,人参预sis0001测硬盘毛病。

Azure云硬盘过错医手遮天猜测体系结构

约有450种不同的数据或许与硬盘毛病相关,但不是一切数据都能协助Azure进行过错猜测,比方,通电时刻(Power-On Hours)对猜测的协助相对较小,但从头分配的分区数量(Reallocated广州塔门票 sectors count)不断添加,就标明硬盘有毛病。一般来说,在硬盘毛病前的15-16天,硬盘错身份证号码查询,Azure怎么运用机器学习来“猜测”虚拟机毛病?,人参误就开端呈现,而且一般在毛病前的最终一周,从头分配的分区数量会添加三倍,设备重置次数会添加十倍。

来自不同制造商的硬盘或许有不同的毛病特征和形式,乃至同一制造商的不同类型的硬盘也会有所差异。另一方面的差异来自作业负载的强度,这会影响到毛病在猜测后多快的时刻里发作,比方在高强度舍得的作业负载下,呈现毛病痕迹的磁盘或许很快就会发作毛病,但在硬盘驱动的作业负载较少的服务器中,相同的硬盘或许仍然能够继续作业几周到几个月。因而,机器学习的练习数据体系有必要从不同类型的使命中收集。

除了云硬盘过错猜测体系,一个相似的机器学习体系能为Azure猜测核算节点的毛病。两个体系采纳的预警方法都是按硬件毛病的或许性巨细从高到低进行排序,而不是直接断定某个硬件是否会发作毛病。这也更符合实际出产环境中毛病处理的需求。Azure会中止将新的虚拟机布置在毛病或许性最高的体系上,并主动挑选最佳节点对正在作业的虚拟机进行实时搬迁,随后中止服务,进行检测。

Schedu东游记led Events:可控的毛病搬迁战略

Azure将在不影响作业负载的情况下进行实时搬迁,在几分钟内将包含内存焯水、磁盘状况、网络衔接等在内的整个虚拟机仿制到新节点,依据搬迁信息量的不同,耗时1-30分钟不等。完结后,原始节点和新节点上的虚拟机将一起挂起(suspended),实时搬迁署理会将任何没有传送的状况信息仿制曩昔。停用状况也取决于搬迁的信息量,一般只继续几秒钟。

假如一些作业负载对功能的要求很高,ppi仿制进程或许仍然会对它发作一些影响。比方,有些应用程序连几秒的暂停也无法答应,有些应元夕用程序则无法进行实时搬迁,比方HPC、内存优化、GPU优化和存储优化等特别的专用机型,或是前期Azure上布置的A系列虚拟机。你或许要进行从头设置(refactor),并用Paa通草S服务而非虚拟机来处理这部分作业。

在这种情况下,Scheduled Events服务将为用户供给告诉,正告硬件或许呈现毛病,虚拟机将被实时搬迁或进行保护。假如用户运用了比较廉价的低优先级虚拟机,而它将被替换为更高优先级的虚拟机,Scheduled Events也会宣布正告。

Scheduled Events将对虚拟机暂停、从头布置、因为低优先级被分手删去、自行设定的从头启动宣布告诉。假如虚拟机从头布置,它将至少提早10分钟宣布正告,假如虚拟机暂停并从头启动,则至少提早15分钟。而假如是因为毛病猜测引发的实时搬迁和从头布置徽州,Scheduled Events将提早几天发送告诉,一起服务将尝试以各种方法推迟毛病。

举个比如,猜测体系发现一个硬盘的毛病概率很高,而且将损坏在该节点上作业的5台虚拟机。Azure在做出猜测11分钟后就启动了实时搬迁,让这天使萌男人团5台虚拟机的停用时刻操控在0.1-1.6秒之间。随后,Azure团队中止了该节点的服务并进行检测,在压力测验中,磁盘在第一次预警的4小时21分钟后发作了毛病。

Sc山东旅游景点heduled Event的告诉内容将包含猜测到毛病的时刻,以及暂不搬迁虚拟机的时刻段(假定硬件在此期间不会发作毛病)。假如Azure检测配音秀到更多来自该节点的反常信号,将会告诉或许的暂停、实时搬迁等信息。

在收到毛病猜测后,用户将有满足的时刻做出反响,包含检查虚拟机是否可恢复、移除衔接、搬运故身份证号码查询,Azure怎么运用机器学习来“猜测”虚拟机毛病?,人参障、将其从负载平衡器池中除掉,或许做好封闭作业负载的预备作业。在完结预备后,用户能够在Scheduled Event中同意实时搬迁,Azure将尽快进行搬迁,协助用户脱节功能下降的硬件。即便无法调整虚拟机,也能够经过Scheduled Event组织快照,或削减虚拟机上作业的使命,然后最大程度地免受硬件毛病的影响。

相关论文:

1.Improving Service Availability of Cloud Systems by Predicting Disk Error. Yong Xu, Kaixin Sui, Randolph Yao, Hongyu Zhang, Qingwei Lin, Yingnong Dang, Peng Li, Keceng Jia身份证号码查询,Azure怎么运用机器学习来“猜测”虚拟机毛病?,人参ng, Wenchi Zhang, Jian-Guang Lou, Murali Chintalapati, Dongmei Zhang USENIX ATC 201身份证号码查询,Azure怎么运用机器学习来“猜测”虚拟机毛病?,人参8 | July 2018

长按扫码 检查论文

2.Predicting Node Failure in Clou身份证号码查询,Azure怎么运用机器学习来“猜测”虚拟机毛病?,人参d Service Systems. Qingwei Lin, Ken Hsieh, Yingnong Dang, Hongyu Zhang, Kaixin Sui, Yong Xu, Jian-Guang Lou, Chenggang Li, Youjiang Wu, Randolph Yao, Murali Chintalapati, Dongmei Zhang ESEC/FSE 2018 | November 2018

长按扫码 检查论文

相关推荐

  • 暂无相关文章