对于大型数据中心的高性能芯片,数学可以是敌人。由于在超数数据中心的大规模计算量表中,在数百万节点和大型硅计数中,可能会出现极为罕见的错误。这只是统计。即使公司花费大量时间搜索它们,很少在传统的质量控制筛选中出现“安静”数据错误。本文指出:本月,在加利福尼亚州蒙特雷的IEE International International Primulable物理研讨会上,英特尔工程师推出了一种使用增强研究的技术,以更快地查看更安静的数据错误。该公司使用机器研究方法来确保Xeon处理器的质量。亚利桑那州英特尔市Chandler校园的电气工程师Manu Shamsa说,当数据中心发生错误时,操作员可以关闭和替换节点,或者使用有缺陷的系统进行低风险计算。但是,如果可以提前看到错误,那就更好了。理想情况下,他们a在将芯片合并到计算机系统中之前,可以找到它们,目前可以设计或生产它们,以避免将来的错误再次发生。他说:“在笔记本电脑上,您不会注意到任何错误。在带有非常密集的节点的数据中心中,很有可能会对齐星星并发生错误。在远处的幽灵动作中。”几年来形容它们。在去年在同一次会议上发表的一篇论文中,他的团队可能会导致错误。 Shamsa说:“在笔记本电脑上,您没有注意到任何这些问题。”在具有非常密集的节点的数据中心,可能会使星星对齐和错误。”清晰。随机数据。有许多特征测试。操作所有这些应用程序将需要不切实际的时间,因此芯片制造商使用随机技术来生成一组托管的内存棒。这将节省时间,但没有错过任何错误。沙萨说:“没有原则可以指导输入选择。”他想找到一种指导选择的方法,以便很少的试验可以找到许多错误。英特尔团队利用强化研究来开发和测试Xeon CPU芯片的一部分,该芯片使用所谓的Fuse-Multiplier-Addition(FMA)指令执行矩阵繁殖。沙莎说,他们之所以选择FMA地区,是因为它覆盖了一个相对较大的芯片区域,使其更容易受到潜在安静的错误的影响 - 硅越多,问题就越多。更重要的是,芯片的这一部分中的缺陷将产生电磁场,这将影响系统的其他部分。由于不用用于节省电力时关闭FMA,因此测试需要重复 - 重复和奉献,以便能够激活否则不会出现在常见测试中的隐藏缺陷。在培训的每一步中,加固计划选择不同的测试,以解决潜在的有缺陷的芯片。它看到的每个错误都是奖励,随着时间的流逝,经纪人学习选择哪些测试可以最大化发现错误的机会。在大约500个试验周期之后,该算法了解了哪种特征测试将优化FMA区域的区域勘探速率。 Shamsa表示,该程序检测缺陷的可能性是随机特征试验的五倍。测试功能是开放资源,也是数据中心的OPENDCDIAG的一部分。他说,因此,其他用户应使用强化研究来改变自己的系统的试验。在某些尺寸上,安静,微妙的缺陷是制造过程中不可避免的一部分 - 完全完美和相似性仍然无法触及。但是Shamsa说英特尔正在尝试使用ResearCH学会找到会导致更快的安静数据错误的前体。他检查是否有危险信号可以为将来的错误提供早期警告,以及是否可以更改芯片或设计配方来管理它们。