在供应链短缺期间满足全球市场需求
|
于对处理能力和内存消耗的广泛需求以及AI模型的规模,这些部署中的大多数依赖于云。尽管云部署使AI可以从高性能计算系统的功能中受益,但挑战依然存在。需要将数据从设备来回发送到云以进行处理会引起隐私问题,并且由于延迟,带宽和连接性而存在限制。 这促使业界专注于边缘AI的开发,这是我在上一篇文章中谈到的主题。这些工作主要围绕引入用于训练AI模型的新方法进行,这些方法可以减少占用空间,因此可以将这些模型直接部署在边缘设备上。 边缘AI将通过使智能设备实时做出真正自主的决策来解决深度云的不足,从而促进深度学习。具体而言,这将消除了将所有数据连续发送到云或从云连续发送的需要,从而改善了隐私,带宽和延迟限制。此外,新兴的边缘AI部署方法极大地提高了速度,功耗和内存消耗,从而可以降低成本并限制对环境的影响。 一个人的利益不能被另一个人完全取代;因此,最具影响力的现实世界AI部署将是采用混合方法的部署:在云中和边缘。但是混合方法是什么样的呢? 混合部署的免费工作流可获得更好的结果 第一步是通过确定必须实时在边缘进行决策的用例,并通过可在云中进行处理以进行长期分析和改进的方案,来淘汰可最大化效率和可扩展性的工作流程。 如果您在智能边缘设备上部署深度学习,那么在需要实时决策的情况下,例如自动驾驶汽车,农业无人机和系统,摄像机,移动设备等。同时,系统可以将数据上传到云中以进行存储以及进一步处理和分析,而这些处理和分析可以由功能更强大的引擎执行。这将确保该系统可以实现大功率计算的优势,并允许将云中的数据与其他系统中的数据进行组合。 利用这些组合数据,可以对模型进行重新训练以进行持续改进。一旦在云中进行了再培训,就可以在边缘重新部署新模型。
与采用单一方法相比,将云AI和边缘部署的优势整合在一起更强大。具体来说,云AI的处理能力和高性能可以补充边缘AI的效率,速度和自主性。 通用版功能:限制进程PID以提高稳定性 进程ID(pid)是Linux上机上的一种基础资源。要避免主机稳定性受到影响,我们需要在达到任务上限但又不触及资源上限这两项条件之间取得平衡点。 管理员们需要相应的机制以确保用户Pod不会导致pid耗尽,避免主机守护程序(运行时、kubelet等)因此而停止运行。另外,更重要的是应确保在容器之间限制pid,确保它们不对节点上的其他工作负载产生太多影响。在一年之前实现默认启用之后,SIG Node终于通过 SupportNodePidsLimit(节点到Pod PID隔离)以及SupportPodPidsLimit(按Pod限制PID)将限制进程PID以提高稳定性功能推向通用版本。 Alpha功能:节点优雅关闭 用户与集群管理员都希望Pod能够遵循预定的生命周期,当然也包括Pod终止阶段。目前,在节点关闭时,Pod不会遵循预期的终止生命周期,因此无法正常终止并可能导致某些工作负载出现问题。GracefulNodeShutdown功能现已推出alpha版,用于向kubelet通知节点系统的关闭状态,从而在系统关闭期间优雅关闭各Pod。 主要变化弃用Dockershim 作为面向Docker的容器运行时接口(CRI),我们在1.20新版本中宣布弃用dockershim。这意味着不再对Docker提供支持,并将在后续版本中彻底删除此项功能。但大家不必担心,Docker所生成的镜像遵循开放容器倡议(OCI)镜像规范,因此仍能够在一切兼容CRI的运行时中继续供您的集群正常使用。Kubernetes社区已经发布关于弃用决定的详尽博文,其中还包含专门的常见问题解答页面。 Exec探针超时处理
长期存在的exec探针超时bug终于得到修复(此bug可能对已经使用修复新版本的现有Pod定义造成影响)。在发布修复之前,exec探针未考虑到字段timeoutSeconds。相反,探针将无限期运行,甚至超出其配置上限,直到返回结果。在本次更改之后,如果未指定值,则探针仅默认应用1秒。如果探针耗费的时间超过1秒,则现有Pod定义可能无法自给自足。本次修复还添加了一项名为ExecProbeTimeout的特征门,允许集群操作人员还原至先前行为;但在后续发行版中,此功能将被锁定及删除。要恢复先前行为,集群操作人员应将此特征门设置为false。 (编辑:柳州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
