训练一个130亿参数的模型要用几个GPU?
|
第一阶段:NameNode 启动
第二阶段:Secondary NameNode 工作 Secondary NameNode 询问 NameNode 是否需要 CheckPoint。直接带回 NameNode 是否检查结果。一般下面条件任意满足即可:
2.6 安全模式 NameNode 刚启动时候系统进入安全模式(只读),如果整个文件系统中99.9%块满足最小副本,NameNode 会30秒后退出安全模式。 2.6.1 NameNode 启动 将 FsImage 文件载入内存再执行Edits文件各种操作,最终内存生成完整的元数据镜像。 创建个新的 FsImage 跟空 Edits 文件。 NameNode 开始监听 DataNode。 整个过程 NameNode 一直运行在安全模式,NameNode 对于 Client 是只读的。 2.6.2 DataNode 启动 系统数据块位置不是由 NameNode 维护的,而是以块列表形式存储在 DataNode 中。 安全模式下 DataNode 向 NameNode 发送最新块列表信息,促使 NameNode 高效运行。 正常运行期 NameNode 内存中保留所有块位置映射信息。 2.7 HDFS-HA
HDFS 集群中 NameNode存在单点故障(SPOF),为了实现 High Available,其实包括 HDFS-HA 和YARN-HA。HDFS 可以 通过配置Active/Standby 两个 NameNodes 实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,可将NameNode很快的切换到另外一台机器。实现 HA 功能主要依赖ZooKeeper 跟 ZKFC 进程。 (编辑:柳州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


