加入收藏 | 设为首页 | 会员中心 | 我要投稿 柳州站长网 (https://www.0772zz.cn/)- 基础存储、数据迁移、云安全、数据计算、数据湖!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

训练一个130亿参数的模型要用几个GPU?

发布时间:2021-01-27 13:27:28 所属栏目:外闻 来源:互联网
导读:第一阶段:NameNode 启动 第一次启动 NameNode 格式化后,创建 Fsimage 和 Edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 客户端对元数据进行增删改的请求。 NameNode 记录操作日志,更新滚动日志。 NameNode 在内存中对数据进行增删

第一阶段:NameNode 启动

  • 第一次启动 NameNode 格式化后,创建 Fsimage 和 Edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。
  • 客户端对元数据进行增删改的请求。
  • NameNode 记录操作日志,更新滚动日志。
  • NameNode 在内存中对数据进行增删改。

第二阶段:Secondary NameNode 工作

Secondary NameNode 询问 NameNode 是否需要 CheckPoint。直接带回 NameNode 是否检查结果。一般下面条件任意满足即可:

  • CheckPoint 默认1小时执行一次。
  • 一分钟检查一次Edits文件操作次数,达阈值 CheckPoint 。
  • Secondary NameNode 请求执行 CheckPoint。
  • NameNode 滚动正在写的 Edits 日志。
  • 将滚动前的编辑日志Edit_001 和 镜像文件FsImage 拷贝到 Secondary NameNode。
  • Secondary NameNode 加载编辑日志和镜像文件到内存并合并。
  • 生成新的镜像文件 FsImage.chkpoint。
  • 拷贝 FsImage.chkpoint 到 NameNode。
  • NameNode 将 FsImage.chkpoint 重新命名成 FsImage。

2.6 安全模式

NameNode 刚启动时候系统进入安全模式(只读),如果整个文件系统中99.9%块满足最小副本,NameNode 会30秒后退出安全模式。

2.6.1 NameNode 启动

将 FsImage 文件载入内存再执行Edits文件各种操作,最终内存生成完整的元数据镜像。

创建个新的 FsImage 跟空 Edits 文件。

NameNode 开始监听 DataNode。

整个过程 NameNode 一直运行在安全模式,NameNode 对于 Client 是只读的。

2.6.2 DataNode 启动

系统数据块位置不是由 NameNode 维护的,而是以块列表形式存储在 DataNode 中。

安全模式下 DataNode 向 NameNode 发送最新块列表信息,促使 NameNode 高效运行。

正常运行期 NameNode 内存中保留所有块位置映射信息。

2.7 HDFS-HA

HDFS 集群中 NameNode存在单点故障(SPOF),为了实现 High Available,其实包括 HDFS-HA 和YARN-HA。HDFS 可以 通过配置Active/Standby 两个 NameNodes 实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,可将NameNode很快的切换到另外一台机器。实现 HA 功能主要依赖ZooKeeper 跟 ZKFC 进程。

(编辑:柳州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读