加入收藏 | 设为首页 | 会员中心 | 我要投稿 柳州站长网 (https://www.0772zz.cn/)- 基础存储、数据迁移、云安全、数据计算、数据湖!
当前位置: 首页 > 站长资讯 > 评论 > 正文

从业20年大佬的经验谈

发布时间:2021-02-21 14:12:06 所属栏目:评论 来源:互联网
导读:这种用于提取分词信息的 head 有很多,且不同的 head 有不同的分词粒度,如果将多个粒度的分词综合考虑(有一个 head 分词正确就行),则直接用 attention-head 切词的准确率在 96%,这也是为什么词粒度 bert 和字粒度 bert 表现差不多的原因 这种用于提取分词

这种用于提取分词信息的 head 有很多,且不同的 head 有不同的分词粒度,如果将多个粒度的分词综合考虑(有一个 head 分词正确就行),则直接用 attention-head 切词的准确率在 96%,这也是为什么词粒度 bert 和字粒度 bert 表现差不多的原因

这种用于提取分词信息的 head 有很多,且不同的 head 有不同的分词粒度,如果将多个粒度的分词综合考虑(有一个 head 分词正确就行),则直接用 attention-head 切词的准确率在 96%,这也是为什么词粒度 bert 和字粒度 bert 表现差不多的原因。

 

可以看到 mask 掉第 5 层~第 9 层的 head 都模型都有比较大的正面提升,特别是当去掉整个第 8 层的 attention-head 的时候测试数据准确率相对提升了 2.3%,从上图可以得到两个结论:

  • Bert 模型非常的健壮或者是冗余度很高
  • Bert 模型各层之间不是串行依赖的关系,信息并不是通过一层一层 transformer 层来传递的

bert 模型非常的健壮或者是冗余度很高,直接去掉一整层的 attention-head 并不会对模型的最终表现有太大的影响。 直接去掉整层的 attention-head 模型表现并没有大幅度的下降,说明各层提取的特征信息并不是一层一层的串行传递到分类器的,而是通过残差连接直接传导到对应的层。

2.2 某些 head 负责判断词的边界(使得字模型带有分词信息)

在我们的 query-title 分档场景中,发现词粒度的 bert 和字粒度的 bert 最终的表现是差不多的,而对于 rnn 模型来说字粒度的 rnn 很难达到词粒度 rnn 的效果,我们希望研究一下为什么词粒度和字粒度的 bert 表现差不多。

使用的 bert 可视化工具bert_viz观察各层 attention-head 的 attention 权重分布,可以发现某些 head 带有很明显的分词信息。推测这部分 attention-head 是专门用于提取分词信息的 head。当当前的字可能是词的结尾时,att 权重会偏向 sep,当这个字为词的结尾可能性越大(常见的词结尾),sep 的权重会越高。当当前字不是词结尾时,att 会指向下一个字。这种模式非常明显,直接拿这个 attention-head 的结果用于分词准确率为 70%。

下面 gif 为我们模型中第 1 层第 3 个 head 的 attention 分布权重图,可以发现 attention 权重很明显带有词的边界信息,当当前的字是结尾时 attention 权重最大的 token 为"SEP",若当前字不是结尾时 attention 权重最大的为下一个字。


 

中国使用Python的方式比其他任何国家都多,而印度选择Go作为其首选工具。很难说为什么,但是鉴于这些国家/地区的网络活动知名度很高,因此新加入这个市场的黑客可能选择了现代工具进行他们的邪恶活动。

根据IP来判断攻击数量

令人惊讶的是,使用该工具进行攻击的IP数量与该工具引发的安全事件数量之间并没有很强的相关性。这可以部分地由这些工具所涉及的攻击类型来解释。复杂的,自动的攻击往往可以协调进行,即大规模大规模攻击。


 

将GitHub的统计数据与Stack Overflow趋势进行比较时,研究人员得到了类似的情况。很难解释为什么关于Go的漏洞没有来自Go存储库的拉取请求那么多。一个令人惊讶的统计数据是Python的使用量迅速而急剧的上升,平均每年增长13%,在十年内几乎翻了两番。

Cloud WAF统计信息

为了了解这些工具在研究人员保护的网站上攻击的传播情况,研究人员创建了一个图表,显示2019年每种工具攻击的网站百分比。研究人员观察到的工具在事件数量和被攻击站点的百分比方面都处于领先地位。大多数站点每个月都会受到Python的攻击,而30%-50%的站点会受到其他工具的攻击。



(编辑:柳州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读