加入收藏 | 设为首页 | 会员中心 | 我要投稿 柳州站长网 (https://www.0772zz.cn/)- 基础存储、数据迁移、云安全、数据计算、数据湖!
当前位置: 首页 > 站长资讯 > 评论 > 正文

众多程序员无法攻克的难题

发布时间:2021-01-27 13:59:07 所属栏目:评论 来源:互联网
导读:在一个发展速度重于代码安全性的世界,这是一个真实存在的问题。如果不能彻底解决入侵或黑客攻击的问题,企业可能会损失一大笔钱。根据IBM《2020年数据泄露成本报告》,一次数据泄露的平均总成本为386万美元。最糟糕的是,识别控制这种入侵平均需要280天。

在一个发展速度重于代码安全性的世界,这是一个真实存在的问题。如果不能彻底解决入侵或黑客攻击的问题,企业可能会损失一大笔钱。根据IBM《2020年数据泄露成本报告》,一次数据泄露的平均总成本为386万美元。最糟糕的是,识别控制这种入侵平均需要280天。

数据是数字黄金,代码承载着数据。虽然Java这一服务器端语言相对安全,但是黑客仍有很多方法来攻击和访问隐私数据。
 

但是有一点出乎了我们的意料,就是刷单和羊毛党两种标签的提升情况截然不同。这两类标签在各种场合常是同时被提起,并且粗浅理解起来是高度相似的两种标签。然而仔细推敲才发现两者其实非常不同。在微信支付场景中,刷单用户因为回款和佣金的原因往往通过中介形成了紧密的资金流关系,而羊毛党用户均是只有同商户的商业支付,羊毛党用户之间却不一定形成紧密的资金流关系。因此基于转账网络表示学习对刷单有明显的提升,而羊毛党则没有,反而引入了噪声导致效果下降。这点引发了针对图表示学习适用性问题的思考。这里向大家分享下思考的心得:构图关联对问题的指向性决定了表示学习的是否有效果。还是回到刚才的问题,即图表示学习有用时,是表示学习起了作用还是图起了作用。换句话说,当图表示学习对业务不起效果时,是表示学习环节出了问题,还是图本身无用?我倾向认为是后者。毕竟表示学习算法已经经过广大同行的检验。

关于构图关联指向性的讨论,再从一个简单的问题说起。假设以一个人向另一个人发起了微信转账,那是否能够说明以下三种情况成立:第①种:两者是微信好友。显然这点是充分成立的;第②种:两者是居住地同省。考虑到同省人之间更容易发生经济交流,这点上也是有一定概率成立的;第③种:两者身高差18公分。这点就毫无逻辑可言了。因此,转账关系对不同的问题,其指向性程度是不同的,转账对同为刷单用户的指向性要远大于同为羊毛党用户,这点应该可以解释WxPayLine++在两种标签下迥异的表现。
 

值得注意的是,目前图计算对异构图的支持有限,针对异构图的计算优化与实际图数据的构图形式有较大的关联,因此难以有通用的图计算系统或算法,但实际业务中的图计算往往更关注异构图。笔者曾在腾讯CSIG开发过基于GraphCHI存储的分布式核外(即磁盘为主)异构图的图计算系统,但由于磁盘I/O效率过低,而业务中对内存的成本并无严苛的要求,该图计算系统实际应用性不足。笔者在异构图计算的开发过程中最大的体会是,具体的计算逻辑和构图形式对计算引擎的效率影响很大,所以通用且高效的异构图计算系统短期内可能难以实现。

4 图表示学习

图表示学习并没有形式化的定义,但基本原理大都为将图中顶点映射到低维向量空间,并且向量间的相对距离能够尽可能地反映顶点间在图上的相对关联强度,完成从非欧图模型到欧式向量空间的转换。而点向量则是可以作为特征无缝地支持下游深度学习任务,因此图学习也是在工业界落地最多,使用最普遍的图技术。鉴于网络上对图表示学习的文章众多,不乏全面详实的综述论文,本篇不在对表示学习已有工作进行过多的展开,直接讨论笔者在图表示学习落地过程中的经验。

图表示学习的核心本质在于表示学习,图只是作为数据源,因此图表示学习的技术部分主要在于表示学习,除了数据外,并没有图的语义,也没有图的算法,理解这点对如何使用、何时使用图表示学习至关重要。讨论这点需要从笔者之前开发的基于LINE算法的扩展版本WxPayLine++说起,算法细节未获授权对外,此处不再展开。

已有的图系统对图计算的效率提升到了相当的高度。自2010年谷歌首次提出点中心编程框架Pregel(开源对应Giraph系统)之后,GraphLab通过共享内存将Pregel的性能提升了2~3倍,PowerGraph随后基于图的幂率分布进行优化并提出GAS模型,又将GraphLab的性能提升了将近5倍。比较特殊的是随后出现的GraphX,立足于Spark生态的普及在RDD上开发图计算的框架,并直接承认性能弱于PowerGraph将近7倍。但是GraphX基于生态优势也能够大幅解放开发者在数据预处理(ETL)上的生产力,这点上被后来的GraphX的流行所验证。学术界目前最先进的图计算系统应该是清华大学发表在OSDI2016的Gemini。腾讯公司WXG也有基于Gemini原理开发的Plato,在Gemini之上做了很多充分的落地优化。腾讯公司TEG 的Angel图计算则另辟蹊径,通过PS驱动图计算,性能足够优秀的同时与腾讯公司内部TDW生态有非常好的结合。

(编辑:柳州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读