比特币疯涨山寨币割韭菜
技术与业务对图库定位的分歧 已了解到的图应用场景中,对图数据库的功能与性能需求暂时没有到线上数据库的级别,对图数据库的读写要求大体是周期性地批量导入或写入之后,进行多次只读。因此与其说图数据库,不如说图分析平台更为贴切。而且,在图操作的事务管理方面,研究上都还有较大空白,进展寥寥,实际落地上更是困难重重。业务侧对图的需求重点仍然是数据分析为主,而技术圈以数据库视角去发展图系统的却是主流,已知的很多图数据产品团队在以性能为重点内容做宣传。而其实从业务的角度,性能只要达到一定程度(比如一秒内响应)就没有迫切的提高性能的需求(比如十毫秒级)。 再者,图数据库对属性数据的管理相比传统关系型数据库毫无优势。点边属性数据的获取与关联无关,考虑点属性或边属性的查询时,点、边均为孤立的存在,而孤立的点、边在图数据模型中意义相当有限。据说某大厂内部,有部分图数据库产品中的属性管理仍然交由传统关系型数据库管理。因此,技术圈与业务圈对图库定位存在分歧,不过随着越来越多的图库应用落地,这种分歧似乎在不断减少,图技术与实际业务更多的碰撞令人期待。 Easygraph( http:// easygraph.oa.com )落地过程中遇到的数据导入图库的成本与思考 技术圈对数据导入图库过程中开发人员所消耗的时间成本其实存在明显的忽视。EasyGraph作为腾讯公司图数据库Oteam协同开源的一款产品,经历了微信支付欺诈业务场景下多次迭代优化,也是图库在技术和业务上的一次难得的结合。在微信支付欺诈场景下,同EasyGraph团队的合作过程中,笔者对图库在业务应用上的理解要加深了许多。例如,欺诈场景中非常关心的一点是欺诈分子之间或欺诈分子与受骗人之间的关联和交互,进而制定相应的策略或模型进行精准打击。核心点在于,关联数据的查找和可视化。传统的hive在关联数据的查找上效率低下,而已有的图数据库,虽然能够加速关联查询,却忽略了另一重大的成本:数据导入图库。当有一个图数据可视化需求时,往往需要先进行既定格式的数据出库(如HDFS),填写相应图库的配置文件,再启动图库导入。 不同的图库产品往往有不同的导入格式和流程。当可视化过程中需要对关联结果进行微调时,整个流程需要再进行一遍,过程繁琐费时。数据导入图库的成本高昂其实在VLDB 2018的best paper [1]里就重点提到,该论文的核心内容是关于加拿大滑铁卢大学的Semih针对图应用的调研分析。时隔两年,大量图数据库的数据导入成本仍然很高,以笔者所了解的情况,腾讯公司的EasyGraph图数据库对数据导入成本问题解决得较为完善。在EasyGraph落地微信支付场景的过程中,我们迭代了三个版本的图库导入。 ①最开始的版本则是通过预处理组件,按既定格式出库数据到HDFS,并通过配置文件启动导入;②之后,我们推动了通过UI交互的方式直接对数据源进行相关配置的导入方式,如浏览器端的库表配置,从列名等字段到点边及其属性的映射等。避免了配置文件和数据预处理脚本开发的成本。但其实对构图成本解决仍不够彻底,因为可视化的数据源往往需要数据分析者先创建相应的临时表,占用存储和元数据开销。即便用视图来优化这一问题,随着时间的推进,图数据库中仍然需要定期清理相应的临时视图等。
基于此,EasyGraph团队又迭代了第三个版本,通过类sql-schema的逻辑,一行简洁的代码就能完成导入,具体导入语法此处不详述,而且第三版的导入方式很大地减少了图库使用者的数据导入成本。这里也给出一个笔者在支付场景下思考获得的一个图库导入设计,这个设计启发于 hive create table as select x,x,x from t_xxxx 的语法。数据分析者仅需要针对点边及其属性数据写select的查询来反应需求,由图库自身将SQL语法解析出对应的查询计划并从SQL数据库表中直接获取数据并完成相应schema构建和数据导入。数据分析者仅需要撰写寥寥几个其足够熟悉且通用的SQL语句,语句中可以通过SQL语法中的限制条件语句对数据需求进行详细定制。这点其实对技术来说,完全可以实现。 麻省理工学院的研究人员及其合作者在Cell(2020)上发表的文章表明,GNN有助于药物研发。他们训练了名为Chemprop的深层GNN模型来预测分子是否具有抗生素特性,即对大肠杆菌的生长抑制作用。在使用FDA批准的药物库中的约2500个分子对其进行训练后,Chemprop被应用于更大的数据集,该数据集为包含Halicin分子的Drug Repurposing Hub,并根据《2001:太空漫游》电影中的HAL9000对其重命名。
需要说明的是,由于Halicin分子结构与已知的抗生素相差很大,因此先前的工作仅对该分子进行研究。但是,体内和体外临床实验表明,Halicin是一种广谱抗生素。相比NN模型进行的广泛基准测试,应用GNN发现Halicin更加显示了GNN强大的学习表征能力。除此之外,Chemprop架构也值得关注:不同于多数GNN模型,Chemprop有5层和1600隐藏层维数,远超其他GNN参数。以上介绍不过是GNN在新药发现中的冰山一角,想要了解更多信息,请查阅该综述和博客。 (编辑:柳州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |