详解被阿里腾讯视作核心机密的大数据平台架构
![]() 提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的输出。 Amazon Elastic Map Reduce(EMR):托管的解决方案,运行在由Amazon Elastic Compute Cloud(EC2)和Simple Strorage Service(S3)组成的网络规模的基础设施之上。如果你需要一次性的或不常见的大数据处理,EMR可能会为你节省开支。但EMR是高度优化成与S3中的数据一起工作,会有较高的延时。Hadoop 还包含了一系列技术的扩展系统,这些技术主要包括了Sqoop、Flume、Hive、Pig、Mahout、Datafu和HUE等。 这里就不一一列举了,有很多,有感兴趣的可以和我私信讨论。 大数据平台架构 大数据计算通过将可执行的代码分发到大规模的服务器集群上进行分布式计算,以处理大规模的数据,即所谓的移动计算比移动数据更划算。但是这样的计算方式必然不会很快,即使一个规模不太大的数据集上的一次简单计算,MapReduce也可能需要几分钟,Spark快一点,也至少需要数秒的时间。 而网站处理用户请求,需要毫秒级的响应,也就是说,要在1秒内完成计算,大数据计算必然不能实现这样的响应要求。但是网站应用又需要使用大数据实现统计分析、数据挖掘、关联推荐、用户画像等一系列功能。 所以网站需要构建一个大数据平台,去整合网站应用和大数据系统之间的差异,将应用程序产生的数据导入到大数据系统,经过处理计算后再导出给应用程序使用。一个典型的网站大数据平台架构如下图: (编辑:柳州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |