加入收藏 | 设为首页 | 会员中心 | 我要投稿 柳州站长网 (https://www.0772zz.cn/)- 基础存储、数据迁移、云安全、数据计算、数据湖!
当前位置: 首页 > 大数据 > 正文

在裸机云上运行大数据详解

发布时间:2021-06-05 14:25:55 所属栏目:大数据 来源:互联网
导读:Analytics(分析)工作量有什么独特之处? 首先,让我们就定义分析工作负载的观点达成一致。根据Curt Monash的说法,分析是事务性的反义词。 尽管事务处理(OLTP)的特点是具有少量的离散操作,每秒具有大量事务,并且具有严格的数据完整性,但分析工作负载通常以
Analytics(分析)工作量有什么独特之处?
首先,让我们就定义分析工作负载的观点达成一致。根据Curt Monash的说法,“分析是事务性的反义词。” 尽管事务处理(OLTP)的特点是具有少量的离散操作,每秒具有大量事务,并且具有严格的数据完整性,但分析工作负载通常以较少的用户为特色,这些用户对数据源进行的操作更加复杂且占用大量资源。
幕后发生了巨大的并行性,并且通过使计算尽可能地接近数据来最大程度地降低了数据移动。数据量大,模型复杂且计算由分布式系统完成–所有这些都给执行这些任务的基础架构带来了真正的负担。
在裸机云上运行大数据分析
考虑过渡到云?
建立和维护您的大数据分析堆栈并不是开玩笑,因此公司经常选择将其分析工作负载迁移到云中,以降低复杂性并提高运营效率。根据经验,在准备过渡到云时,有两个要点要考虑:数据存储和数据处理。
要存储的数据山
对于大数据项目,首先需要考虑的是分布式数据存储。参照Brewer定理,分布式数据存储不可能同时提供两个以上的保证:即一致性,可用性还是分区容限。因此,选择两个,这很好。与以往一样,选择取决于您的应用程序。
为了保持大数据轮旋转,需要高度可伸缩,高效且经济高效的存储。几乎总会是某种类型的NoSQL数据库-如今,您可以 选择超过225个NoSQL数据库。
还记得布鲁尔定理吗?这是您开始做出牺牲的时候。如果您可以容忍某些数据不可用的风险(牺牲可用性),那么您可以采用一种高度灵活且易于扩展且具有简单查询功能的文档数据库,例如MongoDB。如果您的客户可能读取不一致的数据(牺牲一致性),这没什么大不了的,那么您可能想要选择容错且线性可扩展的数据库,例如Cassandra。
当您考虑使用传统的关系数据库管理系统(例如MySQL或PostgreSQL)并牺牲分区容忍度时,甚至还有一些利基用例。尽管这可以验证您的行家身份,但可能涉及数据库分片,并使处理非结构化数据几乎变得不可能。让我们仅使用SQL来查询数据仓库,对吧?
无论选择哪种数据库,大多数数据库在商用硬件上都能很好地运行。尽管如今所有超大规模云提供商都在提供托管数据库服务-其中有些人不愿意让开源成为中指 -但是,当有出色的开源产品出现时,就不必陷入其生态系统中。
例如,您可以在具有HDD,SSD或NVMe直接连接的存储的裸机云上运行MongoDB集群,从而使每个节点上的I / O操作激增。而且,如果您是真正的速度爱好者,则可能需要设置像Ignite或Redis这样的内存数据库。
让我们处理数据!等等,但是如何?
数据是新的石油,并非没有原因。我们喜欢数据;它有助于我们更好地理解事物并揭示可行的见解。为此,我们必须以一种或另一种方式处理数据。
首先是Hadoop,其基于MapReduce计算范例的批处理计算框架。生活是美好的,并且在工程师水平扩展其大数据集群并采用大规模并行性的同时演唱了歌曲。每个节点在已为其分配的映射数据上执行给定的reduce函数-这样,大量数据块的处理就变得轻而易举。
这也是Google启动其搜索引擎的方式。随着时间的推移,随着大数据行业的日趋成熟, Hadoop生态系统迅速扩展并引入了更多抽象层来解决新问题。它仍然是当今数据行业中最重要和最常用的工具,您可以在其中轻松地在简单的商用服务器上运行。只需确保您的节点上具有快速,直接连接的存储,因为Hadoop MapReduce是磁盘绑定的。
虽然批处理是一个非常强大的概念,但我们首先需要存储数据以进行处理。当您要开始使用连续数据流进行实时预测时,这会带来困难。要使算法股票交易或野火监控等工作正常进行,必须一目了然地处理数据。显然,这里我们需要一个不同的范例,而Apache Spark在流处理方面处于创新的最前沿。
该项目最初旨在解决Hadoop在流分析中的弱点。Spark没有文件管理系统,因此它依赖于HDFS或任何其他存储集群。它从集群读取数据,一步完成其操作,然后将数据写回到集群。这可以比Hadoop快100倍,因为默认情况下Spark在内存中运行。在为您的Spark集群选择正确的基础架构时,请寻找功能强大的RAM。
像大多数伟大的技术一样,Spark发生了很大的变化。现在,它是一个统一的分析引擎,具有强大的交互式查询,图形处理和迭代算法。例如,您可以轻松构建机器学习工作流程,并在Spark上使用一些最受欢迎的算法来遍历数据集并构建机器学习模型。这些天,它甚至可以处理批处理作业。而关于Spark的最好的事情?它是完全免费的。

(编辑:柳州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读