【大数据技术】Hadoop真的已经老了吗?-魔据教育

【大数据技术】Hadoop真的已经老了吗?-魔据教育

Hadoop的历史
 Hadoop 最早诞生于 2006 年,并在 2008 年成为 Apache 顶级项目。虽然在诞生之初,只有国内外几家巨头尝试使用 Hadoop 技术,但没过多久,Hadoop 就成为了互联网行业大数据计算的标准配置,Hadoop 也快速成为 Apache 软件基金会的金牌项目之一。不仅如此,它还孕育了包括 HBase、Hive、ZooKeeper 等一系列知名 Apache 顶级项目,而这些项目一开始都是以 Apache Hadoop 子项目的形式在社区运作并为开发者熟知的。至今,Hadoop 已经走过了 12 个年头墨子剑法,这对于任何软件来说生命周期都不可谓不长。而从 2016 年开始,国内外就开始出现唱衰 Hadoop 的声音。虽然对于国内外很多企业来说,Hadoop 依然是大数据计算不可缺少的配置,但对于 Hadoop 未来的发展,很多人都并不看好,“谈不上会有好的发展”。Hadoop 背后最大的平台提供商 Hortonworks 也开始往以云计算为中心的世界靠拢。

去年 9 月,Gartner 将 Hadoop 发行版从数据管理的技术成熟度曲线中淘汰出局,原因是由于整个 Hadoop 堆栈的复杂性和可用性问题,许多组织已经开始重新考虑其在信息基础架构中的角色。而今年 KDnuggets 发布的数据科学和机器学习工具调查报告则显示 Hadoop 的使用率也下降了,这让“Hadoop 老矣”的说法又再度流传起来。

2018 年数据科学和机器学习工具调查报告显示 Hadoop 使用率下降 35%在这个时候吴英娜,为什么腾讯要花费大力气去主导 Hadoop 开源版本的发布姜毅英?真正“老矣”的是 Hadoop 商业发行版而非 Hadoop 技术本身, 不论在国内还是国外,Hadoop 技术都保持着大数据平台的核心和事实标准地位。需要变革的是 Hadoop 技术的使用和发行方式, 未来越来越多的用户从使用线下 Hadoop 发行版向云上的数据湖(对象存储 +Hadoop)迁移可能会成为一种趋势。
Hadoop 技术未老,但使用和发行方式需要变革
对于 Gartner 将 Hadoop 从技术成熟度曲线中淘汰出局,堵俊平指出,Gartner 的报告是针对 Hadoop 商业发行版而非 Hadoop 技术本身。报告中所提到的 Hadoop 发行版的问题:比如发行版的复杂度高以及包含很多非必要性组件,从用户的反馈来看,是真实存在的。很多商业发行版袁丹平,例如 CDH 或者 HDP,山岸秀匡都包含了洋洋洒洒十几种甚至几十种组件给用户使用苏三小蛮腰 ,在提供灵活性的同时,也给用户带来了很多使用和运维上的烦恼。更严重的是芈茵,这个问题从近几年的观察来看,不但没有减轻且有愈演愈烈的趋势。所以,Hadoop 技术的使用和发行的方式需要变革,未来越来越多的用户从使用线下的 Hadoop 发行版向云上的数据湖(对象存储 +Hadoop)迁移可能会成为一种趋势。Hadoop 生态确实存在一些不足。Hadoop 的生态系统非常复杂,每个组件都是独立的模块,由单独的开源社区开发和发布,我们可以称之为松耦合。这种松耦合的开发方式,好处是灵活、适应面广、开发周期可控,缺点是组件之间配合的成熟度低、版本冲突严重、集成测试困难。这也给用户的使用带来了困难,因为一个场景中需要涉及到很多组件的配置工作。虽然流计算对于大数据处理来说越来越重要,但不支持流计算却不会成为 Hadoop 的致命伤。虽然 Hadoop 自身不提供流计算服务,不过主要的流计算组件丹巴旺姆 ,如 Storm、Spark Streaming 以及 Flink 本身就属于 Hadoop 生态系统的一部分,因此并不构成太大的问题。

大数据招生火热进行中
有想报名进行免费试听的同学可以
点击原文连接或加小骨头QQ(2187963075)进行了解哦!
大有作为
数倍薪资
据为己有
如果你也觉得我们不错,可直接搜索公众号进行关注,查看历史消息即可大万世居。
如果你觉得文章不错,也可点击右上角的“...”分享到朋友圈大家需要正能量。