Hadoop精华问答 | 非大数据的项目能否用Hadoop?

1

Q:Hadoop的发展史?

A:

2

Q:Hadoop的核心组件

A:分析:Hadoop的核心组件分为:HDFS(分布式文件系统)、MapRuduce(分布式运算编程框架)、YARN(运算资源调度系统)

3

Q:HDFS的文件系统

A:

4

Q:如何选择不同的文件格式用于存储和数据处理?

A:关键设计理念之一就是相关文件格式要基于

1)使用模式 例如, 访问50列式存储当中的5列式存储vs 访问大部分的列式存储。

2)并行处理分裂性。

3)块压缩节省存储空间VS 读/ 写/转换/ 功能.

4)架构演变过程中添加字段/修改字段/重命名字段。

5

Q:非大数据的项目能否用Hadoop?

A:非大数据项目是否可以用Hadoop的关键问题在于是否有海量数据的存储,计算,以及分析挖掘等需求,如果现有系统已经很好满足当前需求那么就没有必要使用Hadoop,没有必要使用并不意味这不能使用Hadoop,很多传统系统能做的Hadoop也是可以做的,例如使用HDFS来代替LINUX NFS,使用MapReduce来代替单服务器的统计分析相关任务,使用Hbase代替MySQL等关系数据库等,在数据量不大的情况下通常Hadoop集群肯定比传统系统消耗更多的资源。

小伙伴们冲鸭,后台留言区等着你!

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();