互联网背景大数据方案的局限性--粉丝服务平台-粉丝头条-fensifuwu.com

互联网背景大数据方案的局限性

科技 06-28 来源：范煜BIGDATA

互联网企业由于天然具有大量数据的优势，是基于Hadoop生态圈的狭义大数据使用场景最多的行业，相关部门的技术人员也是这波大数据热潮中拥有实战经验最多的群体。由于这些人的经验，被投资人形象地称为"看过猪跑的人"，得到投资者的热捧，他们创办的公司和推出的大数据方案得到了市场的欢迎。

针对这些基于互联网公司背景的大数据方案，在看到优势的同时，会发现局限性也是明显的。因为相对于互联网公司，其它行业公司的数据形态和应用场景更为复杂。这些方案希望用Hadoop生态圈产品一招制敌会比较困难。

互联网公司的大数据具有明显的特点：

1、数据种类比较少，但每种的数据量会很大，比如访问日志

2、应用场景简单，需求明确，比如实时数据看板

3、有高水平的专业数据分析团队

但这些特点并不能适应所有行业，其它行业公司的情况是：

1、信息系统很多，数据种类很多，但数据量很大的单表并不多

2、需要面向业务人员多样化的需求，难点是界定需求的边界

3、较少或没有专业的数据分析人员，缺乏成熟的应用场景

从数据处理（主要是数据聚合）而不是存储量的角度，数据按数据量可以分为少、中、大和海量，一般以数据表的行数来计算。处理不同数据量要用不同的技术和产品。少量数据可用关系数据库，如SQL Server、Oracle、MySQL等；中等需要用分析数据库，如SSAS、Essbase等；大量数据可以用并行数据库，如Greenplum、Teradata；海量数据用分布式数据库，如Hive、Hbase。Hadoop生态圈的分布式数据库主要适合海量数据，如果用来处理其它规模的数据，因为运维难度大于其它数据库，会有大炮打蚊子之嫌。

相对于互联网公司的应用场景，其它行业场景更为复杂和多样化，需要提供多样化的解决方案。而能够提供方案的企业是稀缺的。如果想通过建立自己的生态圈，把这个问题推给下游的合作伙伴来解决，是不大可能的。原因是这种所谓的合作伙伴比Hadoop供应商还更稀缺。

那么，最终解决方案稀缺的原因是什么呢？原因是它要解决的问题与其它信息系统不同。一般信息系统可称为事务处理系统，它对应原先的人工处理流程，因为这些流程已经固化，所以客户可以准确地描述自己的需求。而基于大数据的决策支持系统，客户并没有固定的业务流程对应，所以难以提出完整的需求，需要供应商提供方案。因此，仅有技术，难以打开这个市场。

当然，暂时的成功是可能的，比如游说客户先启动数据中台项目，最后把球踢给合作伙伴或客户，理由是客户提不出完整的需求。

大数据不是一项凭空出现的技术，是商业智能（BI）的发展，BI发展中遇到的问题，大数据也会遇到。不能提供满足数据多样化需求，和最终落地方案的大数据公司可能终究走不远。

本文为范煜原创文章