×
支持199IT发展可加入知识交流群(8K+用户),最有价值数据分享和讨论!
点击即可加入!
关闭

从2016年魔力象限看全球大数据厂商风起云涌

一. Summary

大数据存储与分析市场风云变换,全球行业对于大数据分析与处理的需求加速增长,无论是数据采集、数据分析及IT基础支撑都需要强有力的技术功底。各大数据厂商也纷纷提出自己的解决方案,但不同的解决方案有相应的适用场景,本文基于Gartner 2016年发布的魔力象限对全球大数据管理与分析行业的市场现状进行阐述,可对企业大数据解决方案选型提供最具前沿的参考价值。

二. 什么是Gartner魔力象限

Gartner魔力象限描述了Gartner公司依据标准对市场内的厂商所进行的分析。Gartner公司并不对在魔力象限中描述的任何厂商、产品或服务出具官方认可,也不建议技术用户只选择那些位于“领导者”象限里的厂商。魔力象限仅用作一种研究工具,并不意味着是行动的具体指导。Gartner公司对该项研究不承担任何明示或默示的担保,包括适销性或适用于某一特定用途的任何担保。

魔力象限的四个象限依次分别为领导者、挑战者、有远见者和特定领域者(Niche Players):

•特定领域者:公司发展前景的完备性和执行能力方面都得低分的公司也许占有一定的市场份额,但还是比不上规模大一些的厂商。这些公司通常关注功能性或其他特定领域,要么就是新成立的公司。

•有远见者:了解市场动态并且有潜力进行创新,但也许尚缺乏执行这些的能力。虽然这是早期市场中的企业标准,但是在较为成熟的市场中,有远见者则常常要么是设法实现的小企业,要么是不想按常理出牌的大厂商。

•挑战者:执行能力高,但缺少强劲的发展势头。挑战者往往是大型一点的成熟厂商并且不愿打破其当前的发展计划。随着公司的发展他们完全有实力成为行业领袖。

•领导者:公司发展前景的完备性和执行能力方面均得高分的行业领袖往往是大型的成熟公司、拥有大量客户群并且在市场上知名度极高。行业领袖在市场中有巨大的拉力,甚至有实力影响市场的整体发展方向。其提供的产品应包含额外的功能,且能提高市场对这些功能的重要性的认识,从而显示出对市场的影响能力。

三. 市场需求描述

目前的大数据分析市场,企业需要一套能够管理和处理各种类型、不同格式、不同数据来源的数据管理与分析解决方案。除了企业信息化的数据之外,可能还包括一定的监测与交互数据,如物联网传感器的数据等。随着数据量和数据种类的增加,经常面临对企业已存在的数据仓库系统及架构进行改造。本文提及的数据管理与分析解决方案(The Data Warehouse and Data Management Solutions for Analytics, DMSAs)主要包括:

1.支持不同文件管理系统(XML,TEXT)和异构数据库的数据整合

2.能够进行结构化的数据查询与处理

3.支持不同的数据访问接口

四. Gartner定义的四类数据仓库

数据仓库不仅是一个单一的数据库,它是一整套的数据管理系统,包含很多的辅助工具、一些设计理念和管理方法。

1.传统数据仓库:一般指存储处理各种结构化历史数据的数据管理系统,不同数据源通过批处理的方式加载到仓库。这类数据仓库采用集中化的架构,处理的数据量能力有限,水平扩展能力较差。

2.操作型数据仓库:操作型数据仓库把对数据的实时访问和操作进行了提升。数据不再是T+1的模式,而是T+0或准实时的模式,也就是说当天,甚至是几分几秒,都可以访问到数据。

3.逻辑数据仓库:逻辑数据仓库的数据不再局限于结构化数据,还包括非结构化数据,如视频、音频、文档等格式。逻辑上是一个大的数据仓库,底层可以包括各类数据源,进行关联处理。

4.上下文无关的数据仓库:通过利用新的机器学习的统计方法,不仅做传统SQL的统计,还能够从数据关联上面发现规律、关联模式、时序上的特征。通过对它进行一些预测分析,能够发现统计学意义上的因果关系。

五. Gartner魔力象限详述

1470332253-5325-3417eb9bbd90190bc78248

Source: Gartner (February 2016)

•横轴:前瞻性(Completeness of Vision),包括厂商或供应商提供的产品底层技术基础的能力、市场领导能力、创新能力和外部投资等等。

•纵轴:执行能力(Ability to Execute),包括产品的使用难度、市场服务的完善程度和技术支持能力、管理团队的经验和能力等。

下面结合魔力象限对各解决方案厂商进行概要性的阐述:

1. 1010data

1010data是一个致力于管理服务的数据仓库提供商。它的DBMS和BI主要面向金融服务、零售、电信、政府和健康领域。

1)1010data近几年一直处于快速增长阶段,目前已经超过750家客户。当前集中在基于云的解决方案方面。

2)其交互式数据分析的简单易用、查询的高效性、数据加载的性能受到一致好评。

3)1010data目前仅局限于逻辑数据仓库(LDW)。主要关注于基于1010data云的数据管理与分析支撑;

4)1010data仍然主要在美国。近期开放了德国数据中心,用于欧洲运营。

2. Actian

Actian提供了基于Actian分析平台的数据仓库和数据管理解决方案。该平台包括3个产品:Matrix,MPP(massively paralell processing)DBMS引擎;Vortex,基于Hadoop的分析平台,Vector,SMP(symmetric multiprocessing) DBMS引擎。

1)Actian提供了集成的数据仓库解决方案,号称可以支持4类数据仓库功能。基于Vortex,可以提供集成的数据分析能力。

2)市场反映,Actian提供的逻辑数据仓库和上下文无关数据仓库功能可以处理多种数据格式。总体上,Actian的查询性能和分析能力值得肯定。

3)Actian Matrix是Amazon Redshitf的基础数据库。但matrix和redshitf在技术和架构演进战略上并不一致。Actian用户无法使用两种技术进行基于混合云和本地化的部署,但Actian可以将Matrix部署于第三方云服务提供商进行服务提供,如微软的Azure和Rackspace。这样,用户可以使用部署于云上的Matrix进行系统部署和测试。

4)目前在市场上,Actian的使用度并不广,但Actian声称其增长速度已经超过了市场平均水平。

3. Amazon Web Services

Amazon Web Services(AWS)提供了Amazon Redshift(基于云的数据仓库服务),AWS Kinesis(流数据处理),Amazon Simple Storage Services S3(简单存储服务),Amazon Elastic MapReduce EMR 几种服务。

1)AWS被认为是云数据仓库平台服务提供商的领导者。它基于云平台的可扩展性、技术的灵活性进行快速的应用。

2)AWS联合多种数据管理解决方案,能够提供不同类型的应用。例如,使用S3进行数据湖的支撑建设,利用Redshift进行数据分析。

3)大量用户表示,他们打算追加更多的投资到Redshift,表明了其对此产品的满意度。

4)所有主流的服务提供-IBM,Microsoft, Oracle,SAP和Teradata,现在都积极地通过数据仓库即服务和AWS在云计算领导进行竞争。对于在价格和产品功能上持续竞争,尽管用户对于云产品可以有了更多的选择,但用户需要有一定的产品辨识度。

4. Cloudera

Cloudera提供基于Apache Hadoop生态系统的数据存储和处理平台。同时也提供一些用于系统设计、部署、维护、管理的专有系统和数据管理工具。

1)Cloudera不同于其它Hadoop系统提供商,其专注于某些能力的贡献,比如持续跟进Hadoop开源项目,持续提升Cloudera导航器(提供元数据管理、血统管理和审计)。

2)Cloudera将其解决方案作为传统数据仓库的有力补充,并且充分利用了其与传统DBMS提供商的联合,如Oracle。

3)Cloudera持续在全球上进行扩张,如在欧洲、亚洲、拉丁美洲的用户数增长很快。同时,在其全球生态系统上的合作伙伴也一直在增强。

4)尽管Cloudera表现出了对于云部署的兴趣,但Cloudera仅仅把云平台作为IaaS使用,并没有提供可伸缩的、弹性的、可管理的服务支持。Cloudera通过提升Cloudera Director来满足对于云平台部署的需求。

5)Hadoop的模块化设计,允许新的模块能够轻松的加入系统,Cloudera持续扩展它的组件,来满足新的业务需求。

5. Exasol

Exasol提供基于内存的列存储DBMS,它提供免费的单节点安装版本,集群部署解决方案和Dell Appliance的集成。 它同时也提供基于EXACloud云平台之上的全管理解决方案,以及基于第三方云服务提供商的解决方案,如AWS, 微软的Azure和Rackspace。

1)Exasol的市场表现在持续增长,目前已经超过100家客户。尽管它的用户大部分在欧洲,Exasol正在美国寻求新的突破。

2)Exasol基于现有的并行分布系统,引入虚拟模式开发(对于外部数据源)和脚本语言容器。这种结合使得用户或合作方可以使用任何语言(R,Scala,Java,Lua,Python)在Exasol上开发、部署、运行他们的模型。

3)Exasol缺乏市场远见。这种情况在2016年很可能依然如此,因为公司主要选择通过合作方进行欧洲以外市场的扩展。尽管近期在美国的取得了成功,但Exasol于2015年进行了相应比例的缩减。

4)Exasol客户报告Exasol缺乏部署和生命周期管理能力,例如集群的缩减和SQL客户端的功能。另外,Exasol提供的相关文档不够充分,并且缺乏一些市场策略。

6. Hitachi

Hitachi利用Hitachi Advanced Data Binder(HADB)于2014年进入数据仓库和DMSA市场。 主要提供三方面服务:Desktop, “entry” 模型和”standard” 模型. 它的售价依赖于期望的存储容量、CPU处理器的核数和内存总量。

1)日立的路标瞄准解决日本市场的需求。HADB是一个致力于工业界的高速、传统数据分析解决方案,主要针对结构化数据分析(包括传感器数据)。

2)日立客户会考虑将大量交易数据、传感器数据和地图数据转成结构化数据,通过HADB进行数据分析。特殊地,HADB用户利用它的out-of-order执行特性,可以绕过传统的同步操作来增加处理器I/O的并发度。

3)日立客户极度责怪日立提供的服务支撑。他们报告说明,通过使用HADB极大提升了自己操作的能力。

4)Hitachi在日本市场提供基础的数据仓库解析方案,目前比较成熟高效。在最近的发展策略下,Hitachi正在北美寻求市场。

5)Hitachi在2015年在市场方面增长有限,导致了仅有一小部分的产品增长。因此,Hitachi在魔力象限中处于不利位置。

6)Hitachi的HADB定位于处理大量结构化数据的高性能分析,并没有解决逻辑数据仓库(LDW)的问题,也就是无法处理非结构化数据。然后,Hitachi的Pentaho acquistion作为LDW的替代品已经出现于市场之上。

7. Hortonworks

Hortonworks提供基于Linux和Windows的Hortonworks数据平台(HDP)。同时也提供基于不同云服务提供商且运行于Linux之上的Hortonworks数据流工具HDF。Hortonworks与微软(具体是它的Azure HDInsight服务)合作,进行远端混合云的部署。基于此,Hortonworks提供免费的桌面沙箱HDP版本。

1)在2014年12月,Hortonworks成为第一个Hadoop发行版提供商进入公众视野,证明了Hadoop对于企业的活力和流行度。Hortonworks公开其自从上市后新客户有显著增加。

2)Hortonworks由于持续合作伙伴的增加,包括传统的数据库厂商 ,越来越受到市场的认可。Hortonworks避免与其直接竞争,这也正符合其对hadoop发行版扩大数据仓库市场的期望和作用。

3)Hortonwork通过与大数据生态的深度合作与集成,保持自身hadoop的特性,这无疑将是一个巨大的挑战。因为其它大数据服务商如微软、Teradata也在同其它Hadoop服务商进行合作。

8. HPE

Hewlett Packard Enterprise’s(HPE’s)致力于数据管理与分析解决方案。HPE的Vertica,是一个列式存储的分析型DBMS。同时Vertica也支持基于云计算的部署,并且提供与Hadoop的集成和基于Hadoop的SQL查询。

1)用户可能使用Vertica进行各种use case和各类数据的分析。

2)HPE Vertica能够满足主要的市场需求和趋势,如LWD,基于库内运算等。

3)HPE满足了一定的用户需求,但Gartner的客户调查显示其客户群体量不大。这表明HPE在增加其市场扩展方面面临着不小挑战。

4)用户提出HPE的DBMS在管理上的问题与挑战,尽管它在逐渐的提升。

5)目前HPE Vertica在中国的销售遇到不小的困难,主要原因是其按存储容量进行报价。

9. IBM

IBM提供单机的DBMS解决方案、数据仓库专用设备、z/OS解决方案和Hadoop发行版BigInsights。其专用设备包括IBM PureData分析系统,IBM PureData运营分析系统、IBM DB2分析加速器和IBM智能分析系统。IBM提供基于分析加速器Blu Acceleration的IBM DB2,以及数据仓库管理服务。IBM在2014年10月发布了dashDB(基于IBM旗舰产品DB2关系型数据库的BLU Acceleration内存计算技术。)

1)IBM推出dashDB和DataWorks的云服务。用户可以在一个弹性的环境中通过此服务进行快速的数据分析模型部署。可以解决快速增长的数据分析需求。

2)2015年,IBM提出了IBM Fluid Query,可以连接关系型和Nosql数据库。IBM还致力于Apache Spark开源项目,将为IBM在流式计算、数据挖掘、高级分析带来产品的竞争力。

3)目前dashDB的使用范围不确定,尽管IBM宣称已经大范围使用,但Gartner仅接到小部分的用户使用报告。

10. Infobright

Infobright是一家全球公司,提供基于Mysql-postgre sql API的列存储、高压缩比的DBMS。主要销售商业版本的Infobright。目前有试用版可下载。

1)用户对于Infobright的处理速度十分满意。主要归功于Infobright的处理方式、压缩比、数据载入速率和对索引的依赖。

2)2014年,Infobright经历了一次重组,导致了现金流转的变化。其中就包括减少对于产品的支持。

3)物联网数据为Infobright提供了机会。已经计划在这方面进行技术的变革与创新。

4)根据用户反映,一些Mysql数据类型Infobright软件不支持。

11. Kognitio

Kognitio提供了Kognitio分析平台,它即是一个数据仓库DBMS,也是一个专用设备。Kognitio提供公有云或私有云的云解决方案,也在AWS上提供公有云服务。

1)一些Kognitio的大客户在单一的数据管理分析环境(LWD)下运行传统分析解决方案,如数据集市、数据仓库和hadoop。

2)为了和Hadoop节点融合共存,与Apache Hadoop YARN和Kerberos集成,实现JSON的解析,Kognitio很可能将其分布式分析作为一个通用的处理引擎。

3)Kognitio客户发现Kognitio与很多第三方BI和数据集成产品无法集成起来。

4)Kognitio用户也发现了数据库管理的相关问题,如内存管理等。另外,他们认为管理UI需要进行提升。

12. MapR技术

MapR提供Hahoop发行版,此发行版对Hadoop的性能、存储进行优化,具有高可用性,且具备一定的管理工具。

1)MapR扩大了其产品范畴,开始和众多合作伙伴开展融合,共同提供解决方案,如AWS, Google,HPE,IBM, Microsoft, SAP, SAS和Teradata。

2)客户称赞MapR在高可用性、集群管理等性能。另外,MapR继续提升在授权、审计等方面的能力。

3)MapR聚焦其大范围的use case。支持流式处理、分析型用例。

4)尽管MapR在市场上的努力,但它仍然缺乏市场的可见性。

5)MapR的用户表示其升级和安装是一个很大的挑战。为了解决这个问题,MapR现在已经提升了GUI的安装界面,playbooks,专业升级包等。

13. MarkLogic

MarkLogic提供NoSQL数据库,可使用XML,JSON,Text,RDF和二进制存储,提供元数据驱动的语义实体管理层。MarkLogic还包括对索引、分层存储、HDFS/Amazon S3、移动复制、全文本查询、地理空间能力、SQL/ODBC和支持。

1)MarkLogic过去三年在收入和用户群上有了快速的增长。它的客户源自全球,主要包括北美、中国、新加坡、南韩、法国、东欧等地。

2)MarkLogic用户使用它的产品多用于半结构化数据集(也含结构化)。

3)MarkLogic是一个小的服务提供商,主打个性化的服务能力。但目前能够在整个大的市场下开展竞争 。

4)尽管同期相比,Marklogic在提升,但主要还是依靠口碑进行平台的宣传与扩展。

14. MemSQL

MemSQL为事务型用例提供基于内存的DBMS,结合基于磁盘的列存储提供分析服务。

1)MemSQL的策略主要聚焦提供低时延的事务和分析用例能力。目前集成Apache Spark提供流式、事务和分析能力。

2)MemSQL于2013年进入DBMS市场,解决运营用例。现在它进入数据仓库和DMSA市场,主要致力于运营分析用例。

3)用户表示MemSQL的定价是一个问题,并且MemSQL没有提供免费的社区版本。

4)MemSQL的定位在于提供混合的交易、分析、处理(HATP)的用例,但目前仅提供初级的操作型DBMS。

15. Microsoft

微软在市场上有多种数据分析产品,SQL Server,微软分析平台系统(整合了SQL Server并行数据仓库和HDInsight),基于云的Azure SQL数据仓库和基于Hadoop的Azure HDInsight。

1)微软基于云的解决方案包括一个融合Azure SQL数据仓库和数据分析环境,目前已经吸引了大量客户关注。

2)微软Azure联合查询、Azure机器学习、Azure数据工厂为微软用户提供了自我服务的数据管理分析环境。另外,基于微软的Azure数据湖商店、Azure数据湖分析,微软的用户社区由其自己品牌的公民科学家支持。

3)用户提出一些偶然的后端和架构问题。同时也指出微软灾难性的恢复功能、SMP和MPP的整合、平台绑定展现管理以及部署问题。

4)微软对于分析型数据管理解决方案的定位并不明确,它需要明确如何同时支持个人用户和企业级用户。

16. MongoDB

MongoDB提供一个开源的文件DBMS。其支持自动分区、容错、二级索引、地理空间数据及和文档数据检索、以及相应的管理工具。他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。

1)MongoDB由于对操作型数据强大的处理能力而被人所知。它的软件通常采用嵌入式的方式进行使用。

2)用户经常强调MongoDB在操作型数据分析上的能力,以及MongoDB所具有的管理接口。

3)尽管MongoDB满足用户操作型分析需求上的功能,但用户仍然很难将其看作是一个企业级的分析平台。

4)用户也暴露出MongoDB的一些问题,如读写锁管理、授权、复本以及网络存储的性能等。

17. Oracle

Oracle提供Oracle 数据库12c,Oracle Exadata数据库设备,Oracle大数据设备,Oracle数据库Exadata云服务,Oracle大数据管理系统,Oracle大数据SQL以及Oracle大数据连接器等产品。

1)Oracle用户表示将软件硬件整合在一套解决方案有利于部署与管理。其用户满足Oracle系统的性能与稳定性。在2015年,Oracle报告显示其在北美、EMEA、以及亚太地区,大量企业采用Oracle大数据设备。

2)目前Oracle数据库的版本包括基于JSON数据之上的SQL能力、基于内存和列式的数据存储。

3)Oracle大数据机是一款集成设计的系统,旨在简化大数据项目的实施与管理。

4)Oracle数据集成Hadoop应用适配器通过Oracle数据集成器易于使用的界面,自动生成Hadoop MapReduce代码,简化了Hadoop应用与Oracle数据库的数据集成。

5)Oracle Hadoop装载器使客户能够利用Hadoop MapReduce处理功能建立优化的数据集,从而在Oracle数据库11g中进行高效率加载和分析。

6)Oracle Direct Connector可通过SQL语言从Oracle数据库直接访问Hadoop分布式文件系统上的数据。

18. Pivotal

Pivotal是一家由EMC、VMware和GE联合成立的公司。它提供开源的数据管理解决方案。它的产品主要包括Pivotal GreenPlum和Pivotal HDB。它也通过Pivotal实验室对外提供服务。另外,Pivotal通过它的大数据套件整合提供产品服务。

能力:

1)首先Pivotal大数据套件中的所有组件都是业界最领先的大数据产品,同时拥有大量顶级的客户案例。

2)Greenplum的开放架构受到了许多企业的青睐,除电信、金融等大企业之外,Greenplum在互联网公司也拥有广泛的应用。

3)Pivotal HD是最强的Hadoop发行版,它提供了企业级的支持与版本延续性管理。更为重要的是,Pivotal大数据套件中的所有产品都实现了无缝的集成与联动,全分布式架构涵盖了大数据处理的各个领域

4)Pivotal客户报告了其一系列优势,包括速度、分布式处理能力、稳定性和高可用性。

19. SAP

SAP提供SAP IQ和SAP Hana。SAP IQ,第一个列式存储DBMS,支持单机。SAP Hana是一个基于内存的列式存储系统,支持操作型和分析型的用例。SAP也提供一体机,基于云的解决方案(SAP Hana云平台)。另外,还提供基于Hana之上 的SAP商业数据仓库。

1)SAP在数据仓库方面持续取得成功。采用基于Hana的SAP商业数据仓库增加了不同的客户群。

2)SAP持续提升其在云部署方面的伸缩性和灾难恢复的高可用性。

3)SAP通过扩展SAP Hana Vora和其它DBMS与Hadoop的关系,使其作为生态系统的一部分,持续改变SAP Hana的市场定位

4)尽管SAP上下的努力,SAP Hana目前还仍然主要是被已有的SAP用户采用。这也表现出SAP扩展其分析型数据管理市场的挑战。

5)SAP用户提出SAP Hana存在的一些问题,如功能性缺失、稳定性问题。

20. Teradata

Teradata的产品包括DBMS解决方案、数据仓库设备和云数据仓库解决方案。Teradata同时提供传统数据仓库和逻辑数据仓库(LDW),也就是Teradata声称的统一数据架构(UDA)。它也提供特定硬件和基于特定分析数据库软件的融合服务,比如基于各类设备的Teradata数据仓库一体机。

1)Teradata持续开展大数据产品以满足变化的市场需求,如Teradata云,基于AWS的Teradata分析和基于Hadoop的Aster分析。这些新的方法为客户提供了一定的伸缩性,也为独立采用Teradata产品提供了机会。

2)Teradata开始处理流式数据的处理需求。在IoT时代,将会带来一定的机会。这也是一个应对市场需求与趋势的重要转变。

3)客户对于Teradata软件称赞其性能、稳定性和对工作负荷的管理。

21. Transwarp(星环科技)

Transwarp提供Transwarp数据集中器(TDH),它是一个Hadoop发行版的套件,在此之上补充了SQL引擎、机器学习算法、NoSQL查询引擎和流式处理功能。

1)尽管Transwarp是一个年轻的大数据服务提供商,其在中国市场取得了不断的提升。在18个月内获得了200个客户。

2)Transwarp拥有独特的数据能力,包括基于Apache Spark的Inceptor SQL组件,融合Oracle SQL和PL/SQL提供create, read, update, delete和ACID操作。这些组件功能被用户极度赞扬。

3)客户表示,其不仅对Transwarp的产品非常满意,对公司提供的培训和支撑也一样满意。

4)到目前为止,Transwarp仅在中国。Transwarp到目前还没有提供基于云计算的解决方案,尽管其声称云已经在其路线图中。

六. 小结:

本文主要结合Gartner魔力象限对目前全球主流数据管理与分析厂家的产品功能、市场定位进行了阐述。相关内容可作为企业大数据架构及产品选型的参考。另外,本文不涉及商业智能及数据挖掘厂商,因此,像SAS,Tableau等厂家并不在讨论范围之列。

本文为中国联通网研院网优网管部IT技术研究团队独家提供,作者:苏飞

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部