HCR大数据战略之二：适合研究洞察的大数据技术体系

工欲善其事，必先利其器。强大高效的大数据技术体系对开展大数据业务有着重要的影响。在大数据应用的众多领域（如互联网服务、电商和在线广告等），相关技术体系的介绍已经屡见不鲜。本文中将介绍HCR如何针对研究行业的特点，打造先进性与实用性兼顾的大数据技术体系，推动公司大数据业务的发展。

1 HCR大数据业务特性分析

好的技术体系必须贴近实际业务要求。我们先来分析大数据在研究领域的业务特点：

源数据特性。因为客户主要是线下企业，数据包含内部数据（各类业务数据，以结构化数据为主）和外部数据（结构化和互联网非结构化兼有），实际可用于分析的数据体量不超过百亿/TB级别规模，与互联网企业动辄千亿/PB级不同
低实时性要求。数据研究业务，多以离线、非实时分析为主要处理模式，不同于互联网/在线广告DSP的实时处理。
计算模式上，各种统计性模型计算频繁使用，同时也具有大量的机器学习处理。
分析中常需要多维度比对，且关注数据分布。所以对数据的多字段检索和汇总统计要求较高。
研究人员基本不具有IT背景，难以使用技术性强的工具来分析大数据。熟悉易用的分析方法和工具，对研究人员而言十分必要。
相比技术驱动的公司，研究行业的大数据技术团队属于小型团队，无法在各方面投入较多资源，所以要求平台低成本、稳定性高和易维护管理。

2 HCR大数据技术体系

针对上述业务要求，HCR设计建设了具有自身特点的大数据技术体系，如下图

基础文件系统

所有集群服务器安装Linux的Ubuntu发行版本，文件默认基于Ext4和NFS。分布式文件管理采用HDFS/HADOOP框架，这是大数据系统的标配，不多介绍了。

数据管理

HCR的大数据源，就形式而言，主要是结构化和非结构化（以文本为主）两类。这里综合使用多种系统实现所有数据的管理和检索。

Cassandra：完成所有结构化大数据（基础源数据）的存储检索与运算支持。可轻松扩展到未来支持千亿规模的数据。相比常见的HBase方案，我们选择Cassandra是因其在可靠性（无中心结构）、社区更新支持以及与Spark配合方面都具有更多优势，更适合HCR业务情况。
Postgre/Mysql：开源关系型数据库，存储中间统计结果数据和业务数据。虽然有了Cassandra，但数据体系中传统关系数据库仍然很重要：研究员分析所需的大量中间计算/统计结果更适合关系数据库存储，其多字段检索能力（这对Cassandra则很困难）对于多维分析十分重要。集群部署+分区的模式使得其轻松应对10亿级的数据。
Infobright：结构化数据仓库方案，其数据压缩和聚合统计的功能很强。使用的免费社区版在百亿数据内性能不错，很适合结构化大数据下的多维统计分析与深入钻取场景。
Elastic Search：管理和检索所有非结构化数据（非结构化业务数据和互联网数据为主）。分布式架构对百亿级数据集合支持良好，易于管理使用，其他扩展资源（如Cassandra插件）也很丰富。

业务计算

业务计算是大数据技术体系的核心。包含了对所有业务逻辑计算/分析的支持。

分布式计算体系：采用Spark（未使用Hadoop/MR）。相比后者，Spark更先进，轻量高效（尤其业务中存在大量机器学习处理时），代码开发快，对人员要求统一，这都是我们所关注的。而其子模块Spark Sql可快速实现对大数据的类sql检索与分析，比Hive具有更强性能和功能。相关的机器学习库MLib提供的机器学习算法在业务中大量用于挖掘处理，比Hadoop下的Mahout快很多。都有效支持了业务处理分析。
自然语言处理API：用于实现对非结构化数据的处理和基本分析。涉及的相关功能（分词/特征抽取/情感分析/主题模型等）综合使用了多个开源系统/函数库，此处不再详述。
数据流支持工具：Kettle作为经典ETL工具，用于各类源数据引入时的快速ETL处理，可视化界面方便易用。而Kafka的数据订阅机制，统一满足了多个上层业务模型对主题数据流的共享需求。
业务规则引擎：HCR各类公共业务模型的通用分析计算服务，处理结果用于上层/后续研究使用。由大数据平台部的算法研发人员实现。
Storm：流式计算框架，用于满足未来实时分析业务的需要，当前尚未上线实用。
分析工具

分析工具是HCR大数据技术体系的最上层，主要由各种工具组成，支持各级数据研究人员完成对大数据的快速探索。

支持Java/R/Python等编程实现对大数据的快速深度处理
支持TableAu可视化分析工具以及其他可视化手段（如D3 NanoCube等）分析数据
支持SPSS Modeler和Weka进行大数据上的数据挖掘处理
支持SPSS/SAS等统计软件在大数据中间结果上进行统计研究

整个技术平台的选型在考虑先进性和深入分析能力要求的基础上，更多考虑了实用性、低成本（基本采用开源系统）和管理使用方便性等因素，使得平台非常适合HCR大数据业务的需要。

3 大数据平台部

针对大数据技术的专业性要求， HCR构建了专门的大数据平台部。团队以以清华、北邮计算机博士为核心，所有成员均为计算机专业硕士以上学历，在分布式体系架构、机器学习和数据挖掘方面具有5-10年以上的丰富经验。HCR大数据平台部主要负责：

HCR大数据技术体系战略和研发。包括核心技术平台的设计与建设，HCR大数据资源的统一引入与数据管理。
探索研究大数据下重要研究模型（如消费者画像研究）的建模与技术性实现，推进公司大数据深入分析与数据挖掘业务的产品发展。

4已完成工作和后续目标

大数据平台部成立几个月来，已初步完成了技术平台选型与一期系统设计搭建，并对公司现有大数据资源进行了清洗整合。一期平台当前可分析数据信息接近400亿/30TB，每天分析的行为数据约10亿（存储数据近4亿）。在研究分析上，完成了多项基于大数据的研究计算/分析与可视化展示（如移动互联网用户24小时行为模式、2015春运迁徙图分析等），更重要的是，在消费者画像研究方面，也已建立起一套先进的分析算法模型。

在后续的工作中，我们将对平台架构做功能优化，并根据业务扩容以满足未来更大规模的数据分析计算需要。同时，我们也将大力提升大数据技术工具的易用性（如针对研究员的Spark Sql可视化操作界面）。在研究与挖掘方面，将持续专注于消费者画像研究和行业性数据挖掘服务，逐步树立起HCR在相关领域的竞争优势。

菜单Menu

更多阅读：

菜单Menu

更多阅读：

分享这篇文章