HCR大数据战略之二:适合研究洞察的大数据技术体系

工欲善其事,必先利其器。强大高效的大数据技术体系对开展大数据业务有着重要的影响。在大数据应用的众多领域(如互联网服务、电商和在线广告等),相关技术体系的介绍已经屡见不鲜。本文中将介绍HCR如何针对研究行业的特点,打造先进性与实用性兼顾的大数据技术体系,推动公司大数据业务的发展。

 

1 HCR大数据业务特性分析

 

好的技术体系必须贴近实际业务要求。我们先来分析大数据在研究领域的业务特点:

  • 源数据特性。因为客户主要是线下企业,数据包含内部数据(各类业务数据,以结构化数据为主)和外部数据(结构化和互联网非结构化兼有),实际可用于分析的数据体量不超过百亿/TB级别规模,与互联网企业动辄千亿/PB级不同
  • 低实时性要求。数据研究业务,多以离线、非实时分析为主要处理模式,不同于互联网/在线广告DSP的实时处理。
  • 计算模式上,各种统计性模型计算频繁使用,同时也具有大量的机器学习处理。
  • 分析中常需要多维度比对,且关注数据分布。所以对数据的多字段检索和汇总统计要求较高。
  • 研究人员基本不具有IT背景,难以使用技术性强的工具来分析大数据。熟悉易用的分析方法和工具,对研究人员而言十分必要。
  • 相比技术驱动的公司,研究行业的大数据技术团队属于小型团队,无法在各方面投入较多资源,所以要求平台低成本、稳定性高和易维护管理。

2 HCR大数据技术体系

针对上述业务要求,HCR设计建设了具有自身特点的大数据技术体系,如下图

QQ20150703-3@2x

  • 基础文件系统

所有集群服务器安装Linux的Ubuntu发行版本,文件默认基于Ext4和NFS。分布式文件管理采用HDFS/HADOOP框架,这是大数据系统的标配,不多介绍了。

  • 数据管理

HCR的大数据源,就形式而言,主要是结构化和非结构化(以文本为主)两类。这里综合使用多种系统实现所有数据的管理和检索。

  • Cassandra:完成所有结构化大数据(基础源数据)的存储检索与运算支持。可轻松扩展到未来支持千亿规模的数据。相比常见的HBase方案,我们选择Cassandra是因其在可靠性(无中心结构)、社区更新支持以及与Spark配合方面都具有更多优势,更适合HCR业务情况。
  • Postgre/Mysql:开源关系型数据库,存储中间统计结果数据和业务数据。虽然有了Cassandra,但数据体系中传统关系数据库仍然很重要:研究员分析所需的大量中间计算/统计结果更适合关系数据库存储,其多字段检索能力(这对Cassandra则很困难)对于多维分析十分重要。集群部署+分区的模式使得其轻松应对10亿级的数据。
  • Infobright: 结构化数据仓库方案,其数据压缩和聚合统计的功能很强。使用的免费社区版在百亿数据内性能不错,很适合结构化大数据下的多维统计分析与深入钻取场景。
  • Elastic Search:管理和检索所有非结构化数据(非结构化业务数据和互联网数据为主)。分布式架构对百亿级数据集合支持良好,易于管理使用,其他扩展资源(如Cassandra插件)也很丰富。
  • 业务计算

业务计算是大数据技术体系的核心。包含了对所有业务逻辑计算/分析的支持。

  • 分布式计算体系: 采用Spark(未使用Hadoop/MR)。相比后者,Spark更先进,轻量高效(尤其业务中存在大量机器学习处理时),代码开发快,对人员要求统一,这都是我们所关注的。而其子模块Spark Sql可快速实现对大数据的类sql检索与分析,比Hive具有更强性能和功能。相关的机器学习库MLib提供的机器学习算法在业务中大量用于挖掘处理,比Hadoop下的Mahout快很多。都有效支持了业务处理分析。
  • 自然语言处理API:用于实现对非结构化数据的处理和基本分析。涉及的相关功能(分词/特征抽取/情感分析/主题模型等)综合使用了多个开源系统/函数库,此处不再详述。
  • 数据流支持工具:Kettle作为经典ETL工具,用于各类源数据引入时的快速ETL处理,可视化界面方便易用。而Kafka的数据订阅机制,统一满足了多个上层业务模型对主题数据流的共享需求。
  • 业务规则引擎:HCR各类公共业务模型的通用分析计算服务,处理结果用于上层/后续研究使用。由大数据平台部的算法研发人员实现。
  • Storm:流式计算框架,用于满足未来实时分析业务的需要,当前尚未上线实用。
  • 分析工具

分析工具是HCR大数据技术体系的最上层,主要由各种工具组成,支持各级数据研究人员完成对大数据的快速探索。

  • 支持Java/R/Python等编程实现对大数据的快速深度处理
  • 支持TableAu可视化分析工具以及其他可视化手段(如D3 NanoCube等)分析数据
  • 支持SPSS Modeler和Weka进行大数据上的数据挖掘处理
  • 支持SPSS/SAS等统计软件在大数据中间结果上进行统计研究

 

整个技术平台的选型在考虑先进性和深入分析能力要求的基础上,更多考虑了实用性、低成本(基本采用开源系统)和管理使用方便性等因素,使得平台非常适合HCR大数据业务的需要。

3 大数据平台部

针对大数据技术的专业性要求, HCR构建了专门的大数据平台部。团队以以清华、北邮计算机博士为核心,所有成员均为计算机专业硕士以上学历,在分布式体系架构、机器学习和数据挖掘方面具有5-10年以上的丰富经验。HCR大数据平台部主要负责:

  • HCR大数据技术体系战略和研发。包括核心技术平台的设计与建设,HCR大数据资源的统一引入与数据管理。
  • 探索研究大数据下重要研究模型(如消费者画像研究)的建模与技术性实现,推进公司大数据深入分析与数据挖掘业务的产品发展。

 

4已完成工作和后续目标

 

大数据平台部成立几个月来,已初步完成了技术平台选型与一期系统设计搭建,并对公司现有大数据资源进行了清洗整合。一期平台当前可分析数据信息接近400亿/30TB,每天分析的行为数据约10亿(存储数据近4亿)。在研究分析上,完成了多项基于大数据的研究计算/分析与可视化展示(如移动互联网用户24小时行为模式、2015春运迁徙图分析等),更重要的是,在消费者画像研究方面,也已建立起一套先进的分析算法模型。

在后续的工作中,我们将对平台架构做功能优化,并根据业务扩容以满足未来更大规模的数据分析计算需要。同时,我们也将大力提升大数据技术工具的易用性(如针对研究员的Spark Sql可视化操作界面)。在研究与挖掘方面,将持续专注于消费者画像研究和行业性数据挖掘服务,逐步树立起HCR在相关领域的竞争优势。

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部