数据沙盒协助分析师深挖企业信息

说到eBay的拍卖和购物网站你脑海里会想到什么?1亿用户、3亿活跃商品、5万种产品分类、平均每秒2100美元的交易额,那就对了。当然,你也可以把eBay看作是一家数据管理与业务分析企业:每天50TB的数据量、7500用户与分析师的分析团队支持。

数据沙盒(data sandbox)听上去很小,但它却是eBay保证数据分析流程顺利进行的关键组成部分。

在今年四月洛杉矶召开的Gartner商务智能峰会(Gartner Business Intelligence Summit)上,eBay的分析应用技术高级主管Chris Rogaski在演讲中说到:“如果人人都想要不同的数据视图、报表或者仪表盘,我们将无法应付。所以,我们需要提前做好准备,只有这样,我们的业务分析师和产品经理们才能根据数据做出决策。”

eBay采取了很多措施,使用户需求得以及时满足。公司的数据分析平台结合使用了Teradata的企业数据仓库(enterprise data warehouse,简称EDW)、被eBay称为“Singularity”的Teradata独立深层存储数据库以及Hadoop系统。EDW用来存储结构化交易数据;Singularity用来存储半结构化数据(如网站用户行为分析);Hadoop则用来处理非结构化数据,其中包括原始用户行为数据、其他形式的机器生成信息和文本数据等。Rogaski称,三部分合起来大概占据了90PB的存储空间。

另外,eBay将虚拟数据集市在EDW中自由分散,供任何想要开发、操控、添加特定数据集的员工进行使用。数据集市是公司的分析作为服务(Analytics as a Service)中的一部分,或者是A3S及其他用户分析数据程序的一部分。业务用户和数据分析师使用由eBay的IT部门开发的工具,可拥有(通常也会使用)100GB的空间,这就是在商务智能领域所谓的数据沙盒。

数据沙盒也被称为分析沙盒,这些由用户控制的空间被相互隔开,将数据实验和数据仓库的生产数据库环境区别开来。eBay的用户有权限获取EDW中的数据,还可以将所需信息复制到数据集市中进行分析。在eBay开发工具的帮助下,他们可以上载附加数据进行分析。Rogaski说:“如果存在一个我们不知道的新的数据源,我们没办法将其隔开,对它不进行数据分析。”

企业部门之间的对峙阻碍数据分析

企业中IT部门和业务部门的长期对峙屡见不鲜,其中一部分原因可归咎于优先级别不同。当业务用户有业务问题急需解决的时候,IT团队可能正在进行数据治理或是维护数据质量标准。对于想要深度分析现有数据的分析师来说,工作的中断会带来很强的挫败感。

TechTarget的BI咨询师兼研究主管Wayne Eckerson说:“分析师常常需要的是还未放入数据仓库的数据,因为这些数据还未经处理和载入。”

有些时候,数据分析师会认为由自己公司部署的BI和分析工具比Excel更加灵活,能够秘密建立起IT范围之外的Excel工具。然而,将Excel推行到企业上下进行数据分析之用并不是理想的方式。Eckerson补充:“每个人都知道分析师可以得出有价值的信息,但是没有企业是靠电子表格发展壮大起来的。”

Eckerson称,这时候数据沙盒就起作用了。它可以保证分析用户获得所需数据、加强对信息的控制,使企业的数据阴影系统(data shadow systems)逐渐明朗化。

对于BI和IT经理来讲,一个精心管理的数据沙盒为用户提供了一个安全之地,在公司管理架构内对企业数据进行实验。美国Data Miners咨询公司的创始人Gordon Linoff说:“这样一个环境存储的不是数据的复制,而是适合分析形式的信息。”Linoff还是《数据挖掘技术:市场营销、销售与客户关系管理领域应用》一书的作者之一。

数据沙盒可在数据仓库、分析数据库及其外部作为独立的数据集市构建。在eBay的案例中,Rogaski说,在EDW中采用沙盒作为虚拟数据集市降低了数据活动,减少了用户对数据进行复制并存储在其他系统的需求。

期限设定对分析大有帮助

他承认,在用户占据了沙盒,还是会出现少量的数据复制。“但这很正常,算是我们发展业务付出的一点代价吧。”为了减少复制,eBay在数据系统中使用了期限设定的方法,由分析师设定好数据集使用的一个结束日期。截止日期快到的时候,Rogaski的团队会与分析师协商,要不要把数据从系统中删除;这一过程被eBay称为碎片帐集(garbage collection)。

由于沙盒本身的作用就是处理数据,Linoff相信拥有正确的技能对成功部署非常重要。数据科学家和其他用户需要操控数据并分析数据当下的活动。他说:“这等于是在学习全新的事物,所以你需要可进行充分利用的技能组合。”

这条规则对许多企业来讲都十分有用,但并不适用于所用企业。Rogaski说,eBay的目标之一是让很大一群人都能获得它的BI和分析数据。即便是一个毫不了解情况的业务用户也能够使用虚拟数据集市。

对于想要建立数据沙盒的企业,Eckerson认为其中一个很大的挑战是管理。他举例说到,在用户将包含独有数据视图的报表分发出去之前,企业BI团队应该核实一下操控的信息,确保指标都正确无误。

Eckerson说:“你可以让用户获取数据,但你还需要给他们一些指导。没有人喜欢受限,但他们用的是公司资源,就不得不在某些方面遵守规则。”

via:TechTarget

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部