社交网络数据挖掘的前沿技术

本讲座选自清华大学数据科学研究院院长俞士纶于2015年12月23日在清华RONGv2.0系列论坛之“社会关系网络与大数据技术”专场上所做的题为《社交网络数据挖掘的前沿技术》的演讲。

3417eb9bbd5918375ffd4b
3417eb9bbd591837600717
  首先感谢各位嘉宾参加清华RONGv2.0系列“社会关系网络与大数据技术”的研讨会。刚刚邓教授已经给我们讲了一下这个问题的重要性,接下来我就跟大家分享一下我在这一方面的研究。

3417eb9bbd591837600f45
  我们都知道大数据有4个“V”,数据的规模大、产生的速度快,但是更重要的是大数据是五花八门的,犹如万花筒,各种各样类型的数据都有。针对各种类型的数据,我们如果要做好,就必须要把不同类型的数据融合在一起。这就是我们这个系列的主题——RONG,把不同的数据融合在一起才能做得更精确、内涵更丰富。另外,因为数据是五花八门的,所以这里也有一个问题,即不是所有的数据都可以直接融合在一起,处理得不好的话反而会把好的数据也弄糟了。把不同类型的数据有效融合起来后,接下来我们要能够从中提取出价值来。

3417eb9bbd59183760190d
  我们当然知道社交网络是一个典型,社交网络很大,比如说美国的Facebook有数十亿个网络节点,中国的网络节点数量也极多。大家不断地在社交网络里发表意见,把照片或者视频分享上去,这样就产生了各种各样的数据,而且有各种不同形态的信息,如文本、图像、链接、社区等。我们知道社交网络上的信息是非常多的,凑在一起是规模巨大而价值稀疏的,怎么从中获取价值是一个待解决的问题。

3417eb9bbd591837602237
  我今天主要讲两个问题:一,不同类型的数据如何融合在一起。二,怎么处理垃圾数据。

3417eb9bbd591837602a5f
3417eb9bbd591837603421
  虽然我们讲社交网络,但是社交网络并不是只有一个,在美国就有很多不同的社交网络。一般大家最熟悉的是Facebook,但是Facebook并不是唯一的社交网络,比如说Twitter用得也很多,但是Twitter只是发一些短信息。另外有Foursquare,这个主要是面向电子商务的社交网站,其服务模式就是如果你的朋友看了相应的店面以后都到这个店里来的话,那么他们的账户会显示他们来过这里,逐渐地形成一个反映朋友偏好和趣味的网络。像LinkedIn,基本上所有的人会把自己工作的内容放到这上面去。如果你要去雇一个人,你就可以到LinkedIn,看看哪一个人适合你的需要。另外一个是YouTube,你可以将自己拍的视频短片放上去。综上所述,有各种各样的社交网络,因为这些社交网络的特性和兴趣点不同,所以通常一个人会参加不同的社交网络。

3417eb9bbd591837603e45
  我们可以说每一个社交网络个体在不同的社交网络上的特点是不一样的。如果我们可以和多个社交网络融在一起的话,就可以得到更多的咨询。如果你有新的社交网络,也可以从已知的其他社交网络中拿到一些资料,得到更多信息。所以怎么样把这些社交网络融合在一起,是一个挑战。

3417eb9bbd591837604703
  我们要把社交网络融合在一起,要解决两个问题:

一,一个人参加不同的社交网络用的名字不见得是一样的,所以你很难知道在社交网络A和社交网络B中的两个账号对应着同一个人,这是一个挑战。

二,即使你知道在Facebook里面的A人和Twitter的B人对应的是一个人,怎么样在Twitter里帮助他更好地利用其Facebook里的信息,这是另外一个挑战。社交网络的目的是把人联在一起,所以通常在社交网络里我们喜欢做的事情就是推荐朋友,这和电子商务里的推荐商品的功能类似。

3417eb9bbd591837605123
  在一个社交网络上,最重要的是社交,也就是挖掘出谁和谁是朋友。任何一个社交网络总是要推荐更多的朋友给你。但是怎么去推荐?通常社交网络有各种各样的信息在里面,当然我们首先知道有一些人是朋友,他们会自行建立起联系。此外,我们也可以知道这些人所在的不同的位置。另外在社交网络里人们可以发表讯息,所以我们从这里面也可以知道他对什么有兴趣,而且是什么时间有兴趣的。所以,一般在一个社交网络里,我们是可以知道谁在什么地方对什么有兴趣,大概发生在什么时间。

3417eb9bbd591837605c41
  如果我们想把两个社交网络连在一起,比如说foursquare,有的时候foursquare可以推荐Twitter的账号,所以我们很容易就可以连在一起。所以说有一些人我们可以很容易地连在一起,因而就挨个用户去关联,但是我们不清楚大部分的用户不知道在另外一个社交网络里的对应是什么。所以一般来说我们拿到一个网络,通常只有一部分人的两边是对应的。

 
3417eb9bbd59183760655d
  所以通常我们的研究中,如果要做社交网络朋友的预测,我们可以这样来做。根据我们已经知道的Anchor Link,训练一下帮我们组织更多的AnchorLink。再帮我们对应到SocialLink里,然后再回来。

3417eb9bbd591837606f13
  为什么连到另外一个社交网络?比如说我们知道这些人,我们现在要预测A和B是不是朋友,你要看A的朋友和B的朋友之间有没有交集,如果A和B之间有很多共同的朋友,我们就觉得这两个人很可能会变成朋友,我们就可以做推荐。反之,如果没有交集,我们很难给出推测。如果这个网络不够密,便很可能找不到A和B之间的联系。但是,如果我们知道A在另外一个社交网络里的对应账户,我们就知道他在另外一个社交网络里的朋友,如果有这个信息,对我们推荐他们两个做朋友会很有帮助。再看一个例子,有两个社交网络,在第一个网络里C和A连接,在另外一个网络里B和A连接,所以B和C他们两个是朋友的朋友。

3417eb9bbd59183760782b
  如果我们把这些数据源有效地融合起来,我们的预测就会比单用一个数据源做得更精准。

3417eb9bbd591837608041
3417eb9bbd591837608b55
  下面一个问题是我们怎么处理社交网络里的垃圾信息,比如说到一个饭店吃饭,我们习惯于去看一看在大众点评上面对这个饭店的评价怎么样,如果大家都说这个饭店好我们就去吃。但是我们常常碰到的问题是这些评论里包含很多的垃圾信息,就是说事实上也不见得是真的好吃,只是有人要故意去放一些好的评价,把你骗过去。或者他不喜欢旁边这一家,就放一些对旁边那家不好的评价,所以有时候你看到的评价是制作的。也就是说,你如果想知道这饭店到底怎么样,就要把这些垃圾信息去掉,否则这些评价是不可信的。但是你刚刚看一个评价,你很难决定一个评价是不是一个垃圾信息,因为写的文情并茂,我到这里很好吃,怎么样的,跟事实不符,所以你光读这个文字还不够,不能说这个文字写得很好就不是一个垃圾信息;那个文字写得不好,也许是在手机上打的,还有错字,但是也并不表示它是垃圾信息。所以这是一个很困难的问题。

3417eb9bbd5918375bc528
3417eb9bbd5918375bd929
  值得庆幸的是,我们不是只有一个评价,而是有很多的评价。也不是只有一家饭店,而是有很多家饭店。我们可以用这大量的数据来帮助我们解决这个问题。大数据的大也有大的好处。一般来说一个评价者会评价很多不同的店,每一个店会收到很多评价。所以说我们要把他们之间的关系找出来,通常,如果一个评价者写的这些评价都是很可信的,我们说他是诚实的;另一方面,如果一个评价跟其他诚实的评价者所写的一致,我们就说这个评价是可信的。另外,如果大多数诚实的评价者都说一家店好,我们就说这家店是可靠的;反之亦然。最后,不诚实评价者的评论的我们是不看的。

3417eb9bbd5918375c002b

3417eb9bbd5918375c012c

3417eb9bbd5918375c272d
  总结一下,我们怎么说一个点评是诚实的?要看两件事情:一,如果他跟值得信任的人的意见是一致的,那就很诚实。如果他跟不诚实的人的意见不一致,那也可以得到一些信息。最后我们说打分行为,这是非常好的店,你去给一个不好的评价,对这个评价者诚实的影响很大。但是如果说有人喜欢,有人不喜欢,那也无所谓,影响不到你的诚信问题。

3417eb9bbd5918375c3a2e
  归根结底,我们评价一个商店究竟好不好,如果诚实的评价者都说是好的,那就是好的。诚实的人说它不好,这个也是可以的。我们只是看这之间的评价,就可以算这个商店是不是好的。比如说我们来看这些商店,如果我们比较Resellerating评分的话,基本上Resellerating评分越高,那么我们认为店铺的评价越好。有的时候像CCI这个商店,虽然BBB评分很高,但是Resellerating评分很低,我们认为这家店并不好,我们做了更深入的调查,发现这个商店是有问题的。

3417eb9bbd5918375c4c2f

3417eb9bbd5918375c4c30

  所以我们总结,大数据时代,大家都已经了解数据越来越重要,当然社交网络是一个有一大堆数据的地方,我们要从这里面试着把金子炼出来。在大数据时代,如果能够从这个大数据中,而不光是哪方面的数据,提炼出价值,这会给我们新的机会。这是一种颠覆性的技术,很多传统的产业如果不重视数据,他们可能就会被推倒,这也给了我们很多新的机会,我们可以成立新的公司。上一次有一个颠覆性的技术发生的时候就是网络,网络发生的时候就有很多新兴的企业跳出来,在中国有阿里巴巴,传统的产业,比如在美国很多的零售产业,就发生了很大的问题。第一个是书店,你在哪里买都是同样的书,同样的价钱在网上可以给你寄来,还不如在网上买。电子也是一样的。所以我们可以看出来,传统产业如果不注意,就会发生问题。最简单的就是出租车,传统的出租车行业就发生问题了,现在在手机上叫滴滴会更方便。对我们同学来说这是一个莫大的机会,如果你可以抓到大数据,也许就可以开一个新的公司。我们总理也说,这是一个大机会。

从数据里面找出金子也不是一个简单的事情,我们今天讲了很多,你们也看到了,这个东西还是要有技术的,不管是统计技术还是计算机技术等,有这些知识才能够创业。不管怎么样,大数据一定会对将来不同的产业,对我们每个人的生活发生莫大的影响。所以希望大家今天好好地参与这个座谈会,希望你们能够吸收一些好的知识,谢谢大家!

来源:数据观

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部