×
支持199IT发展可加入知识交流群(4000+用户),最有价值数据分享和讨论!
点击即可加入!
关闭

Netflix如何用数据解构好莱坞?

注:Netflix是一家美国公司,在美国、加拿大提供互联网随选流媒体播放,定制DVD、蓝光光碟在线出租业务。

如果你使用Netflix,你可能好奇它向你推荐的具体电影流派。其中一些具体得近乎荒谬。感人的抗争运动纪录片?20世纪80年代的外国魔鬼故事?如此精确的细小分割,在面对4000万用户时,Netflix的“个性化流派”库得需要有多浩瀚才能描述完整个好莱坞世界?

我们发现Netflix拥有76,897种独特的流派来描述电影类型!

Netflix对每部电影和电视节目都进行了细致的分析和标记。它们有着关于好莱坞娱乐绝对前所未有的数据库。我们抓取到的和上文描述的,只是这个数据库的冰山一角。

Netflix与我们合作,一起探索他们内部称为“altgenres”的产品;并和构思这一系统的产品创新副总裁Todd Yellin进行了深度访谈。 乔治亚理工大学教授和The Atlantic撰稿编辑Ian Bogost与我合作,编写了神奇的流派生成器。

01 反向好莱坞

Netflix付钱让经过专门训练的团队观看电影,让他们对各种元数据进行标记,以此解构好莱坞。这个过程复杂而精确,标记人会收到一份36页的培训文件,教他们如何评价电影中的性暗示,血淋淋的场景,浪漫程度,甚至叙事元素。

他们抓取了几十种不同的电影属性,甚至评价角色的道德水平。这些标签与数百万用户的观看习惯相结合后,就成了Netflix的竞争优势。 公司的主要目标是获得和保留订阅用户。 而流派正是这一战略的关键。 Netflix在2012年的一篇博文中透露, “用户与这些[流派]的关系非常好,我们将最适合的流派放到页面上更高的位置后,会员保留率增加了。Netflix越了解你喜欢什么,你就更喜欢用Netflix。”

现在,他们在自制内容方面有极大的优势:Netflix创建了一个美国电影偏好数据库。数据不能告诉他们如何制作出电视节目,但可以告诉他们应该做什么样的电视节目。当他们创造出《纸牌屋》时,他们并不是在瞎猜。

02 获取数据

我一开始在Twitter上,请求我的粉丝将他们Netflix上显示的流派提交到共享文档 。我们最后大约150种类型,这看起来很多,但作家和工程师Sarah Pavis指出,Netflix的类型网址是顺序编号的:简单改变网址结尾处的数字就可以得到越来越多的流派。也就是说, http://movies.netflix.com/WiAltGenre?agid= 1链接到“非洲裔美国犯罪纪录片”,然后http://movies.netflix.com/WiAltGenre?agid= 2链接到“Scary 20世纪80年代的戏剧电影” 等等

用UBot Studio来获取数据,它让你轻松地为网络上自动化的东西编写脚本。经过Bogost的一些故障排除和帮助,软件运行了一天,基本上代替了人工复制、粘贴URL的工作。

这是随机选择的一个原始的流派数据:

  • Emotional Independent Sports Movies
  • Spy Action & Adventure from the 1930s
  • Cult Evil Kid Horror Movies
  • Cult Sports Movies
  • Sentimental set in Europe Dramas from the 1970s

并不是每个流派都有对应的流媒体电影。这些数据穷尽了所有可能的电影流派,而非实际上展示给观众的部分:Netflix有一套定义的词汇,相同的形容词一遍又一遍地出现。Netflix语法——如何拼合词汇以形成可理解的流派描述 ——开始清晰起来。每个描述符类别都有一个层次结构。 一般来说,一个流派将由这些子集形成:

  • Region + Adjectives + Noun Genre + Based On… + Set In… + From the… + About… + For Age X to Y 地区+形容词+名词类型+基于… +设置… +从… +关于… +年龄段从X到Y

还有几个通配符,比如大家都喜欢的“女强人领导”(With a Strong Female Lead)和“为了绝望的浪漫”(For Hopeless Romantics)。

03 解码Netflix语法

机子最终返回了所有76,897种流派描述,都由这些基本子集组成。但是为了建起发生器,我们对语法的理解需要更加精确。通过AntConc软件,这是一个由日本教授维护的免费程序,通常被语言学家,数字人文学者和图书馆员用于处理语料库。 如果你曾经使用过Google的Ngram工具,那么你已经见识过AntConc的至少一个功能。

AntConc能做的,基本上是把一堆文本转换成可被操作的数据。比如,计算构成Netflix数据库的每个单词出现的次数。

我们收集了关于Netflix词汇中的所有数据,创建了一个大型电子表格。 另外,我计算了顶级演员,导演和创作者,并将它们保存在一个单独的文件中。

Ian开始创建了几种不同的语法。第一种最简单的方法,就是让许多形容词随意混合成不同的描述,这是生成器中的GONZO设置。它输出的描述在我看来,是你希望它存在但实际上并不存在的电影类型描述。接着,我们限定到了只有部分形容词。此刻,我们仿佛发现了好莱坞工作室现存的电影制作逻辑——基本上就是几个相同主题的不断的重组。

  • Classic Action Movies
  • Family-Friendly Westerns
  • Buddy Period Pieces

这就是好莱坞!

最后,我们用不同的语法结构不断尝试,直到我们开始看到Netflix的招牌的精确度。

  • Raunchy Absurd Slashers 下流荒诞的变态杀人电影
  • Fight-the-System Political Love Triangle Mysteries 与系统抗争政治三角恋
  • Chilling Action Movies About Royalty 关于皇室的惊悚动作电影

我突然意识到有人已经走过了这条路,作出过这些决定——多少个形容词?要多长?或者更基础的,什么才是形容词? 为什么大脑而不是脑?为什么要区分血腥和暴力?作为一个作家,我不断地问自己:为什么这些形容词是恰到好处的 ?这些词本身是经过精心挑选的。 通过谁?

从洛杉矶时报的文章,我们知道了“标记”(tagging)的基础。但它与Netflix的“个性化”有什么关系?什么算法将这大量的标签转换成精确的76,897种流派?

大多数人试图去理解Netflix,但都像是盲人摸象。我需要有人来解释后端。

我们联系上了Yellin,负责创建了Netflix系统的人。 对所有的电影添加标签是他的主意。他撰写了的一个24页的关于“如何标记”文档; 他标记了早期电影,并指导整个系统的创建。

“我的第一个目标是:将内容撕碎! 他说。

2006年,Yellin与一对工程师夫妇在一起,花了几个月开发一个名为“Netflix量子理论”的文件,它阐述了标记电影结局的方式,比如主角的“社会接受性”,及其他几十个方面。 许多值都从1-5的评分,比如每部电影都得到一个浪漫评级,而不仅仅是一个标签“浪漫”。每个情节、主角的工作、故事地点,一切的一切,都被标记。 Netflix的工程师采用了这些微标签,并创建了语法规则,其中很多是正我们在生成器中复制出来的。

关键的一步是:这是标记人的人类智慧与算法的机器智能的结合。我可以想到的唯一与之有些许相似的项目,是Pandora曾被称赞的音乐基因组计划(Music Genome Project)。但Netflix让人惊艳的地方在于,对电影描述。 Netflix不止可以显示你可能喜欢的东西,它还可以告诉你什么样的东西。某种程度上,它是一个内省的工具。

流派描述受三个主要因素的限制:1)因为UI原因只能显示50个字符,这限制了大多数的长流派; 2)至少在Netflix扩展DVD目录内,必须有一个达到“临界数量”的内容符合某个类型的描述; 和3)流派描述必须有句法意义。

我们忽略所有这些限制,这就是为什么我们的生成器结果显得那么滑稽的。 在Netflix的现实世界中,没有超过五个描述符的流派,最多只有四个,但也相当罕见。

这些底层的标签数据不仅用于创建类型,而且还增加了用户推荐中的个性化级别。 所以,如果Netflix知道你喜欢有着高浪漫评级的动作冒险电影,它会在不明说““浪漫的动作冒险电影”之下,给你显示这种电影。“我们标记一部电影中有多高程度的浪漫,但不会告诉你结果;但我们最终会推荐它,”Yellin说。 在我看来,Netflix建立的系统在科技世界里只有一个可相提并论:Facebook的NewsFeed。 但根据算法,它并非提供它认为你会喜欢的网页内容,而是电影娱乐。

Yellin说,“这是一个关于机器学习,算法,算法语法的真正组合。还有一群为之着迷的的极客。”

来自:镝次元数据传媒实验室

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部