分析:叙事科技,电脑埋葬记者

叙事科技(Narrative Science)是一家训练电脑写新闻的公司,如果让它来“写”这篇文章,很可能既不会提到它栖身立命的芝加哥《论坛报》总部,也不会提及以培养新闻人员为宗旨的西北大学传播学院。毕竟电脑不是人,它不懂人类的反讽。

叙事科技拥有30名员工,位于芝加哥鲁普商业区边缘的一个大房间内。每隔30秒,“电脑写手”就会挤出以一个哲学问题署名的故事。这样的新闻作品可以是“十大联盟”篮球赛下半场的即时播报,或者是企业的收入报告预览,又或是对Twitter上赛马比赛的风趣总结。这样的文章同时出现在福布斯新闻网和其它网络媒体。它的用户多为体育迷、投资散户或快餐连锁经销商,它聘请叙事科技为他们更新即时信息,并且这信息还看不出是机器人写的。比如:

尽管坐拥七个安打与八分,Friona仍在第五局主场以10-8不敌Boy Rach。在对阵与Boy Rach战成2-2平局的Hunter Sundre时,Hunter Sundre轻松领先。Sundre在第三局打出单打而第四局三击……Friona不断抢断,总共横扫八垒。

好吧,这并不能媲美专业球评人。但是少年棒球队成员的家人会发现,这篇甚至在两队赛后还没握完手就出现在互联网上的报道与网站上其他新闻一样受欢迎。在写这篇新闻时,叙事科技使用了精确到每一投的比赛数据,家长们登陆一款名为Game Changer的苹果应用即可看到该新闻。去年这个软件生产了将近40万条关于少年棒球队的新闻,今年该数字预计可达到150万。

克里斯蒂安·哈蒙德(Kristian Hammond)是叙事科技的CTO兼合伙创始人,他所工作的小办公室与程序员和工程师近在咫尺。

这些新闻不过只是第一步,对于哈蒙德来说,整个新闻界最终都将由“电脑写手”一统江湖。

去年在一个“记者与技术”小型会议上,有人请哈蒙德预测未来15年“电脑写手”新闻的比率,他回应道:多于90%。哈蒙德请记者们不用担心以后会被一台MacBook抢饭碗,他坚称这场“机器人新闻海啸”并不会“卷走”剩余的记者。相反,在许多目前记者仍未涉足的事件发展中,电脑蕴含的海量数据可以提供极其便宜并且绝对可读的新闻,这将大幅扩张新闻写作的疆界。

这并不是说“电脑写手”新闻会因受限于目前的业务而停滞不前。哈蒙德最近否认了关于未来二十年内电脑会赢得普利策奖这一说法。“二十年?”他说,“五年即可。”

哈蒙德在犹他州长大,父亲是州立大学的考古学家,他一度以为自己会成为律师。可八十年代末在耶鲁求学时,他为著名人工智能研究者兼计算机科学部主席罗杰·斯恰克(Roger Schank)所倾倒,转投技术领域。获得计算机工程博士学位后,哈蒙德受聘于芝加哥大学,领导一个全新的人工智能实验室。九十年代中期,他在芝加哥大学创建了一个可通过追踪用户读写而给他们推荐相关文件的系统,并以此办了个小公司。不久他卖掉了公司,来到西北大学成为了该大学智能信息实验室的共同领导者。2009年,哈蒙德与他的同事拉里·比尔巴莫(Larry Birnbaum)所教的班上同时有程序员与记者。他们鼓励学生创建一个可以把数据转换成小故事的系统。其中一名学生是《论坛报》负责报道高中体育的特约记者,他和另两位新闻学生与一位计算机专业的学生一道开发了该程序的原型Stats Monkeys。这个程序搜集比分与每场数据,从而得出高校棒球比赛的可靠信息。

学期结束时,学生们ESPN、Hearst和《论坛报》的高管展示他们的项目。其中Stats Monkey特别引人注目。Medill传媒学院院长约翰·拉维尼(John Lavine)回忆道:“他们将得分与每场数据放入程序,大概12秒后,它画出了大联盟40年简史,给出了一个比赛记录,定位了最佳图片,还写了一个标题。”

斯图尔特·弗兰克(Stuart Frankel)是DoubleClick前高管,他也是当时参观该项目的客人。“当这些学生展示时,屋里的气氛为之一变,”他说,“但这仍十分有限,这仍是一个仅仅写棒球比赛新闻的程序。”它可以用任何数据来创造任何新闻吗?它可以创造出好到让人们付钱阅读的新闻吗?弗兰克向哈蒙德与比尔巴莫追问道,答案乐观得足以让他相信,这实在是一个让人兴奋的巨大商机。三个创始人于2010年创立公司,弗兰克出任CEO。

公司的第一位客户是十大体育联盟电视网(Big Ten college sports conference)。公司程序将为数以千计的联盟体育比赛撰写同步新闻,每十五分钟更新橄榄球比赛进度。叙事科技同时负责女子垒球比赛,这使它成为该运动全国最多产的记录者。

但是该合同开始没多久,一个小问题发生了:新闻只关注胜利者。当联盟的球队被其他对手横扫时,“全军覆没”的结果会成为奇耻大辱。联盟希望叙事科技让“十大联盟”的队伍即使输掉比赛也能被赞扬。一个人类记者闻此或许会气得脸色发白,但是叙事科技的工程师们认为这只不过是修改几个软件参数的问题。与之类似,当公司开始报道少年棒球联盟比赛时,它很快明白家长们并不希望看到孩子犯错的信息。所以这些新闻故意忽视丢球,只关注成功一刻。

叙事科技公司的写作引擎需要几个步骤。首先,必须积累大量高质量的数据。这是财经和体育成为新闻主题的原因:这两个行业都涉及数据的波动——每股收益、股价变化、投手责任得分率(ERA)和棒球打分(RBI)。统计极客总是能创立新数据,丰富新闻报道。比如说,棒球球迷创建了模型,在比赛进行过程中计算球队在各种情况下的胜算几率。在此过程中,如果击球得分改变了胜算几率,比如说从40%上升到60%,这种算法就能进行编程,强调这个关键得分点是比赛中最有戏剧化的时刻。然后,这种算法必须让数据符合人们对新闻主题的广泛理解。(比如说,他们必须知道,击跑次数最多的球队将成为棒球比赛的冠军)。所以,叙事科技公司的工程师为每个新闻主题设计了一套规则,无论是公司收益还是体育赛事。但是,如何才能把分析数据变成文章呢?这家公司招聘了写手团队,这些训练有素的记者负责建立写作模板。他们与工程师合作,让电脑从各种不同的角度来识别数据。哪支球队赢得了比赛?究竟是逆转胜出还是轻松取胜?比赛过程中是否有球员表现绝佳?这种算法还考虑到新闻背景和其他数据库的信息:这支球队是否结束了连败的战绩?

然后是文章结构。大多数新闻报道,尤其是体育或财经等新闻主题,通常会有可以预见的固定模式,所以对于写手来说,创建文章模板相对比较容易。为了遣词造句,这种算法会使用写手提供的词汇表(比如说棒球比赛,写手主要依赖20世纪初期知名体育专栏作家林·拉德纳的词汇。他总是说猛击本垒打、跑过垒包、踏上本垒)。这家公司把完成后的作品成为“叙事文”。

这种算法偶尔会出现失误,比如每场棒球比赛的替补投手只能击球一次,但是报道中称他在六场比赛中击球两次。不过这种错误非常罕见。人们不会对数据断章取义。哈蒙德说,即使数据库提供了错误的信息,叙事科技公司的算法也会纠正错误。他解释说,“如果一家公司的季度利润环比增长了600%,那么算法就会提醒,某个环节出了错。人们可能会问,是否出过荒唐可笑的错误,我们从来没有过。”

计算机编写的报道都符合这家公司的核心精神,他对此印象深刻,但是并不感到惊讶。尽管记者撰写的稿件会出现重大的错误,但是刘易斯·德沃尔金说,他从来没有听到人们对自动新闻报道的投诉。他说,“一次投诉都没有”。(福布斯新闻网的文章包括叙事科技公司通过专有的人工智能平台,把数据转化成新闻报道和深度观察)。

叙事科技公司的团队还为客户量身打造文章的基调。金融分析公司Data Explorer的首席财务官乔纳森·莫里斯(Jonathan Morris)表示,“你可以得到任何风格的文章,无论是气喘吁吁的金融记者在交易大厅的现场报道,还是冷静古板的卖方研究员引领你纵览金融市场。”Data Explorer使用叙事科技公司的技术设立了证券新闻专线(莫里斯为文章确立了一位受过良好教育、态度直率的财经记者的基调)其他客户青睐博客的活泼文风。 叙事科技公司产品副总裁拉里·亚当斯(Larry Adams)说,“撰写语气玩世不恭的文章,并不比撰写简单直率的美联社报道更困难。我们可以用迈克·罗伊克(Mike Royko)的文风来报道股市动态。”

在叙事科技公司掌握了体育报道和财经新闻的诀窍后,这家公司意识到,可以把这种方法扩展到新闻界以外的领域。事实上,只要你需要翻译和解释大量的数据,都可以从这种服务中收益。人们的要求接踵而至,他们深受电子表格和图表困扰。结果证明,他们愿意付钱,把这些杂乱无章的信息转化成切中要害的重点段落。

事有凑巧,叙事科技公司具有适应这种需求的优越条件。当时这家公司刚刚起步,每次攻克一个新的主题,写手都必须费尽心力地培训这套系统。但是没过多久他们开发了一个平台,让这套算法更加容易地了解新业务领域。比如说,有位写手决定创建一台写作机器,撰写文章来介绍某座城市的最佳餐厅。使用餐厅评论的数据库,她能够迅速教软件如何识别相关内容(调查档次高、良好的服务、美味的食物、满意顾客的评论),同时提供部分相关用语。在几个小时的时间内,她就能让机器人源源不断地提供文笔活泼风趣的文章,比如“亚特兰大最佳意大利餐厅”或者“密尔沃基的美味寿司”。

在自动编写新闻方面,叙事科技公司的主要竞争对手是Stat Sheet公司,这家位于北卡罗来纳州的公司用类似的方法扩大业务。Stat Sheet公司无法与叙事科技公司诞生的梅迪尔新闻学院竞争,因此把该公司定位于活跃的通俗小报。这家公司也在体育新闻领域起家,撰写棒球大联盟和大型联赛的报道,同时创建了闲话生成器,称为StatSmack。在意识到把数据转化成报道的机遇远远大于体育新闻后,这家公司把名称改为Automated Insights,公司创始人罗比·艾伦说,“我曾经认为,我们的业务范围受到限制限制,我们的报道只针对某些数据丰富的行业,现在我认为,这个行业最终存在无限机遇。”

现在文章主题变得越来越多样化,叙事科技公司曾经受雇于一家快餐公司,为该公司的特许经营商撰写月度报告,分析销售数字,比较本地竞争对手,提出特定菜单进行促销。此外,由于把数据转化成文章的成本较低,这家公司甚至可以为单一读者撰写文章。叙事科技公司正致力于编写《魔兽世界》的401K财报和会议概要,玩家可以在阅读机器人撰写的报告后对此有所了解。DoubleClick公司前首席执行官大卫·罗森布拉特(David Rosenblatt)现在是叙事科技的董事,他表示,“互联网产生了更多前所未有的数据。这家公司能够把数据转化成文章。这是叙事科技存在的理由。新闻报道是这家公司的卖点——主要业务可能是管理报告。”

然而,新闻现在依然是这家公司的核心业务。像初出茅庐的新闻记者一样,叙事科技公司有着光荣的梦想——挖掘和发布重大新闻。为了做到这一点,这家公司将投资先进的机器学习和数据处理技术。叙事科技公司将更深入地理解自然语言,获得电子表格无法披露的信息和内容,并且已经取得了一些进展。哈蒙德表示,“在财经领域,我们读了头条新闻后,能够辨别某家公司股票评级是上升还是下调,高管是遭到解雇还是受到聘请,某家公司正在考虑并购计划,我们知道这些事件和股价的关系。”哈蒙德希望,这家公司撰写的大学体育新闻中,能够包括球员受伤或法律诉讼这样的非数字信息。

然而,即使叙事科技公司永远无法达到普利策新闻奖的水平,学不会琼·迪迪昂(Joan Didion)冰冷犀利的文风,这家公司依然会利用这个事实,我们的生活和社会正在越来越多地转化成数据。比如说,在过去几年里,美国大联盟棒球赛已经耗资数百万美元,安装高清晰摄像机和高强度传感器的精密系统,分析棒球赛场上的每个举动:投手的投掷速度和轨迹,外野手在特定时刻站立的位置,游击手跑动接球的距离。有时候,这场比赛的真实报道可能就在于这些数据。也许球队经理没有意识到,在对手制胜一击前,投手的动作已经显示出筋疲力尽的迹象。也许游击手原本可以阻止六支安打。这些细节即使是经验丰富的棒球记者也不会注意。但是算法不会忽视。

哈蒙德认为,随着叙事科技公司的发展,这家公司的新闻报道将上升到更高端的食物链——从普通新闻到分析评论,再到细节详尽的长篇报道。也许在某一天,人类和电脑将携手合作,发挥各自的优势。电脑的优势在于完美的记忆和获取数据的能力,可以作为人类作家的现场采访记者。反过来说,人类记者可以采访新闻对象,捕捉零碎的细节——然后把这些内容发到电脑上,完成新闻的写作。随着电脑获得更多的成就,能够处理越来越多的数据,电脑撰写文章的限制将逐渐消失。这可能需要一段时间,但是最终电脑将撰写这样的文章,根本不需要我本人来动手。哈蒙德说,“人类拥有不可思议的丰富思维和复杂头脑,但是电脑只是机器。在未来20年内,将不存在叙事科技无法报道的新闻领域。”

然而,哈蒙德打算让记者放心,他并不想在对方失意的时候解雇他们。哈蒙德讲了个故事,他带着妻子去参加宴会,她是芝加哥著名的第二城喜剧俱乐部的营销总监。哈蒙德与一位声名显赫的戏剧评论家聊了起来,对方问到他的生意,哈蒙德解释了他的业务后,这位评论家变得非常激动。他说道,新闻记者的日子已经够艰难了,你还要用机器人去代替他们?

哈蒙德回忆说,“我当时盯着他质问道,你在棒球小联盟比赛中见过记者的身影吗?这一点对我们至关重要。没有人因为我们的工作丢掉饭碗。”

至少目前还没有。

via: 言多必得 译言网

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部