×
支持199IT发展可加入知识交流群(8K+用户),最有价值数据分享和讨论!
点击即可加入!
关闭

准确度VS速度——数据科学家能从搜索中学到什么?

作为数据科学家,我们有一个首要任务:提供准确的见解。如果你和我一样,一个同时从事搜索(或与此相关的任何实时应用程序)的数据科学家,你必须管理两个有时会相互冲突的优先事项:准确性和速度。
作为一名数据科学家,我将带您了解一些我在搜索中通过反复尝试学到的东西,包括如何消除一些可能会在您构建一个需要与其他领域学科交叉协作的工具时出现的摩擦的技巧。
学习如何思考搜索
对于数据科学家,这里有很多关于搜索的特定术语和概念。例如,发现倒排索引的强大功能——我以前从未使用过这个概念——对于构建搜索平台至关重要。(仅供参考:倒排索引是“一种搜索文档、图像、媒体和任何文件源结构的数据的简单方法”。)
我必须学习的另一个领域是如何在流水线中组织自然语言处理(拼写错误、实体提取或查询重写的同义词检测)和其他机器学习技术(分类器、聚类、推荐器)。
在花时间了解了搜索平台的机制之后,我已经快要实现目的了。但后来我不得不想办法衡量结果。搜索开发人员和企业用来确定其搜索平台效率的指标和KPI对我来说是新事物。
例如,数据科学家首要关注以错误率、错误类型、错误分类等为目标的模型精度度量。然而,用于度量模型精度的指标有时很难可信地运用到搜索相关的聚合业务度量。搜索指标倾向于更以业务为导向,包括点击率、添加到购物车和购买(用于电子商务)、评论、共享和文档和结果评级(用于数字工作区)。

如果一开始这让人感到很艰巨(就像第一次踏入新领域),请要就您组织中的搜索开发人员在每个项目开始时带您了解术语、度量标准和部署注意事项。这种知识转移应该是双向的,以防搜索开发人员需要对数据科学过程和方法有个整体认知。不幸的是,在大多数组织中,定期促进这种跨职能的知识转移是很少见的,而且当你把时间花在一个项目上,然后中途发现你是基于错误的假设上时,这会造成一个主要的痛点。
 
调整构建模型的方法
如果您完成了上面的练习,现在您将了解到搜索中的另一个主要干系人,即搜索开发人员,他们关注的是整个搜索管道是如何工作的。现在,您必须从精确性的角度考虑模型的运行方式,转而考虑如何将它们作为一个组件安装到一个更大的系统中。
采取一种“缩小方法”,扪心自问:“我清楚了解最终目标了吗?我的模型得有多快?它们可扩展吗?这些问题的答案可以作为指导方针,以在整个流程中构建更有效、更轻量级、更具响应性的模型,进而帮助推动业务成果。
对于数字商务公司来说,更好的业务成果意味着增加收入,而在数字工作区中,这意味着提高生产力。正如我之前所说,我们专注于提供准确的见解,但如果不知道模型如何融入整个系统,就很难知道您的结果是最相关的还是以最优的方式提供的。
保持项目的势头
提供令人愉快的搜索体验需要跨职能学科共同协作和创新,如搜索开发、数据科学、运营和业务领域。但是,大多数组织在跨团队协作方面遇到了多重障碍,包括流程、层次结构、个性和总体文化方面的障碍。在速度、准确度和集成度的优先顺序之间进行折衷可能会在数据科学家和搜索开发人员之间的反复交流过程中产生摩擦。
理论上,最好的过程能够实现迭代类型,并在数据科学家交付搜索开发人员可以集成的工件(模型)的过程中来回传递,在查询体验中快速测试,如果需要,将重新再循环它们以进行优化。大多数搜索项目由于缺乏集成和协作而失败。这不是因为团队没有必要的知识,而是因为在目标、期望和过程上缺乏一致性。
沟通是关键。有人让你坐下来并向你介绍他们做事情的过程,是非常有帮助的。在产生任何东西之前,理解其他搜索参与者的“生命中的一天”是非常重要的,包括使用什么数据源和数据格式、应用转换、跟踪度量和架构考虑。
在Lucidworks建立搜索平台时,我们会记住这些摩擦点。我们经历了数据科学家和搜索开发人员之间的坎坷,我们致力于平滑切换和与业务结果度量相连接,我们致力于使我们的客户能够部署最相关和性能最佳的搜索体验。搜索并不容易,但如果设计正确,它会对客户体验产生重大影响!
 
数据科学家在搜索领域中的未来
在搜索领域,我们每天都在发现用深度学习可以改变搜索体验的新方法。作为数据科学家,我们正朝着一个非常接近和可以实现的未来努力,那时人们将以对话的方式与应用程序交互。这已经发生在我们作为消费者的体验中,但它也正开始全面应用到我们交互的所有数字应用程序中了。
工作场所应用程序的示例可以是ERP系统、CRM、商业智能应用程序或从其他系统集中检索信息。我们已经看到了在处理提取口头或自由形式的文本,并用机器可以理解的方式翻译它们,以便用一个用户可以理解和操作的形式来产生查询并推出相关结果和建议的挑战上的巨大成功。
搜索领域的新前沿是理解用户的明示和暗示意图,它需要超越仅仅理解文本。它包括使用搜索和用户的浏览历史记录、用户的属性和他/她使用的搜索结果,以及其他可以预测当前搜索体验结果的其他用户的使用记录等来学习上下文。
例如,当销售专业人员键入:“为我的西北地区提供我的管道”时,理解其意图可能意味着,如果需要外展,结果还包括联系信息,如果他/她正在准备报告,则总结过去的沟通,或者对你的西南地区进行并排比较,以便进行基准测试。
作为数据科学家的成功秘诀(任何领域)
我为数据科学家教授职业准备研讨课,我总是解释说,我们是洞察力的提供者,而不是决策者。我们应该开发模型,让人们能够快速理解见解,然后应用它们做出明智的决策。最好的数据科学家可以开发模型,在正确的时间向正确的人提供“正确”的见解。为了增加你与数据科学家的相关性,我们鼓励你扩展你的视角。大多数“独角兽”发现自己处于这三个领域的交叉点:算法知识、系统/架构知识和业务/通信技能。
搜索是一种教科书式的表示,它描述了这些东西是如何组合在一起的,以便使系统发出声音。如果你是一个算法专家,但不知道它是如何扩展的,或者不知道如何通过相关的搜索体验将你的算法与驱动转换的目标联系起来,你将无法为公司带来如此多的价值。
现在绝对是成为一个搜索领域数据科学家的绝佳时机。虽然搜索技术的发展已经无处不在,但我相信我们几乎没有触到地面。我期待看到人工智能驱动的搜索用例如何继续为数据科学家创造新的、令人兴奋的和有影响的机会。
简历:Radu Miclaus是一名分析专业人士,拥有10多年的企业分析基础架构设计经验,专注于将原始数据转化为可操作的洞察力并与决策系统集成。作为Lucidworks的AI-Radu产品总监,他专注于构建技术来改进搜索开发人员和数据科学家之间的协作。
原文标题:
Accuracy vs Speed – what Data Scientists can learn from Search
原文链接:
https://www.kdnuggets.com/2020/01/accuracy-speed-search.html
来自: 数据派THU

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部