Facebook:让搜索工具理解人的语言

纽约时报近日撰文披露了 Facebook 的研究团队在搜索引擎自然语言处理方面的工作,由36kr编译如下供大家参考。此外,还可以结合大胆、可怕又迷人的Graph Search:Facebook发现引擎的内幕系列文章一并阅读。

原文内容如下:

人类行为就是 Facebook 的生意。

Facebook 的成功要靠对人的行为理解:如何展现自己,如何记忆、信任谁,现在是如何搜索信息。

在推出Graph Search之前 Facebook 就已经组建过一只跨专业的团队来研究用户的搜索内容和方式。团队成员包括两位语言学家、一位心理学博士以及统计学家,当然还有作为骨干的程序员。任务很明确,非常的雄心勃勃:教 Facebook 的系统如何更好地与人沟通,也即创建一种自然直观的语言。

团队的成员包括 39 岁的 Loren Cheng,他负责的是该项目的自然语言处理。两位语言学家分别是斯坦福大学语言学硕士毕业的 Kathryn Hymes 以及加州大学伯克利分校的语言学博士 Amy Campbell。

左:Facebook搜索产品经理Loren Cheng,中:Amy Campbell,右:Kathryn Hymes
团队工作伊始面临的状况是 Facebook 低效的搜索引擎仅能理解“机器语言(robospeak)”,听不懂人话。要教机器掌握问题的建构模块它才能清楚问题,这就像教小学生理解句子一样。所有代码都需要重新调整。

研究让用户操作不同版本的搜索引擎,团队成员则通过单向可见玻璃来观察他们的表现并把观察记录下来。

他们通过研究词典、报纸、国会会议记录等来掌握近乎无限的大家提问题的方式。然后训练算法去理解问题的意思。接着对搜索工具进行测试、调整,然后评估特定一组用户对象的反映。这一项目展现了 Facebook 做产品的方式—通过研究人类行为来做产品。它要检验自己的创意。其目标是吸引越来越多的人来到网站,并让他们流连忘返。

从事人机交互研究的斯坦福大学教授 Clifford I. Nass 说,Facebook 要做的产品并非大家线下交互的复制品,而是一种“有关如何沟通的理想化视角”的反映。

Nass 说 Facebook 利用的并非人类沟通方式的纯粹心理学研究成果,而是想通过心理学研究来让网站对用户具备粘性、让用户愿意花时间在上面,其次则是让人愿意点击广告。

这很好地解释了为什么上面有一个“喜欢”的按钮却没有“不喜欢”按钮;消极情绪会让人远离网站。“喜欢”按钮的一个根本性的原理是心理学上的同质性概念:物以类聚,人以群分,大家喜欢类似的人和物。每次受赞助内容里面弹出的是朋友的照片是因为大家更容易记住人的面孔而不是名字。

为了服务好其多样化的、全球性的用户,Facebook 非常注意用户响应,不断地测试和调整自己的功能。其第一代的搜索引擎是通过挖掘公司收集的某些数据(照片、兴趣、喜欢等)来回答问题的。最终他还会挖掘状态更新等活动,乃至于用户吃什么和到哪里去。这个引入的过程将是非常缓慢的,这样才能检验出哪些功能和调整是有效的,哪些是无效的。

Facebook 过去的搜索引擎仅响应特定的查询。比方说,如果用户想要查找斯坦福大学的学生,则需要在搜索栏敲入“加入斯坦福大学的人。”如果输入的是“去斯坦福大学的人”和“在斯坦福大学学习的人”则搜索引擎理解不了。

类似地,如果某人要寻找朋友,此人可输入“我的朋友”,或者如果想查找自己度过哪些假期,可输入“我访问过的地方。”

对于 Cheng 来说,转折点出现在一次对用户的试验上。在那次试验中,他们两两结对坐在一所小房子里面,面前放着笔记本电脑。然后 Facebook 的用户体验团队成员教用户使用早期版本的搜索引擎。他们让用户搜索高中同学。

在单向玻璃后面观察用户搜索行为
如在传统搜索引擎的做法一样,受试者首先输入的是关键字。结果没用。然后他们输入短句,接着是更长一点的句子。这么做也没用。有一个用户被要求查找喜欢棒球的朋友,但是他的关系网中最狂热的棒球迷并没有出现在搜索结果中,因为他们喜欢的是“美国职业棒球联盟”,而不是“棒球”。

在单向玻璃后面观察的工程师们终于茅塞顿开。如果自己的代码不跟人关联起来,写得再好也用不上,也没有用。因此他们得出结论,需要重新调整代码。

现在,搜索引擎已经可以理解“学生(student)”这个词的 25 个同义词,包括“freshmen”、“pupils”等,还有 25 个左右的近义词也会被提示为相同的意思,如“academics”。此外,搜索还可以加上时间参照,如现在的学生,也可以增加细节描述,如主修心理学,把这一切结合起来,搜索引擎可以识别出将近 27.5 万种询问“学生”的方式。

现在这项搜索工具已经在接受审查。最近有一篇博客透露其功能的强大,比方说它甚至可以搜索出喜欢某种非法组织且有亲属在中国的人。

这个搜索引擎会对 Google 造成何种威胁尚不得而知。但是有一点是明确的,前路漫漫,为了完善它,还需要进行大量的工作。比方说,现在这个搜索引擎还很难理解很多类型的句子。像“约翰喜欢且发表过评论的照片”这样的句子就会令引擎迷惑不解。又比如虽然有歧义但是两个人面对面就很能很好理解的句子引擎也无法理解。总之,计算机对真实世界的了解非常匮乏。

不过,即便是在缺乏背景的情况下,Facebook 仍然试图去接近现实世界的信任。搜索引擎会对每一个查询的应答根据“社交距离”进行评级。算法会将用户最亲近、最有可能想看到的朋友的答案置于结果的前列。这种做法虽然显得有点笨拙,但是显然 Facebook 把宝压在了同质性上:如果答案来自于用户喜欢的某人,那么该用户就更有可能会注意到它—并点击该链接。

Nass 教授说:心理学,是实现目标的小把戏。

  1. da shang
    donate-alipay
               donate-weixin weixinpay

发表评论↓↓