您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
新鲜 正文
发私信给思睿
发送

4

国王-男人+女人=女王:这是什么等式?

本文作者:思睿 2015-09-21 15:28
导语:计算机语言学急剧地改变了研究人员学习和理解语言的方式。利用数学运算处理大量词语的能力产生了思考单词和词语相互之间关系的全新方式。

国王-男人+女人=女王:这是什么等式?

计算机语言学急剧改变了研究人员学习和理解语言的方式。利用数学运算处理大量词语的方式,也让我们开始以不同的角度思考单词与词语之间的关系,而这有望能让机器理解人类的语言。

数字运算方式正好说明了一个词语与另一个的关系有多么近,这也是关于它们如何被使用的重要因素。Olympics(奥运会)这个词可能会显得与 running(跑)、jumping(跳) 和 throwing(扔) 之间有更多联系,而与 electron(电子) 和 stegosaurus(剑龙) 就没那么紧密了。这组词语的关系可以被认为是一个多维向量,它描述了 Olympics 是如何在语言内使用,它本身可以被认为是一个向量空间。  

国王 - 男人+女人=女王

这种新方法让语言像拥有精确数学特性的向量空间一样被对待。现在,语言学研究已经转变成为了研究数学向量空间的问题。如今,澳大利亚墨尔本大学的 Timothy Baldwin 和其合作伙伴开始探索向量空间的一个数学特性:在同一空间中加减向量,从而产生另一个向量。

他们讨论的问题是:向量之间的拼合有什么意义?在探索这个问题的过程中,他们发现向量之间的差异,是学习语言和了解词语之间关系上的强大工具。

了解如何思考这些词语,并让它们像向量一样进行加减法,最简单的方法是举例子。比如下面两个:

  • 国王 - 男人+女人=女王。换句话说,在向量中加入相关的词语“国王”和“女人”,与此同时减去“男人”,就等于与“女王”相关的向量。这描述了一种两性的关系。     

  • 另一个例子是:巴黎-法国+波兰=华沙。在这种例子中,巴黎和法国之间的矢量差异,能够得出首都这一概念。

Timothy Baldwin 则探讨了这种方法有多可靠和有效。根据词语研究的语料库数据,他们比较了向量关系会如何改变。例如,他们会在维基百科、Google新闻、路透社新闻的词语语料库中,进行同样的向量关系的研究。

为了找到答案,他们寻找了许多与分类词语的关系相关联的向量,包括实体及其部分之间的关系,如飞机和座舱;以及一个动作与所涉及对象之间的关系,例如狩猎和鹿;名词和集体名词,例如蚂蚁和军队。研究还包括了一系列的语法联系——名词和它的复数,如 dog 和 dogs;动词和它的过去式,如 know 和 knew;动词和第三人称复数,如 accept 和 accepts。

国王-男人+女人=女王:这是什么等式?

让机器理解语言

结果十分有趣。Baldwin 表示,在这些关系中抓取的全部向量,总体上在每个语料库的向量空间中,都形成了紧密集群。

但也有一些有趣的异常值,在词语有一个以上的含义时,就会在向量空间中产生有歧义的描述。在第三人称复数集群的例子中,包括 study 和 studies,run 和 runs,increase 和 increases,所有这些单词即可以作为名词,也可以作为动词,因此也会曲解这些向量。

这是一项有趣的工作,不过除了语言学研究,还有什么现实意义呢?一个显而易见的答案是:帮助机器理解人类的语言。另外,帮助机器进行更好的语言翻译。你可以已经想到了两个例子:微软Skype实时翻译,以及Google翻译。

值得一提的是,在这一领域的开拓者和驱动力之一,就是 Google 和它的机器翻译团队。Google 发现,出现在英语中的矢量关系,通常也适用于西班牙语、德语、越南语,以及其他所有的语言。

当然,由于语言拥有独特本质,也有许多例外的情况,也正是这些特殊性导致了机器翻译算法的问题。因此,寻找能够找出词语歧义性的方式,有望提供一种有效解决这些问题的方法。

via technologyreview

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

专业投稿

微信:ID_Travis
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说