本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【图】重磅 | 信息提取重大进展,MIT利用强化学习从外部网络抓取数据

时间:2016-11-11 19:16来源:报码现场 作者:j2开奖直播 点击:
参与:杜夏德、蒋思源 在上周以计算语言协会主办的自然语言处理实证方法大会(EMNLP)上,来自 MIT 的计算机科学与人工智能实验室研究者们凭借一个颠覆传统机器学习的信息提取新

参与:杜夏德、蒋思源

在上周以计算语言协会主办的自然语言处理实证方法大会(EMNLP)上,来自 MIT 的计算机科学与人工智能实验室研究者们凭借一个颠覆传统机器学习信息提取新方法获得了最佳论文。点击阅读原文下载此论文。

互联网上有大量有价值的信息是开放的,大部分都是纯文本形式的。回答无数问题所需要的数据——包括,特定化学物质的工业使用与疾病事件之间的关联,或者新闻报道模式与选民投票结果之间的关联——或许全都在网上。但是要从纯文本中提取并组织这些数据然后进行分析可能会非常耗时。

信息提取——或者自动分类数据项以纯文本储存起来——是人工智能研究的一个主要课题。在上周以计算语言协会主办的自然语言处理实证方法大会(EMNLP)上,来自 MIT 的计算机科学与人工智能实验室研究者们凭借一个颠覆传统机器学习的信息提取新方法获得了最佳论文。大多数机器学习系统依靠结合训练样本和对应的人类注解者提供的分类运行。例如人类可能为一组文本中的部分语音打上标签,机器学习系统会尝试识别解决歧义的模式——例如,当「her」是一个直接宾语以及当「her」是一个形容词时。

一般来说,计算机科学家会尝试用尽可能多的数据来训练机器学习系统。这通常会更有可能得到一个能处理棘手问题的系统。

相比之下,MIT 的研究者们在数据不足的情况下训练系统——因为在他们正在调查的这种情况下,这些已经他们可用的所有数据了。他们发现信息有限这个问题很容易解决。「在信息提取中,通常是在自然语言处理中,你有了一篇文章,你需要对这篇文章做任何能从中提取正确内容的事情,」该论文的另一个作者 Regina Barzilay 说。「这与你或我会做的事情都不同。当你阅读一篇你无法理解的文章时,直播,你会上网搜一篇你能理解的」

  信度提升

基本上,这些研究者的新系统做的是同样的事情。一个机器学习系统会大概会为每一个分类分配一个置信度得分,这是统计学上的一个度量,用于测量分类正确的可能性,因为模式是从数据中得出的。用了这些研究者的新系统,如果信度得分太低,该系统自动生成一个网络搜索查询,然后从这些新文本中的一个文本提取相关数据,随后调和结果与最初的提取内容。如果置信度依然很低,它会移到下一个由搜索字符串抓取的文本。这个过程会一直持续下去。「这个基础提取器是不变的,」MIT 电子工程与计算机科学系的研究生 Adam Yala 说到,j2直播,他也是这篇论文的合作者。「你会发现对于这个提取器来说,有些文本比较容易理解。所以如果你有一个非常弱的提取器,你就只管让它自己适应着从网络上找数据好了。」论文的第一作者 Karthik Narasimhan 补充道,他和 Yala 来自同一个系。

值得一提的是,该系统做的每一个决定都是机器学习的结果。该系统学习如何生成搜索查询,测量一个新文本与其提取任务相关的可能性,并确定出用于融合多次尝试提取的结果的最佳策略。

  唯有事实

在实验中,研究者将他们的系统应用到两个提取任务,一个是搜集美国群众枪击事件数据,这是研究枪支管制影响的基本资料。另外一个是收集食品污染实例数据的任务。这两个任务是独立地训练其机器学习系统。

在第一个案例中,群众枪击事件的数据库是要求将枪手的名字、枪击事件发生地点、受伤及死亡人数都提取出来。在食品污染案例中,需要提取出来食品类型、污染类型和污染地点。每一个系统大约都是由 300 个文档训练出来。而对于这些文档,系统通过学习检索项目集群从而倾向于连接那些想要提取出来的数据条目。例如,群众枪击事件的枪手姓名总是和「警察」、「指认」、「被捕」和「被控」等词汇相关。在训练的过程中,系统要分析每一篇文章,平均来说它从每个网页提取 9 到 10 篇新闻文章。

研究者比较了他们的系统与用更传统的机器学习技术训练出来的几个提取器的表现。在这两个任务提取出来的每个数据条目中,新的系统要比以前的好得多,通常情况下效果要好 10%。宾夕法尼亚大学计算机科学助理教授 Chris Callison-Burch 说:「自然语言困难之处在于你能通过很多不同的方式表达相同的意思,建立语义理解模型的困难也在于要捕捉到所有这些变化。Barzilay 和她同事们的模型已经有这种超级智能的部分,它能够自己去查询可以让学习过程变得更加简单的信息。这非常智能并能得到充分地执行。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容