>
信息提取重大进展,MIT让人工智能在强化学习中
  • 作者:上海添力网络科技
  • 发表时间:2021-06-22 21:00
  • 来源:未知

互联网蕴含着大量公开信息,很多都是以文本形式存在的。用于解答问题的数据,例如使用某种工业化学品与疾病事件的关联,新闻报道模式与选民投票结果之间的关联——也许都能在网络中找到。但是要从这些文本中提取并整理用于定量分析的数据可能会非常耗时。
 
信息提取——或者自动分类数据项以纯文本储存起来——是人工智能研究的一个主要课题。在上周计算语言协会主办的自然语言处理实证方法大会(EMNLP)上,来自麻省理工学院的计算机科学与人工智能实验室研究者们凭借一个颠覆传统机器学习的信息提取新方法获得了最佳论文奖。大多数机器学习系统依靠结合训练样本和对应的人类注解者提供的分类运行。例如人类可能为一组文本中的部分语音打上标签,机器学习系统会尝试识别解决歧义的模式——例如,当「her」是一个直接宾语以及当「her」是一个形容词时。
 
一般来说,计算机科学家会尝试用尽可能多的数据来训练机器学习系统。通常,训练的数据越多,计算机就越有可能解决复杂的问题。
 
在这项研究中,相比之下,MIT 的研究者们在数据不足的情况下训练系统——因为在他们探究的情形中,这些已经是他们可用的所有数据了。他们发现信息有限这个问题很容易解决。「在信息提取任务,特别是在自然语言处理中,你有了一篇文章,为了从中提取正确的信息,你必须做任何可能的尝试,」台达电子教授,该论文的主要作者 Regina Barzilay 说。「计算机以往的方式与你我的方式不同。当你发现自己正在阅读一篇无法理解的文章时,你会上网搜一篇你能理解的。」
 
信度提升
 
事实上,这个新系统做的是同样的事情。机器学习系统会大概为每一个分类分配一个置信度得分,这是一个统计学单位,用于表示分类正确的可能性,因为概念是从数据中得出的。在研究人员的新系统中,如果信度得分太低,该系统会自动生成一个搜索任务,在网络中寻找类似任务中内容的文本。然后从搜索结果的第一个文本中尝试提取相关数据,将新结果与旧结果进行对照。如果置信度依然很低,它会开始分析下一个由搜索字符串抓取的文本。这个过程会一直持续下去。「基础提取器是不变的,」MIT 电子工程与计算机科学系(EECS)的研究生 Adam Yala 说道,他也是这篇论文的共同作者。「你会发现对于这个提取器来说,有些文本比较容易理解。所以如果你有一个非常『弱』的提取器,“你会找到让提取器更容易理解的文章。 所以你有一个非常弱的提取器,你只需要让它自动在网上寻找适合它的数据。」Yala也是论文的主要作者,他们都是EECS的研究生。
 
值得一提的是,该系统做的每一个决定都是机器学习的结果。该系统学习如何生成搜索查询,分析新文本与原任务相关的程度,并决定用于融合多次尝试提取结果的最佳策略。
 
唯有事实
 
在实验中,研究者将他们的系统应用到两个提取任务,一个是搜集美国群众枪击事件数据,这是研究枪支管制影响的基本资料。另外一个是收集食品污染实例数据的任务。两个任务中的机器学习系统互不相关。
 
在第一个案例中,群众枪击事件的数据库是要求将枪手的名字、枪击事件发生地点、受伤及死亡人数都提取出来。在食品污染案例中,需要提取出来食品类型、污染类型和污染地点。每一个系统大约都是由 300 个文档训练出来。而对于这些文档,系统通过学习检索项目集群从而倾向于连接那些想要提取出来的数据条目。例如,群众枪击事件的枪手姓名总是和「警察」、「指认」、「被捕」和「被控」等词汇相关。在训练的过程中,系统每分析一篇文章,平均会从网上参考 9 到 10 篇新闻内容。
 
马尔科夫决策过程(MDP)中的转换图示
研究者比较了他们的系统与用更传统的机器学习技术训练出来的几种提取器的表现。在这两个任务提取出来的每个数据条目中,新的系统要比以前的好得多,通常情况下效果要好 10%。宾夕法尼亚大学计算机科学助理教授 Chris Callison-Burch 说:「自然语言困难之处在于人们能通过很多不同的方式表达相同的意思,建立语义理解模型的困难也在于要捕捉到所有这些变化。Barzilay 等人的模型已经有一点人类思考精妙机制的雏形了,它能够自动查询可以让学习过程变得更加简单的信息。它非常智能,能够高效运行。」
 
Callison-Burch 的团队正在使用结合了自然语言处理和人类审查结果的系统建立一个枪支暴力信息数据库,这一点很像 MIT 所训练的系统。「我们已经爬取了数百万新闻文章,然后通过分类器提取出和枪支暴力相关联的文本文章,随后我们再手工进行信息提取,如果能有一个像 Regina 那样的模型,我们就可以通过它预测已经标注的文章是否与之相关,这将节省我们非常多的时间,这也就是未来我很兴奋去做的一件事情。」 
 
论文:Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning
 
 
摘要:大部分成功的机器学习提取系统在运行时都需要访问大型文件集。在这项研究中,我们探索了获取并结合外部证据来提升多个缺乏训练数据的任务中的提取精确度。这个过程需要进行搜索查询,从新的来源中提取数据,并对提取的值进行调和,这一过程一直重复到收集到足够的证据为止。我们使用了一个强化学习框架,在这个框架中我们的模型会基于情境信息学习去选择最优的行动。我们还应用了一个 Q-network,训练它来优化一个奖励函数,这个奖励函数反映了提取精确度的同时还会惩罚额外的工作。我们在两个数据集上做了试验,一个是枪击案件,一个是食品质量案件,试验结果证明了我们系统的表现显著优于传统的提取器,或其他极具竞争力的元分类方式。


上一篇:中文信息抽取工具调研   下一篇:知识图谱技术多场景落地应用