您好、欢迎来到现金彩票网!
当前位置:516棋牌游戏 > 文本方法 >

一种通过分类进行比较文档摘要的新方法

发布时间:2019-06-07 20:27 来源:未知 编辑:admin

  澳大利亚国立大学(ANU)的研究人员最近开展了一项研究,探索比较环境中的提取性总结。术语“提取性摘要”定义了从大量文档中选择一些具有高度代表性的文章的任务。

  在他们的论文中,预先发表在arXiv上,并将在第33届AAAI人工智能会议上发表,研究人员考虑了比较总结,这需要从不同的文献集中选择文件。这些选定的文件应该代表每个组,同时也突出了各组之间的差异。

  该项目遵循澳大利亚国立大学计算机媒体实验室的主题,该实验室侧重于自动理解社交网络上的大量文本和图像流。该研究的首要目标是确定可以帮助人们处理信息过载的技术。

  “有很多新内容供任何人阅读:新闻,社交媒体供稿,甚至是arXiv研究论文,”执行该项研究的研究人员之一Lexing Xie告诉TechXplore。“我们可以要求计算机帮我们选择哪一个阅读,并仍然收到重要信息?”

  谢和她的同事一直在研究如何总结在线提供的数十万篇新闻文章,帖子和讨论。他们的目标是向用户提供一些(例如3-4个)最能回答“什么是新的”问题的项目。在特定时间范围内(例如今天,本周等)或关于特定主题(例如气候变化,选举等)。

  “文本摘要近20年来一直是一个活跃的研究领域,但主要关注的是总结一个集合,要么是抽象地(即选择现有项目来编写摘要),要么是抽象地(即将新句子组成摘要,而不是使用现有的),“谢解释说。“这项工作的重点是文件组的抽样比较,即从与其他群体最不同的群体中选择一些项目。据我们所知,我们的工作是第一次大规模地进行和验证比较性总结。”

  在他们的研究中,研究人员将比较文件总结作为分类任务。分类是一种常见的机器学习任务,其中算法对特定数据项所属的类别或组进行有根据的猜测。

  “在比较性总结的情况下,如果我们选择了好的总结文章,那么设计一个能够区分所选摘要文章和它们所属的群体的分类器即使不是不可能,也应该是很困难的。设计了一个能够区分所选摘要文章和其他群体的分类器,“参与该研究的另一位研究员Alexander Mathews告诉TechXplore。

  研究人员采用的分类视角需要对比较总结作为三个相互竞争的目标的替代但互补的观点。首先,选定的摘要文章应代表它们所属的群体,涵盖文件收集的所有重要方面。

  其次,每个选择的摘要文章应该与其他文章相对不同,以避免不必要的重复。最后,选定的摘要条款应仅代表它们所属的组,因为这是有效比较总结的关键因素。

  “我们对这三个目标的具体表述依赖于一种称为最大平均差异(MMD)的灵活数学测量,”Mathews解释道。“这一措施,以及称为核心技巧的数学工具的应用,使我们能够将我们的三个目标转化为紧凑的数学形式,即使在庞大的数据集上也可以有效地优化。此外,这种形式允许基于离散和基于梯度的优化技术,允许精心调整文章的选择,以满足我们的目标。“

  Mathews及其同事采用的分类视角使他们能够自动和通过众包来评估他们的方法作为分类任务。他们的方法在24种自动评估设置中的15种中优于离散和基线方法。在众包评估中,使用简单的基于梯度的优化策略选择的摘要比离散优化方法从人类工作者中获得了7%更准确的分类。

  “我们很高兴地看到,每周只使用4篇摘要文章,自动分类的准确性(每篇新闻文章进入它所来自的月份/周)与”读取“所有文章的内容相同,”Minjeong Shin,进行这项研究的研究人员之一告诉TechXplore。“这表明关键的新信息包含在少数原型文章中。”

  研究人员在一个跨越13个月的新策划的新闻主题集合中评估了他们的方法与其他方法的对比。当应用于正在进行的内容流的比较总结时,他们的系统成功地回答了诸如“本月气候变化主题的新内容”等问题,突出了两个不同时期之间的差异。

  “我们的方法也适用于除了新闻以外的收集比较,”Shin说。“例如,人们可以问:BBC和CNN对G20峰会的报道有何不同,或者英国和澳大利亚媒体对气候变化的报道有何不同?”

  将来,这种比较总结的新方法可以帮助用户浏览在线提供的大量信息; 提供不同来源或作者发表的文章的比较,以及相关主题的帖子或表达不同观点的比较。研究人员正在通过将这些比较提升到新的水平来扩展他们的研究。

  “我们正在研究如何不仅总结文本,还要共同总结图像和文本,”进行这项研究的研究人员之一Umanga Bista告诉TechXplore。“我们还想考虑文本中提到的实体的已知关系(例如德里是印度的首都),而不是将每个单词视为一个独立的实体。最后,我们希望有一个系统推荐什么是新的,有所不同的,值得一读的是什么。“

http://dolphinfixtures.com/wenbenfangfa/73.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有