首页 > 股票资讯 正文

中山大学发布了无偏的视觉问答数据集,论文发表在TNNLS的顶刊上 外汇占款

时间:2021-03-06 09:13:12作者:佚名

原标题:中山大学发布无偏视觉问答数据集,论文发表在TNNLS顶刊

机器柱的中心

机器志信编辑部

最近,中山大学发布了知识路由视觉问题推理(KRVQA)。由于自然语言和标注器之间的自然偏差,现有算法在不理解相应文本和图像信息的情况下,通过在数据集中拟合这些偏差,可以取得很好的效果。相关论文发表在国际知名顶级期刊TNNLS上。 在自然语言处理和计算机视觉领域,一些工作已经开始探索基于常识的阅读理解和视觉问答。这种问题需要算法需要额外的常识才能给出答案。然而,现有的常识性视觉问答数据集大多是人工标注的,并不是基于适当的知识或情感表达来构建的。这不仅导致常识分布稀疏,容易产生解释的歧义,而且容易引入标注者偏差,使得相关算法仍然专注于增加神经网络的表达能力,以拟合问答之间的表面联系。

为了解决这一问题,研究者提出了一种新的知识路由的视觉问题推理数据集(KRVQA),该数据集基于若干现有公共知识/常识地图中与现有图像场景图相关的部分,通过预定义的规则在地图中搜索推理路径,生成大规模无偏问答和推理标注。如图1所示,该数据集避免了现有数据驱动的深度模型通过过拟合获得高精度,促进了视觉问答模型正确感知图像中的视觉对象,理解问题,整合对象与对应常识的关系进行答题。

图1:1:KRVQA测试基准样本示意图。

具体而言,基于推理路径的生成,从图像场景图或知识库中选择一个或两个三元组进行多步推理,并通过约束使用的三元组将知识与其他偏差分离,平衡答案的分布以避免答案不明确。两个主要制约因素是:

1.一个问题必须与知识库中的多个三元组相关,但只有一个三元组与图像相关。

2.所有问题都基于不同的知识库三元组,但是训练集和测试集有相同的候选答案集。

约束1可以强制视觉问答模型正确感知图像,而不是基于给定问题猜测知识。约束2可以防止现有方法通过训练集中的样本来拟合知识库,迫使模型通过外部知识来处理未知问题,从而促进模型泛化的研究。

研究人员对各种知识库编码方法和最新的可视化问答模型做了大量的实验,结果表明,在给定的知识库下,是否给出两组问题相关的三元组,仍然有很大的差距。这表明所提出的KRVQA数据集能够很好地反映现有深度模型在知识推理方面的不足。

KRVQA数据集

该数据集基于从自然图像场景图和外部知识库中提取的一个或两个三元组,构成推理结构。基于这种结构,通过模板构建问答对。

给定一幅图像,研究人员首先将其场景图与外部知识库相结合,形成与图像相关的知识图。该数据集使用现有的公共标注数据构建数据集,包括使用可视化基因组数据集内的图像场景图标注获取图像中所有的对象/关系三元组,使用WebChild、ConceptNet、DBpedia等常识知识库获取图像信息之外的常识三元组。场景图和知识库中的三元组都包含三个项目:主题、关系和对象。如果图像场景图中某个对象的名称与知识库中某个三元组的名称相同,则这两项将会合并。将所有同名的项目合并后,我们就可以得到一个与图像相关的知识地图。研究人员使用其中包含的三元组来生成复杂的问题-答案对。

然后,从图中提取路径,并根据该路径提出一阶或二阶问题。推理路径的提取由一组分层的基本查询构成。一个基本的查询会告诉模型在知道主语a、宾语b和关系r中的两个时,去哪个信息源获取第三个信息,比如说模型需要从知识库中找到包含主语a和宾语b的三元组,取出三元组的关系r作为输出。有以下六个基本查询:

:给定主体a和客体b,从图像中得到它们的关系r。

:给定主题a和关系r,从图像中获取对象b。

:给定对象b和关系r,从图像中获取主题a。

:给定主体a和客体b,从知识库中获取它们的关系r。

:给定主题a和关系r,从知识库中获取对象b。

:给定对象b和关系r,从知识库中获取主题a。

通过将每个基本查询的输出作为下一个基本查询的输入,可以形成问题的层次推理结构,并作为标注信息。例如,“桌子上的物体是用来做什么的?”我们需要从图像中找出表中的内容,并从知识库中获取表中对象的用途,给定对象A和从前面的查询中获得的关系“UsedFor”。

最后,根据提取的三元组和模板,如“(人、物、伞)”和模板“是什么

表2不同问题类型和相应模板的示例

数据集的统计特征

数据集中共包含32,910幅图像、193,449个知识三元组和157,201个答案对。一步推理问题68448个,两步推理问题88753个,外部知识相关问题87193个,外部知识无关问题70008个。

在与知识库无关的问题中,候选答案数为2378个。候选答案的频率在数据集中呈长尾分布。这使得模型需要准确地分析图像,找出对象及其关系,并正确处理图像中低意义的对象。在与知识库相关的问题中,候选答案数量为6536个。通过限制每个答案的最大出现次数,研究者可以使知识库相关问题的答案均匀分布,避免模型拟合知识库。验证测试集中97%的答案都存在于训练集中,所以以前基于分类的可视化问答方法也可以应用于这个数据集。

图2知识相关问题的答案分布

图3知识无关问题的答案分布

实验

研究人员通过评估几种最新的视觉问答模型和各种知识嵌入方法(包括知识地图嵌入和问题编码器的预训练)的性能,测试了所提出的KRVQA数据集的属性。可视化问答模型包括:

q型.对于每个问题,使用其问题类型中最常见的培训答案作为输出答案。 LSTM .使用双向LSTM编码问题。并且只用问题代码来预测最终答案。 推理路径预测。使用双向LSTM编码问题,并以完全监督的方式训练和预测推理路径和问题类型,可以从场景图和知识库中检索正确答案。 自下而上的关注.该方法在2017年视觉小测验挑战赛中获得第一名。具有视觉问答模式的古典建筑。 MCAN .模块化共同关注网络(MCAN)是一种在目前不使用额外数据的情况下在VQAv2数据集上获得最高性能的方法,并且具有类似于在各种视觉语言任务上预先训练的最新模型的网络架构。

表2不同视觉问答方法在KRVQA上的准确性

如表2所示,基线法“Q型”和“LSTM”只根据问题预测答案,准确率远低于其他方法。所有方法在两步问题上的性能远远落后于一步问题,在知识相关问题上的精度也较低。这些结果表明,KRVQA数据集中的问题需要结合图像上下文和知识进行推理来回答,多跳推理仍然对现有方法提出了挑战。

知识编码和预培训

通过在整个知识库中训练,RotatE可以对知识库中的所有实体和关系进行编码,这样就有了三对实体。研究人员使用RotatE对知识库三元组进行编码,并将其与MCAN基线模型融合,这是VQAv2数据集的最佳结果之一,如图4所示。

图4嵌入知识库编码的MCAN模型

最近的研究表明,语言模型可以通过训练大量的文本在一定程度上对知识进行编码。受此启发,研究人员还对知识文本上的问题编码器进行预训练,以隐式编码知识。具体来说,MCAN的自我注意问题编码器将知识三元组的对应文本作为输入,然后预测隐藏的文本字符或对应的知识三元组,如图5所示。

图5示出了隐式编码知识库的预训练任务

表3所示的KRVQA结果表明,在给定已标定的三元组或查询实体的情况下,该模型可以大大改善知识相关问题的结果。然而,给定除查询实体之外的校准三元组“+知识影响”,由于一个图像可能对应多个知识三元组,因此该模型在推理图像的答案方面仅做出了小的改进。这两项预训练任务与基线方法相比仅略有改善。这说明了知识库在KRVQA中的重要性,也说明了当前模型在正确感知图像内容和编码知识库方面的不足。

表3不同知识库编码方法和MCAN基线方法的准确性返回搜狐查看更多

负责编辑:


以上就是中山大学发布了无偏的视觉问答数据集,论文发表在TNNLS的顶刊上外汇占款的全部内容了,喜欢我们网站的可以继续关注羽纨股票网其他的资讯!