当前位置：首页 > 数码 > 人工智能与图像理解的交汇点-简称VQA-视觉问答-VisualQuestionAnswering (人工智能与图像处理)

人工智能与图像理解的交汇点-简称VQA-视觉问答-VisualQuestionAnswering (人工智能与图像处理)

admin12个月前 (05-06)数码76

什么是视觉问答（VQA）？

视觉问答（VQA）是一种激动人心的人工智能技术，它使计算机能够观察图像并回答有关这些图像的问题。它将计算机视觉与自然语言处理相结合，为我们带来了更智能的图像理解和互动体验。

在理解 VQA 之前，我们需要了解两个关键组成部分：

计算机视觉（CV）：研究计算机如何理解和处理图像的领域。CV 系统可以识别图像中的对象、场景和特征，以及它们之间的关系。
自然语言处理（NLP）：涉及计算机理解和生成自然语言文本的能力。它可以用于文本翻译、情感分析、文本生成等任务。

VQA 将这两个领域结合在一起。它允许用户提出与图像内容相关的疑问，然后计算机将分析图像并用自然语言回答这些疑问。这种融合的能力具有广泛的应用领域。

应用领域

VQA 技术具有广泛的应用领域，包括但不限于以下几个方面：

智能助手：VQA 可以用于创建更智能的虚拟助手，用户可以通过提问图片来获取图像详细信息。
医学诊断：在医疗领域，VQA 可以帮助医生分析医学图像并回答有关患者病情的问题。
智能监控：VQA 可以用于监控系统，通过分析监控摄像头的图像来检测异常并回答用户的问题。
教育：在教育领域，VQA 可以帮助学生理解教材中的图像和图表。
娱乐：VQA 可用于增强虚拟现实（VR）和增强现实（AR）应用程序，使用户能够与虚拟世界进行更自然的互动。

工作原理

VQA 系统的工作原理涉及多个步骤：

图像输入：系统接收图像作为输入，这可以是一张照片或一帧视频。计算机视觉模型分析图像，提取关键信息。
问题输入：用户提出一个与图像相关的自然语言问题。例如，用户可以问：这张图中有多少只狗？
特征提取：接下来，系统将图像和问题的文本转化为特征向量。这些特征向量包含图像和问题的信息，以便计算机理解它们。
回答生成：通过深度学习模型，VQA 系统将特征向量输入神经网络中，该网络将生成与问题相关的自然语言回答。回答通常是一句话，描述了图像中与问题相关的内容。
回答输出：最后，计算机将生成的回答呈现给用户。用户可以看到计算机对他们的问题的回应。

VQA 的工作原理非常复杂，它通常使用深度学习模型，如卷积神经网络（CNN）和循环神经网络（RNN）。这些模型能够从大量数据中学习如何理解图像和文本，并生成准确的答案。

挑战与展望

尽管 VQA 取得了显著进展，但仍然存在一些挑战。其中之一是多模态理解，即如何更好地融合图像和文本信息以提供更准确的答案。处理模糊或有歧义的问题也是一个挑战，因为这需要更强大的语义理解能力。

VQA 的前景非常光明。随着深度学习技术的不断发展，VQA 系统将变得越来越智能。这将为各个领域带来更多自动化和智能化应用，改善我们的生活和工作方式。

结论

视觉问答（VQA）是一种令人兴奋的人工智能技术，它将计算机视觉和自然语言处理相结合，使计算机能够查看图像并回答问题。VQA 的应用潜力广泛，涵盖了医学、教育、监控、娱乐等多个领域。

尽管存在挑战，但随着技术的不断发展，VQA 将在未来继续发挥重要作用，改善我们的日常生活和工作方式。

计算机视觉包括哪些方向

计算机视觉方向有：1、图像分类 2、目标检测 3、图像分割　4、目标跟踪 5 图像滤波与降噪 6、图像增强　7、三维重建　8、图像检索。

计算机视觉的定义：计算机视觉既是工程领域，也是科学领域中的一个富有挑战性重要研究领域。计算机视觉是一门综合性的学科，它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学，神经生理学和认知科学等。

原理：计算机视觉就是用各种成像系统代替视觉器官作为输入敏感手段，由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界，具有自主适应环境的能力。要经过长期的努力才能达到的目标。因此，人们努力的中期目标是建立一种视觉系统，这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。

医疗计算机视觉

应用：最突出的应用领域是医疗计算机视觉和医学图像处理。这个区域的特征的信息从图像数据中提取用于使患者的医疗诊断的目的。计算机视觉在医疗领域的应用还包括增强人类的感知能力，例如超声图像或X射线图像，以降低受噪声影响的图像。

一文带你了解视觉问答VQA

Visual Question Answer (VQA) 是对视觉图像的自然语言问答，作为视觉理解 (Visual Understanding) 的一个研究方向，连接着视觉和语言，模型需要在理解图像的基础上，根据具体的问题然后做出回答。本文将简短的对VQA做一个调研，涉及一小部分论文，作为入门。

一切从一篇17年发表在期刊Computer Vision and Image Understanding上的survey说起。

这篇论文介绍了一些方法，数据集以及未来的研究方向。其中方法大部分是16年前的，调研将会涉及几篇17年后的论文。

VQA的模型一般是先分别对图像和问题提取特征，然后联合这两个做一些多模态融合（如element-wise product, MCB，MFB），attention，知识补充等处理，最终经过分类器输出answer。关于特征提取，对于图像image：使用VGG，Resnet，... pretrained on object recognition/detection；对于问题question：使用LSTM, GRU, ... GloVe word embedding。论文将目前的方法归为四类（四种 tips/tricks用于VQA）：

学习视觉与自然语言的两个不同模态特征在一个共同的特征空间的嵌入表达（embedding）。

总的框架比MCB多了question attention：

注意力机制已经广泛应用到NLP，image caption，VQA等中，在VQA中，attention能够根据具体的问题Q，把重点集中在想要的图像特征中（权重），最后给出答案。

如上图所示，通过问题Q的特征和图像特征组合，经过网络，公式或者其他方法得到每个图像特征V = (v_1, ..., v_k)的权重，将权重乘上V，再联合输入到分类器or生成器中产生answer。除了图像上的attention外，MFB的论文还对问题Q本身也做一个attetion，并把两个attention称为co-attention。

把模型分解为模块的组合的方法，模块化有利于任务分解，重用等。survey论文主要介绍了两篇论文：（1）The Neural Module Networks (NMN) 这篇论文的大致思路是将问题进行语义分析，得到语法树，然后使用特定的模块来代替树的每个节点，最后构成一个总的模型，如下图所示的一个例子“Is there a red shape above a circle?”。

（2）Dynamic Memory Networks 动态记忆就是将输入重复经过一个记忆模块，更新记忆，最后得到一个最终记忆，然后得到answer。这种方法把模型分为四个模块（跟一篇阅读理解/QA的论文ask me anything的结构类似）：问题模块，图像模块，记忆模块，输出模块。

结合图片以外的额外的知识，如关于某个词的描述。下面将给出一篇相关的论文：

(1) Attributes 属性是一个高层的概念的表达（从人的角度看）。一般我们提取到的特征是高层的，隐含语义，不可解释的，而这篇论文使用了高层的属性来表达特征向量 V_{attr} ，每个值表示对应属性的概率。下图是image caption的框架：

(2) External Knowledge 额外知识的获取是从DBpedia中获取前5个属性的相关描述，然后转换为向量表达。最后联合文档向量，属性向量，captions向量，问题来生成问题答案。

论文给出了13个数据集，除了下表的，还有Diagrams（一个图表的数据集），Shapes（一个形状，颜色的物体的合成数据集）。根据答案的类型可以分为两种：open-ended（开放式的）和multiple choice（多选项的）。

准确率acc：

作为需要视觉理解与推理能力的，介于Vision与NLP间的视觉问答VQA，是一个有趣而又充满挑战的问题。它的进步不仅依赖于计算机视觉的发展和自然语言处理的能力，还需要对图像的理解——视觉基础能力，如识别，检测等，同时学习到知识与推理的能力。然而，这条路还有很长的距离要走，或许目前大部分方法只不过是对训练数据的拟合分类，并没有理解，也可能包含着语言先验（见CVPR2018论文 Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering ）。因此，一个真正理解图像，能够学习到知识和推理能力的模型才是最终目标。

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: VQA