CVPR 2022 | 马普所和北邮提出富含视觉信息的类别语义嵌入
yuyutoo 2024-10-13 00:31 1 浏览 0 评论
机器之心专栏
作者:北京邮电大学、马普所
来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络,提高了类别嵌入在视觉空间的完备性,对零样本学习中类别之间的知识转移有重要促进作用。
零样本学习旨在模仿人类的推理过程,利用可见类别的知识,对没有训练样本的不可见类别进行识别。类别嵌入(class embeddings)是描述类别语义和视觉特征的向量,能够实现知识在类别间的转移,因而在零样本学习中发挥着不可替代的作用。
如上图所示,由于属性(attributes)能够被不同类别共享,促进了知识在类别间的转移,因此是使用最广泛的类别嵌入。并在其他计算机视觉任务(如面部识别、细粒度分类、时尚趋势预测)中被广泛用作辅助信息。
然而属性标注过程需要大量人力投入和专家知识,限制了零样本学习在新数据集上的拓展。此外,受限于人类的认知局限,其标注的属性无法遍历视觉空间,因而图像中一些具有辨别性的特征无法被属性捕捉,导致零样本学习效果不佳。
针对以上问题,来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络(Visually-Grounded Semantic Embedding Network, VGSE),本文主要回答了两个问题:(1)如何从可见类图像中自动发掘具有语义和视觉特征的类别嵌入;(2)如何在没有训练样本的情况下,为不可见类别预测类别嵌入。
- 论文链接: https://arxiv.org/abs/2203.10444
- 代码链接: https://github.com/wenjiaXu/VGSE
为了充分挖掘不同类别之间共享的视觉特征,VGSE 模型将大量局部图像切片按其视觉相似度聚类形成属性簇,从图像底层特征中归纳不同类别实例所共享的视觉特征。此外 VGSE 模型提出类别关系模块,在少量外部知识源的辅助下学习类别关系,能够将知识从源类别转移到目标类别,为没有训练图像的目标类别预测其类别嵌入。相较于其他基于语料自动挖掘而获得的属性,VGSE 模型在 CUB、SUN、AWA2 等零样本分类数据集上取得非常有竞争力的结果。如下图所示,本文能够发掘与人工标注属性互补的视觉特征,提高类别嵌入在视觉空间的完备性,对零样本学习中类别之间的知识转移有重要促进作用。本论文已被 CVPR 2022 录用。
类别嵌入发掘模型
类别嵌入发掘模型 VGSE 的算法流程如下所示,该模型主要由两个模块组成:(1)切片聚类模块(Patch Clustering, PC)以训练数据集为输入,将图像切片聚类成不同的簇。(2)类别关系模块(Class Relation, CR)用于预测不可见类的语义嵌入。
切片聚类模块
由于属性通常出现在图像的局部区域,例如动物的身体部位、场景中物体的形状和纹理等,因此本文提出利用图像局部切片的聚类来发掘视觉属性簇。为了获得覆盖整个语义图像区域(例如动物头部)的图像块,切片聚类模块通过无监督紧凑分水岭分割算法 [4] 将图像分割成规则形状的区域,然后利用图像切片的视觉相似性进行聚类。
切片聚类模块是可微分的深度神经网络,给定图像切片,网络首先提取图像的特征,之后通过聚类层
预测该特征被预测到每一个属性簇中的概率:
本文基于视觉相似性的聚类损失函数训练该聚类网络。强制图像切片
及其相似切片集被聚类到同样的属性簇:
为了增强类别嵌入的可辨别性,使其能够分辨类别之间的显著性差异,本文提出加入可辨别性信息,通过学习全连接层,将每张图片的预测映射为其类别预测概率,然后使用交叉熵损失训练模型:
本文旨在学习类别之间共享的属性簇,促进知识在类别之间的转移,因此鼓励属性簇蕴含类别之间的语义联系。为实现这个目标,通过学习全连接层S,将每张图片的嵌入映射为类别的语义标签(此处使用类别名称的 w2v 向量)。然后通过回归损失训练模型,以加强类别嵌入的语义联系:
最终,完整图像的图像嵌入是通过平均该图像中的所有切片的嵌入来计算得到:
而类别
的嵌入由该类的所有图像嵌入平均而得:
类别关系模块
可见类的类别嵌入可以由切片聚类模块预测得到。但现实情况中存在着大量不可见类,其类别嵌入无法通过图像进行预测。由于语义相关的类别通常共享部分属性,例如熊猫和斑马共享 “黑白相间“属性,麋鹿和公牛都包含“角” 这一属性。本节提出学习可见类与不可见类之间的语义相似性,并通过语义相关的可见类来预测不可见类的嵌入。任何外部语义知识,例如 w2v、glove 等类别语义嵌入或人工标注的属性,都可以用来学习两个类之间的关系。下文以 w2v 为例说明所提出的类别关系发掘模块。
给定可见类的 w2v 语义标签,和不可见类别的语义标签,本节学习了相似性映射,其中表示目标类和第个源类别之间的相似性。相似性映射通过以下优化问题学习:
其中,目标类别的属性值是所有源类别属性值的加权和。
实验结果
本文在三个通用零样本分类数据集(CUB、AWA2、SUN)上验证所提出方法的效果。
下图展示了在 AWA2 数据集中学习得到的属性簇。我们将 10,000 个图像切片的嵌入利用 t-SNE 映射到二维空间。本文采样了几个属性簇 (用相同颜色的点) 并在图中标记了来自该属性簇的图像切片。
图中数据说明了以下几点:首先,可以观察到同一簇中的图像切片倾向于聚集在一起,且传达了一致的视觉信息,这表明图像嵌入提供了可辨别性信息。此外,几乎所有属性簇都包含来自多个类别的图像切片。例如,来自不同动物的条纹,虽颜色略有不同但纹理相似。这一现象表明本文学习的类别嵌入包含类间共享的信息。另一个有趣的观察是,本文提出的模型能够发现被人类标注忽略的视觉属性,可以增强人类标注属性的视觉完备性。
Table 1 展示了本文提出的类别嵌入 VGSE-SMO 与类别的 w2v 向量在三个数据集上的表现。为测试两种类别嵌入的能力,我们 f-VAEGAN-D2[5]等五种零样本分类模型上进行实验,结果表明本文提出的类别嵌入能够大幅度超越 w2v 向量的性能。
Table 2 在零样本分类任务上对比了本文提出的类别嵌入和其他几种语料挖掘属性方法的效果,结果表明本文的方法在仅使用 w2v 向量的情况下,效果要优于其他使用在线语料库的方法。
如前所述,本文提出的类别关系模块可以使用多种外部语义知识学习类别相似度,Table 4 展示了使用不同语义知识的效果。
本文进行用户调查探究所挖掘的类别嵌入的语义一致性和视觉一致性。随机挑选 50 个属性簇,并展示聚类中心的 30 张图片。用户首先被要求观察属性簇的示例图片。然后回答如下问题衡量属性簇的效果。
结果表明,在 88.5% 和 87.0% 的情况下,用户认为本方法所挖掘的属性簇传达出一致的视觉和语义信息。
总结
为减少零样本学习所需的人工标注,提高类别嵌入的语义和视觉完备性,本文提出一个自动的类别嵌入发掘网络 VSGE 模型,能够利用图像切片的视觉相似性发掘类别嵌入。在三个数据集上的结果表明,本文提出的类别嵌入方案能够有效地提高语义嵌入的质量,并且可以挖掘出人类难以标注的细粒度属性。除了在零样本学习中发挥重要作用,本文所提出的类别嵌入也能够为其它属性相关研究提供新思路。
参考文献:
[1] Al-Halah, Ziad, and Rainer Stiefelhagen. "Automatic discovery, association estimation and learning of semantic attributes for a thousand categories." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
[2] Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Proceedings of the Advances in neural information processing systems. 2013.
[3] Wang, Xiaolong, Yufei Ye, and Abhinav Gupta. "Zero-shot recognition via semantic embeddings and knowledge graphs." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[4] Neubert, Peer, and Peter Protzel. "Compact watershed and preemptive slic: On improving trade-offs of superpixel segmentation algorithms." Proceedings of the IEEE International Conference on Pattern Recognition. 2014.
[5] Xian, Yongqin, et al. "f-vaegan-d2: A feature generating framework for any-shot learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
相关推荐
- 《亲爱的》特效真厉害,一块绿布贯彻全集,不得不佩服李现的演技
-
说起《亲爱的热爱的》这部电视剧,相信很多人并不陌生,这部电视剧让男演员李现因此爆红,其实李现是一个非常有潜力的男演员,他的表现也非常的精彩。但是大家都知道,在每一部电视剧中都有特效的存在,这部电视剧也...
- 充分运用AI特效,京剧电影《大唐贵妃》正式开机
-
“当唱到‘在天愿为比翼鸟,在地愿为连理枝’的时候,会从演员身后飞起一只巨大无比的比翼鸟,鸟在空中盘旋,刮起的风甚至会吹过角色的脸……”11月10日,电影《大唐贵妃》在上海车墩影视基地正式开机,这是第一...
- 工业光魔:没有PS的年代,特效怎么做?
-
大家好,我是戴着眼镜拿着话筒的阿拉斯加,片片。昨天,我给大家简单介绍了传奇特效公司——工业光魔的起源。...
- 价值13亿的“爽片”上映,每一帧都是钱砸出来的特效,却无缘国内
-
在七月二号的时候;美国在网络上面上映了一部大制作的“爽片”《明日之战》。...
- 影视特效是怎么制作出来的?来,一起体验吧!
-
电影是人们生活中不可缺少的一部分,是视觉与听觉相结合的现代艺术。悲剧、喜剧、亲情、友情、爱情都是它所能展现的内容。影视艺术有哪些独有的特征?什么是蒙太奇?全息影片又是什么意思?最近,少儿频道的一档节目...
- ps五分钟学会自己制作“特效”
-
嗨,欢迎观看本期的摄影后期教学。那就是教大家一个特别炫酷,特别实用的ps“特效”光!有同学会问,“啊,特效光是不是特别难,我一点ps都不会!”咳咳不要着急,karry的教学都是针对ps零基础的同学的,...
- 抖音这个特效太扎心,无数网友看着看着就哭了……
-
2078年的你,会是什么样子?最近,抖音上一款特效火了。它可以让你看到自己从现在到2078年的容貌变化,你可以一点点看着皱纹爬上眼角,白发布满双鬓。看着看着,很多网友就哭了。有人说,一辈子很长却也很短...
- 《爱情公寓》的特效有多好?这集花了300万,网友看不出来特效
-
对于有些电视剧来说,特效那可是相当重要的一个部分了。尤其是对那些科幻片和一些玄幻类的电视剧就更加了。一部剧或者是影片特效的好坏,直接就影响了这个作品的质量。首先就让我们来看一下电视剧孤芳不自赏吧!里面...
- 窗花剪纸、鸭头滤镜、潜艇王者…… 揭秘抖音特效那些事儿
-
更多往期「Byte漫来了」系列漫画,可点击阅读:...
- 原来影视剧中的“光头”全是这样弄的 观众被骗了许多年
-
不管是电影还是电视剧,都会有光头因为是剧情的需要,那么她们的光头会是怎么弄的呢?一直都以为那些演员都是要真的剃光头,看到这些照片后,才知道深深的被骗了许多年。在影视中,常常看到演员有光头的戏,她在外出...
- 这些特效给几分?春晚舞台显示技术盘点
-
[中关村在线投影机频道原创]从1983年开始,春晚成为国人大年三十晚上最期待的一场精神盛宴。直播式节目播出方式,各类表演大师云集舞台,相声小品歌舞欢聚一堂,这是很多家庭一年中最欢乐的时刻,而春晚,则是...
- 11 款六元秒杀特效对比,哪个赢了不知道,貂蝉一眼输了
-
已经上线了11款六元秒杀皮肤,其中部分是升级后的“伴生皮”,也就是英雄的首款皮肤,首周六元之后恢复原价488点券。无论是何种形式的六元皮肤,不得不说他们的质量都非常好,这11款皮肤的特效对...
- 《半条命2 RTX》上架Steam 光追特效+4K效果
-
《半条命2RTX》现已在Steam平台正式上架,这款屡获殊荣的游戏以其沉浸式的故事、惊险的战斗和令人费解的物理特性吸引了全球数百万玩家,游戏现已经新增全面光追、物理纹理以及增强的多边形效果进行了彻底...
- 微信又有新玩法?多种好看特效可选择,赶快安排上
-
今日分享:手机特效适用系统:安卓今天小雷又发现了一个好玩的东西,就是手机加上特效也太好看了吧!早上上班的时候发现同事打开微信后,微信页面居然下起了樱花雨。看了同事的微信页面小雷我真的觉得太好玩太好看了...
- 判若两人!揭秘好莱坞的特效化妆过程
-
好莱坞的特效化妆牛到什么程度呢?可以把美人化妆成丑八怪,把黑人化妆成白人,把年轻人化妆成老人,把女人化妆成男人,把男人化妆成女人,把普通人化妆成怪物、外星人甚至异鬼……来见识一下这些神奇化妆术的“变...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- mybatis plus (70)
- scheduledtask (71)
- css滚动条 (60)
- java学生成绩管理系统 (59)
- 结构体数组 (69)
- databasemetadata (64)
- javastatic (68)
- jsp实用教程 (53)
- fontawesome (57)
- widget开发 (57)
- vb net教程 (62)
- hibernate 教程 (63)
- case语句 (57)
- svn连接 (74)
- directoryindex (69)
- session timeout (58)
- textbox换行 (67)
- extension_dir (64)
- linearlayout (58)
- vba高级教程 (75)
- iframe用法 (58)
- sqlparameter (59)
- trim函数 (59)
- flex布局 (63)
- contextloaderlistener (56)