新能源

用GNN做CV两大任务的新骨干网络ViG，中科院&华为诺亚开源

发布时间：2025-10-29

梦晨发自凹非佛寺广义相对论位 | 公众号 QbitAI

用三幅人工神经互联(GNN)做CV的研究成果有不少，但并不一定是围绕点云数据集做文章，为数不多同样处理三幅像数据集的。

其实与CNN把一张三幅片视作一个交叉、Transformer把三幅片拉直成一个数列来得，三幅方法越来越适合学习不规则和复杂物体的特性。

现在，之前科院与华为方舟研究团队等提出一种全都新的骨干互联，把三幅片表示成三幅结构上数据集，让GNN也能顺利进行经典CV三大训练任务。

学术论文一出，立即引起GNN学者广泛关注。

有人认为GNN行业积累多年的技巧都将涌入这一新方向，造成一波研究成果热卖。

该来的总要来的。

新驱动程式ViG名称上致敬了ViT，学术论文标题也改用同一句式，点出了核心思想：

An Image is Worth Graph of Nodes

在研究成果团队也许，三幅结构上是一种越来越统一标准的重构。甚至交叉和数列可以当作三幅结构上的亦然，用三幅结构上来做光影认知则会越来越加灵活。

三幅数据集由键值和边组成，如果把每个分辨率都看作键值计算出来难度过于大了，因此研究成果团队改用了肉丝(patch)方法。

对于224x224分辨率的三幅像，每16x16分辨率为一个Patch，也就是三幅数据集之前的一个键值，总共有196个键值。

对每个键值关键字他们靠近近来的键值构成边，边的使用量随互联深度而缩减。

整整，互联驱动程式划分两部分：

一个三幅时域互联(GCN)，统筹处理三幅数据集、聚合紧邻键值之前的特性。

一个前馈人工神经互联(FFN)，结构上非常简单是两个全都连接层的MLP，统筹特性的转换。

习惯GCN则会消失所致平滑震荡，为彻底解决这个问题，团队在三幅时域层前后各缩减一个时域层，三幅时域层后再缩减一个作用于函数。

实验表明，用上新技术，当层数大多时ViG学习到的特性则会比习惯ResGCN越来越为独有。

同算力效率下不输CNN和ViT

为了越来越准确评估ViG的性能指标，研究成果团队设计者了ViT常用的纯结构上(isotropic)和CNN常用的穹顶结构上(Pyramid)两种ViG互联，来分别做对比实验。

纯驱动程式ViG划分前面三种规格。

与少见的纯结构上CNN、ViT与MLP互联来得，ViG在同等算力效率下ImageNet三幅像分类的体现越来越好。

穹顶结构上的ViG互联说明设置如下。

同等算力效率下，ViG也与最先进的CNN、ViT和MLP来得，性能指标也能突破或体现相当。

在远靠近监测和重构重叠测试上，ViG体现也与同等规模的Swin Transformer相当。

之后，研究成果团队决心这项工作能作为GNN在统一标准光影训练任务上的基础驱动程式，Pytorch发行版和Mindspore发行版代码都则会分别源代码。

学术论文接收者：

源代码接收者：