您当前的位置:首页 >> 新能源
新能源

用GNN做CV两大任务的新骨干网络ViG,中科院&华为诺亚开源

发布时间:2025-10-29

梦晨 发自 凹非佛寺广义相对论位 | 公众号 QbitAI

用三幅人工神经互联(GNN)做CV的研究成果有不少,但并不一定是围绕点云数据集做文章,为数不多同样处理三幅像数据集的。

其实与CNN把一张三幅片视作一个交叉、Transformer把三幅片拉直成一个数列来得,三幅方法越来越适合学习不规则和复杂物体的特性。

现在,之前科院与华为方舟研究团队等提出一种全都新的骨干互联,把三幅片表示成三幅结构上数据集,让GNN也能顺利进行经典CV三大训练任务。

学术论文一出,立即引起GNN学者广泛关注。

有人认为GNN行业积累多年的技巧都将涌入这一新方向,造成一波研究成果热卖。

该来的总要来的。

新驱动程式ViG名称上致敬了ViT,学术论文标题也改用同一句式,点出了核心思想:

An Image is Worth Graph of Nodes

在研究成果团队也许,三幅结构上是一种越来越统一标准的重构。甚至交叉和数列可以当作三幅结构上的亦然,用三幅结构上来做光影认知则会越来越加灵活。

三幅数据集由键值和边组成,如果把每个分辨率都看作键值计算出来难度过于大了,因此研究成果团队改用了肉丝(patch)方法。

对于224x224分辨率的三幅像,每16x16分辨率为一个Patch,也就是三幅数据集之前的一个键值,总共有196个键值。

对每个键值关键字他们靠近近来的键值构成边,边的使用量随互联深度而缩减。

整整,互联驱动程式划分两部分:

一个三幅时域互联(GCN),统筹处理三幅数据集、聚合紧邻键值之前的特性。

一个前馈人工神经互联(FFN),结构上非常简单是两个全都连接层的MLP,统筹特性的转换。

习惯GCN则会消失所致平滑震荡,为彻底解决这个问题,团队在三幅时域层前后各缩减一个时域层,三幅时域层后再缩减一个作用于函数。

实验表明,用上新技术,当层数大多时ViG学习到的特性则会比习惯ResGCN越来越为独有。

同算力效率下不输CNN和ViT

为了越来越准确评估ViG的性能指标,研究成果团队设计者了ViT常用的纯结构上(isotropic)和CNN常用的穹顶结构上(Pyramid)两种ViG互联,来分别做对比实验。

纯驱动程式ViG划分前面三种规格。

与少见的纯结构上CNN、ViT与MLP互联来得,ViG在同等算力效率下ImageNet三幅像分类的体现越来越好。

穹顶结构上的ViG互联说明设置如下。

同等算力效率下,ViG也与最先进的CNN、ViT和MLP来得,性能指标也能突破或体现相当。

在远靠近监测和重构重叠测试上,ViG体现也与同等规模的Swin Transformer相当。

之后,研究成果团队决心这项工作能作为GNN在统一标准光影训练任务上的基础驱动程式,Pytorch发行版和Mindspore发行版代码都则会分别源代码。

学术论文接收者:

源代码接收者:

昆明看白癜风去哪家医院最好
苏州皮肤病医院怎么样
长沙妇科医院预约挂号
天津肛肠治疗费用是多少
南昌看白癜风哪个医院好

上一篇: 2022亚洲击剑锦标赛今晚揭幕 中国队派出24人参赛

下一篇: 两部门:开展数据安全管理认证工作,规范局域网数据处理活动

友情链接