用GNN做CV两大任务的新骨干网络ViG,中科院&华为诺亚开源
发布时间:2025-10-29
梦晨 发自 凹非佛寺广义相对论位 | 公众号 QbitAI
用三幅人工神经互联(GNN)做CV的研究成果有不少,但并不一定是围绕点云数据集做文章,为数不多同样处理三幅像数据集的。
其实与CNN把一张三幅片视作一个交叉、Transformer把三幅片拉直成一个数列来得,三幅方法越来越适合学习不规则和复杂物体的特性。
现在,之前科院与华为方舟研究团队等提出一种全都新的骨干互联,把三幅片表示成三幅结构上数据集,让GNN也能顺利进行经典CV三大训练任务。
学术论文一出,立即引起GNN学者广泛关注。
有人认为GNN行业积累多年的技巧都将涌入这一新方向,造成一波研究成果热卖。
该来的总要来的。
新驱动程式ViG名称上致敬了ViT,学术论文标题也改用同一句式,点出了核心思想:
An Image is Worth Graph of Nodes在研究成果团队也许,三幅结构上是一种越来越统一标准的重构。甚至交叉和数列可以当作三幅结构上的亦然,用三幅结构上来做光影认知则会越来越加灵活。
三幅数据集由键值和边组成,如果把每个分辨率都看作键值计算出来难度过于大了,因此研究成果团队改用了肉丝(patch)方法。
对于224x224分辨率的三幅像,每16x16分辨率为一个Patch,也就是三幅数据集之前的一个键值,总共有196个键值。
对每个键值关键字他们靠近近来的键值构成边,边的使用量随互联深度而缩减。
整整,互联驱动程式划分两部分:
一个三幅时域互联(GCN),统筹处理三幅数据集、聚合紧邻键值之前的特性。
一个前馈人工神经互联(FFN),结构上非常简单是两个全都连接层的MLP,统筹特性的转换。
习惯GCN则会消失所致平滑震荡,为彻底解决这个问题,团队在三幅时域层前后各缩减一个时域层,三幅时域层后再缩减一个作用于函数。
实验表明,用上新技术,当层数大多时ViG学习到的特性则会比习惯ResGCN越来越为独有。
同算力效率下不输CNN和ViT为了越来越准确评估ViG的性能指标,研究成果团队设计者了ViT常用的纯结构上(isotropic)和CNN常用的穹顶结构上(Pyramid)两种ViG互联,来分别做对比实验。
纯驱动程式ViG划分前面三种规格。
与少见的纯结构上CNN、ViT与MLP互联来得,ViG在同等算力效率下ImageNet三幅像分类的体现越来越好。
穹顶结构上的ViG互联说明设置如下。
同等算力效率下,ViG也与最先进的CNN、ViT和MLP来得,性能指标也能突破或体现相当。
在远靠近监测和重构重叠测试上,ViG体现也与同等规模的Swin Transformer相当。
之后,研究成果团队决心这项工作能作为GNN在统一标准光影训练任务上的基础驱动程式,Pytorch发行版和Mindspore发行版代码都则会分别源代码。
学术论文接收者:
源代码接收者:
昆明看白癜风去哪家医院最好苏州皮肤病医院怎么样
长沙妇科医院预约挂号
天津肛肠治疗费用是多少
南昌看白癜风哪个医院好

-
弘业期货(03678.HK)拟3月29日闭幕董事会会议审核年度业绩
赫特----3月初15日丨弘业期货03678.HK公告,董事会会议将于2022年3月初29日星期一出席,藉以其中包括审议及批复美国公司及其附属美国公司截至2021年12月初31日止年
- 欧洲煤炭价格飙涨34% 普京称向欧洲供应煤炭将用卢布结算
- 外国人在上海:奔跑的“海大白”
- 普京并称“不友好”国家必须用卢布支付俄天然气 卢布升至俄乌战事以来新高
- 算命先生:旺夫兴家,娶回家或许迟早翻身的生肖女!
- 阿里健康(00241.HK)授出75万份认股权及214.4万个受限制股份该单位
- 一文带你了解北上广浅校长教师轮岗制,如何轮?谁去轮?轮多久?学区房将成为历史?
- 大唐新能源(01798.HK)2月完成发电量213.25万兆瓦时 累计减少11.84%
- 3月24日外汇交易提醒:美元暴跌欧元下跌,商品货币继续走强
- 12月10日-12月15日,桃花不断,生财有道,收获欣桃花的4大生肖
- 信能低碳(00145.HK)假3月25日举行董事会会议审核年度业绩