专业生产加工电缆支架涂塑电缆支架、包塑电缆支架、热镀锌电缆支架
咨询热线:13434928777
0851-84506796
常见问题

当前位置:365体育 > 新闻资讯 > 常见问题 >

超越MnasNetProxyless:小米开源全新神经架构搜索算

2019/08/19  浏览次数:

  

超越MnasNetProxyless:小米开源全新神经架构搜索算法FairNAS

  小米 AI 实验室的研究人员在严格遵循定义 3 的前提下,提出一种公平采样和训练算法(见 Algorithm 1)。他们使用没有替换的均匀采样,电缆支架在正常与其它情况下皆可使用!,在一步中采样 m 个模型,使得每个选择块在每次更新时都被激活,参见下图 2: 为了消除这种疑问,小米 AI 实验室 AutoML 团队的成员提出了一种全新方法——Fair Neural Architecture Search (FairNAS),出于公平继承和训练的目的,该方法遵循严格的公平性约束。使用该方法,超网络训练收敛效果很好,且具备极高的训练准确率。与超网络共享权重的采样模型,在充分训练下的性能与独立模型(stand-alone model)的性能呈现出强烈的正相关。该结果大大提升了搜索效率,并且通过一个多目标强化演化搜索后端,研究人员提出的 pipeline 在 ImageNet 数据集上生成了一组新的 SOTA 架构:FairNAS-A 在 ImageNet 上实现了 75.34% 的 top-1 验证准确率,FairNAS-B 的验证准确率为 75.10%,FairNAS-C 为 74.69%,并且与其他架构相比,multi-adds 更低,参数也更少。 尽管 one-shot 方法极大地加速了估计,但研究人员仍然面对多个现实约束以及广阔的搜索空间,于是研究人员选择多目标 NAS 方法 [5] 来解决这个需求。 研究人员将这种减少此类偏差的直接和基本要求称之为 Expectation Fairness,其定义如下: 遵循严格公平性(strict fairness),强化 one-shot 方法; 搜索空间:搜索空间基于 MobileNetV2 的 inverted bottleneck 模块设计 [4],保留了标准 MobileNetV2 [18] 的层数,搜索空间共包含 6^16 个子模型。 研究人员基于公平性的定义进一步对比了不同的神经架构搜索方法,如下表 1 所示: 在某种程度上,所有 one-shot 方法都是预定义搜索空间中任意单路径模型的不同性能预测器代理(proxies for performance predictor)。好的代理不能过度高估或低估模型得分。而目前还没有人对该主题进行深入的研究,并且以往多数研究仅仅侧重于搜索得分较好的几个模型。 表 2:不同移动模型在 ImageNet 数据集上的性能对比。输入大小为 224×224。 小米 AI 实验室表示,此项研究可为深度学习工程师武器库再添一大利器,目前该团队已开源了模型前向模型搭建及验证代码。 研究人员提出了用于公平采样和训练的更严格要求,称之为 Strict Fairness,其定义如下: 该研究考虑的三个目标是:准确率、multiply-adds 和参数,由于该研究局限于搜索仅适合特定设备的快速准确模型,因此实验中并未考虑延迟。 在超网络训练的每个步骤中,只有相应激活选择块(choice block)的参数能够得到更新。笼统来说,参数更新的目的是减少模型在小批量数据上的损失,因此它虽然能够帮助激活选择块得到比未激活选择块更高的分数,但同时也产生了偏差。 在严格公平性条件下,实验结果表明平均准确率呈稳步上升,没有出现振荡(见图 1); 为了减少超网络训练过程中的先验偏置(prior bias),研究人员定义了基本和直接的要求,如下所示: 使用该研究提出的 pipeline,可在 ImageNet 数据集上生成一组新的 SOTA 架构。 根据模型真实能力进行排序的能力是神经架构搜索(NAS)的关键。传统方法采用不完整的训练来实现这一目的,但成本依然很高。而通过重复使用同一组权重,one-shot 方法可以降低成本。但是,我们无法确定共享权重是否真的有效。同样不明确的一点是,挑选出的模型具备更好的性能是因为其强大的表征能力,还是仅仅因为训练过度。 数据集:所有实验均在 ImageNet [17] 数据集上进行。从该数据集训练集上随机选取 50000 张图像作为实验的验证集,训练集中的其余数据作为实验的训练集,原来的验证集作为测试集,用于衡量每个模型的最终性能。 如上图所示,实验结果表明,在严格的公平性约束下,one-shot 模型在 ImageNet 训练集上的平均准确率稳步提升,没有出现振荡。与 [2] 相比,one-shot 模型的分层样本的准确率范围大大缩小。这是一个重大进展,研究者在快速评估模型的同时也能保证准确性。 训练参数:使用 256 的批大小训练超网络,共训练 150 个 epoch。随机梯度优化器的动量是 0.9;使用余弦学习率衰减策略且初始学习率为 0.045;使用 L2 权重衰减 (4 × 10^(−5) ) 进行正则化。 图 2:该研究提出的 one-shot 架构和采样策略。所有运算都在一个特定步内进行同等地训练。 定义 3 施加了比定义 2 更严格的约束。定义 3 确保每个选择块的参数在任何阶段的更新次数相同,即 p(Y_l1 = Y_l2 = ... = Y_lm) = 1 在任何时候均成立。

  • 不锈钢工程有限公司  联系人:刘理; 
  • 电话:0211-8146796; 传真:0521-2501877
  • 手机:15359148777;   网址:www.sdjfwy.cn    
  • 地址:济南市历城区工业北路159-19号
  • 技术支持:企力网一站式网络营销推广方案
  • 备案号:鲁ICP备16041896号-2
  • 网站地图 /XML地图
网站声明:

本站部分素材搜集来源网络,如内容有侵权,请联系我司立即删除!本站内容按照相关法律法规进行编写;如有不当请联系我司立即删除!

在线客服