面向推理的深度模型量化压缩优化技术研究

731次阅读 2022-01-18

现状:
近年来,深度学习模型在CV、NLP等领域实现了广泛应用。然而,庞大的参数规模带来的计算开销、内存需求,使得其在计算能力受限平台的部署中遇到了巨大的困难与挑战。因此,如何在不影响深度学习模型性能的情况下进行模型压缩与加速,成为了行业研究热点。

需解决问题:
优化压缩技术可以减小深度学习模型对于计算时间和存储空间的消耗,减少内存占用。一个神经网络中不同层对量化的敏感度是不一样的,因此应对不同层使用不同的bit-width,然而为每层找寻最优的bit-width是一个组合优化问题,其搜索空间是随着层数的增加指数增加的。在一个训练好的网络基础上,如何找到最优的量化参数是需要解决的关键问题之一;同时,对于量化目标对象,其分布影响着量化的效果,如何让量化目标对象的分布变得更适合量化是需要解决的另一关键问题。

达到的指标:
1、模型压缩优化的量化尺度分析,探索合适的量化参数方法,包括基于统计近似的方法、基于优化的方法和基于可微分的方法,形成三种量化参数方法的分析报告;
2、混合精度量化方案设计,项目需要将推断中的浮点数运算量化为整数运算,最终将权重和激活函数量化为8-bit整数,只有一小部分参数(偏差向量)为32-bit整数,并在训练过程中引入伪量化的操作,用于模拟量化过程带来的误差,以使权值、激活值的分布更加均匀,方差更小。

企业信息
  • 企业名称: 江苏中科梦兰电子科技有限公司
  • 联系人: 郭梦娜
  • 联系电话: 0512-83861189
  • 所属领域: 新能源