ISSCC2017之深度学习处理器

ISSCC2017之深度学习处理器

前言

   深度学习的兴起,广泛应用到高精度认知识别应用场景,在视觉认知任务中实现接近人类的水平。然而,深度神经网络的计算复杂性限制了资源及计算能力有限的嵌入式移动或可穿戴设备的应用场景。今年,ISSCC2017会议上深度学习处理器的能耗比达到了TOP/W级别,带来了在电量有限的可穿戴设备上实现深度学习的希望。能耗比的大幅提高得益于创新的内存组织,更小的量化比特,和近似、容错数据通路结构。从图1可以看出比起2016年最好的深度学习处理器,今年的峰值性能与能耗比高了几个数量级。受益于能耗比的大幅提高,几个认知应用论文在会议中出现。同时,层次化的唤醒方案(根据任务的复杂性自动调整电压,频率,休眠与工作)加强了低功耗嵌入式认知任务的应用。

图1-深度学习处理器的吞吐量和能耗

1 A 2.9TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28nm for Intelligent Embedded Systems

摘要

   《一款针对智能嵌入式系统、28nm制程、能耗比达到2.9TOPS/W的深度卷积神经网络SOC芯片》的作者是意法半导体公司。为了将计算机视觉、语言识别等技术应用到移动或可穿戴设备上,硬件加速器对于有限资源、有限能量、有限内存,同时需要实时处理的嵌入式平台扮演者关键的角色。为了,解决这一问题,论文提出并实现了一种高能耗比的深度卷积神经网络(DCNN)硬件处理器,如图2所示。同时该处理器已流片,制程28nm,在200MHZ的工作频率下峰值性能到达2.9TOPS/W。

图2-论文SOC顶层结构

论文主要贡献

  1. DCNN加速器支持卷积核压缩,提高数据传输效率。
  2. 片上可重构数据传输部件,以提高数据重用率,减少片内片外内存的数据拥堵
  3. 高效率的数字信号处理模块簇(DSPs),支持完善的视觉处理应用
  4. 片内多链路设计,将多个加速器配对在一起,提高计算并行性

点评

   由于深度神经网络参数大、层数多、卷积内核大小不固定,一直是深度学习加速器设计上的一大难点。这篇论文利用卷积核压缩技术减少访存,使用片上峰值8Gb/s的高速串行链(Serial Links)在不牺牲芯片吞吐量的情况下支持大规模的神经网络。同时论文利用多链路设计,将多个加速器分组配对,能够支持众多大小的卷积核和提高计算的并行度。论文实现的深度学习处理器在8bit量化方案下精度误差只有0.3%的损失(与软件相比),能耗比高达2.9TOPS/W,比去年最好的加速器性能超出很多。

2 DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Processor for General-Purpose Deep Neural Networks

摘要

   《DNPU:能耗比高达8.1TOPS/W的可重构RNN-CNN通用深度神经网络处理器》的作者是韩国科学技术院的Dongjoo Shin。卷积神经网络(CNN)主要用于视觉认知任务,而递归神经网络(RNN)适用于与时间相关的任务(视频处理,语言识别等)。结合CNN和RNN就可以做更复杂的任务,比如动作和手势识别、图片或视频字幕添加等。然而,目前还没有能同时计算CNN和RNN的深度学习处理器。所以针对这一点,论文提出并实现了一种可重构、高能效比的RNN-CNN处理器,以支持更加通用的神经网络应用。该处理器基于65nm制程,实现8.1TOPS/W的性能,top1精度高达66.3%

图3-RNN-CNN深度学习处理器架构

论文主要贡献

  1. 以CNN和全连接-RNN为基础的可重构异构体系结构,支持更通用的深度学习计算
  2. 可重构乘法器,支持动态的定点计算,同时乘法器支持片上自适应和溢出监控技术,提高卷积核的重用效率
  3. 提出基于Q值表矩阵乘法,减少片外访存

点评

   这篇论文同时支持CNN以及RNN,实现更加通用的神经网络加速器,丰富了深度学习处理器的应用场景,对于时间依赖的视频处理,语音识别等应用也能有用武之地。同时,支持动态定点的乘法器以及基于Q值表的矩阵乘法,使芯片拥有良好的量化解决方法,在减少访存,提高计算性能,降低功耗上起重要作用。论文提出的处理器能耗比达到惊人的8.1TOPS/W,可以称得上目前最强深度学习处理器之一。

3 A 28nm SoC with a 1.2GHz 568nJ/Prediction Sparse Deep-NeuralNetwork Engine with >0.1 Timing Error Rate Tolerance for IoT Applications

摘要

   《一款应用物联网,制程28nm、1.2GHz频率,性能预测比568nJ/P,10%时序容错的深度神经网络处理引擎》是哈佛大学工程与应用科学学院的Paul N. Whatmough提出的论文。机器学习(Machine Learning)增强了物联网设备通过传感器系统从真实的、嘈杂的世界里提取有用数据的能力。实现高能效比,处理机器学习任务的设备需要高效的专用数字电路硬件设计技术。
同时,机器学习算法拥有显著的固有容错系统,类似一个能错误校正的Razor系统。论文从容错的角度出发,提出一款可编程全连接-深度神经网络(FC-DNN)SOC系统。该处理器基于28nm制程,MNIST测试集识别精度高达98.36%,同时具有10%以上的时序容错系统,一次识别或预测只消耗568nJ的能量。

图4-FC-DNN处理SOC系统

论文主要贡献

  1. 探索神经网络的稀疏性,消除不必要计算,减少了4倍的功耗
  2. 使用时间借用技术(Time-Borrowing)提高电路级别的时序容错性

点评

   当前神经网络处理器主要从计算的复杂性和访存量大的特性去设计芯片,这篇论文以神经网络的容错特性的角度去研究深度学习处理器。通过追踪非零值时序错误率,计算、电压、温度、老化(PVTA)可以随着时间变化被动态补偿;利用它们的相关性可以恢复时序。论文充分开发电路的时序容错特性,可以提高处理器的识别正确率。

4 A Scalable Speech Recognizer with Deep-NeuralNetwork Acoustic Models and Voice-Activated Power Gating

摘要

   《一款具有深度神经网络声学模型和电源门控激活系统的可扩展语音识别器》的作者是MIT的Michael Price。语音识别技术常用于搜索引擎和个人助理,目前可穿戴设备,电器及机器人上的语音识别技术正处于多元化发展。自动语音识别(ASR)硬件加速器适用于多个场景,但受限于功耗,系统复杂性以及计算延迟。目前,语音唤醒机制,比如语音活动检测器(VAD),可以作为电源门控激活语音系统。如图5所示,论文提出一种VAD自动语音识别系统,在识别精度、可编程性、扩展性上有一定提高。该系统在WSJ eval92-5k任务上识别错误率只有3.12%,功耗低至1.78mW.

图5-自动语音识别系统

论文主要贡献

  1. 由于语音识别是低占空比操作,所以片外使用非易失性内存
  2. 使用SIMD结构,提高并行度;支持语音模型的压缩传入,在线解压,减小参数规模,降低访存
  3. 每个计算单元(EU)有足够的片上内存放下1k隐含层结点,配合稀疏矩阵乘法,可以减少54%的内存带宽需求
  4. 利用语言活动检测器(VAD)控制电压,频率的变化以及系统的休眠唤醒,大幅降低系统功耗

点评

   这篇论文实现的处理器集成了语音采样系统,语言活动检测器,声学模型,神经网络计算系统,分类器;可以实现完整的语音识别应用。同时VAD技术的应用,系统可以根据使用语音识别的频率调整电压,频率等参数,使处理器的功耗低到1.78mW,完全可以应用到嵌入式移动设备或可穿戴设备当中。

5 ENVISION: A 0.26-to-10TOPS/W Subword-Parallel Dynamic-Voltage-Accuracy-Frequency-Scalable Convolutional Neural Network Processor in 28nm FDSOI

摘要

   《ENVISION:一款28nm制程,能耗比10TOPS/W,电压精度频率动态可调整的卷积神经网络处理器》的作者是比利时鲁汶大学的Bert Moons。目前,增强现实等应用需要可穿戴设备一直保持视觉处理状态,然而卷积神经网络的计算需要大量的数据移动和巨大的计算规模,这对于可穿戴设备来说能量消耗难以承受。针对这一问题,论文提出层次化认知处理的概念(如图6所示),并实现一款能耗比高达10TOPS/W,可以持续视觉处理的卷积神经网络处理器-ENVISION。

图6-层次化视觉处理

论文主要贡献

  1. 层次化处理视觉任务,适用各种对处理速度,精度,功耗要求不同的应用场景
  2. 子字并行(Subword-Parallel)级动态电压、精度、频率调整方案(DVAFS),提高能耗比

点评

   深度学习应用场景众多,不同的应用场景对速度,精度,功耗要求不一致。语言识别要求计算速度快,精度高,但不会一直处理;AR应用要求持续视觉处理,但对帧率与精度要求不那么苛刻。所以这篇论文利用DVAFS电路优化技术,在不同的应用场景使用不同的速度,精度,功耗方案,这使得深度学习处理器的应用场景得到极大的丰富。

6 A 0.62mW Ultra-Low-Power Convolutional-NeuralNetwork Face-Recognition Processor and a CIS Integrated with Always-On Haar-Like Face Detector

摘要

   《一款集成实时哈尔特征检测器的超低功耗卷积神经网络人脸识别处理器》是韩国科学技术院的Kyeongryeol Bong所写。实时人脸识别(FR)被认为是下一代可穿戴设备的UI/UX趋势。如图7的人脸识别系统不断发展,作为生命分析仪或者个人助理盒子,不断记录我们遇到的人以及时间地点信息。由于可穿戴设备受限于低电量电池,要求人脸识别系统在维持相同精度的同时有最低的功耗。之前的人脸识别加速要么精度很低要么功耗很高,针对这一问题,论文提出一款集成实时哈尔特征检测器的超低功耗卷积神经网络人脸识别处理器。该处理器实现在LFW数据集上精度达到97%,功耗低至0.62mW。

图7-人脸识别系统

论文主要贡献

  1. 集成模数混合的哈尔特征检测器(HHFD),低功耗地检测人脸特征
  2. 片上分布式内存,超低功耗的卷积神经网络处理单元(DM-CNNP)
  3. 独立的卷积层滤波逼近器(SF-CONV)和转置读的SRAM(T-SRAM),用于低功耗的CNN计算

点评

   论文处理器集成320*240分辨率的图像传感器,哈尔特征检测器,CNN计算单元。利用模数的哈尔检测器能够做到实时检测人脸特征,使用SF-CONV和T-SRAM,简化卷积核计算,误差精度低于1%。同时使用电路优化技术AHFC和DHFC,降低图像传感器的功耗以及减少60%的初始化时间。论文的设计结构值得借鉴,在面向移动端的嵌入式人脸识别场景有一定的应用场景。

7 A 288μW Programmable Deep-Learning Processor with 270KB On-Chip Weight Storage Using Non-Uniform Memory Hierarchy for Mobile Intelligence

摘要

   《一款使用非统一内存层次、片上权重存储270KB,功耗288uW的移动智能深度学习处理器》的作者是密歇根大学的Suyoung Bang。最近,深度学习用于移动物联网设备,实现边缘设备从海量数据中转发有意义的事件。这种层次化的智能技术通过协同计算性能和边缘设备的通信来增强无线带宽、提高能耗比。由于许多移动应用是实时工作的,能耗问题受到挑战。这篇论文实现了一款低功耗,可编程的深度学习处理器(图8所示)。该处理在40nm制程下,实现374GOPS/W的能耗比,最低功耗只有288uW。

图8-深度学习处理器系统

论文主要贡献

  1. 所有数据放在片上内存中,消除额外的数据搬移开销
  2. 非统一层次的内存系统,协调小规模、低功耗,频繁使用的数据和大规模,高密度,高能耗的数据,利用数据的空间与时间特性,减少数据移动,降低功耗
  3. 为DNN计算定制的0.6V 8T内存,具有顺序访问模式,逐区休眠控制模式(bank-by-bank drowsy mode control),电源门控激活模式,电压钳位模式;通过这一系列电路优化技术,降低功耗

点评

   与第四篇论文类似,这篇论文通过片上内存系统及一系列电路优化技术,实现低功耗的深度学习处理器,可以看出,当前嵌入式深度学习系统的主要挑战及研究方向着重于功耗方面。相信这些电路优化技术能够对这一研究起促进作用。

总结

   针对嵌入式设备的深度学习处理器成为今年的研究热点,从应用多样化角度设计更通用的神经网络处理器(CNN-RNN);考虑特定应用(人脸识别)研制集成图像传感器、特征检测器,神经网络计算单元的处理器;利用时间借用技术、层次化唤醒技术、DVAFS,容错等电路优化技术去降低芯片功耗;探索神经网络的稀疏特性,使用稀疏矩阵乘法,Q值矩阵乘等技术提高卷积的计算速度和并行性。今年深度学习处理器是ISSCC的研究热点(论文有7篇),同时我们可以看出神经网络加速器的研究不局限于卷积计算体系结构的优化,同时研究热点转向嵌入式可穿戴设备应用,及相关的低功耗优化电路技术。经过几年的发展,当前深度学习处理器的研究已经达到一个顶峰,未来几年必将是深度学习处理器用于实际产品,走向我们生活的一个新阶段。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.