Skip to content

Latest commit

 

History

History
137 lines (110 loc) · 26 KB

2021-10-13.md

File metadata and controls

137 lines (110 loc) · 26 KB
layout
default

嵌入式AI简报 (2021-10-13):A15评测/壁仞流片/RISC-V矢量扩展Zve/ECBSR/MobileHumanPose/推理性能探讨/性能优化与TMAM

关注模型压缩、低比特量化、移动端推理加速优化、部署

导读:【新闻】RISC-V 基础指令集将扩展实现更小设备的矢量数学处理、苹果A15芯片评测CPU大幅升级、壁仞首款高端通用计算 GPU BR100 芯片交付流片、华为昇腾新发CANN5.0性能提升;【论文】MobileHumanPose装在手机里的三位姿态估计又快又好、利用一二阶梯度信息的移动端超分网络结构 ECBSR、汇聚工业界涨点技巧的PPLCNet网络;【开源】、OpenCV4.5.4发布对RISC-V优化等、百度飞桨接入海光人工智能加速支持训练与推理、OPEN AI LAB 发布基于 mediapipe 的 TengineInferPipe、Face++ 发布 MegFlow 提供快速视觉应用落地流程;【博文】深度学习编译优化之长尾算子生成、模型大小与推理速度的深度讨论、C/C++性能优化方法论TMAM、模型知识蒸馏的本质探讨。

好了,先是一些热身小新闻ヽ(✿゜▽゜)ノ:

  • 荣耀:与谷歌恢复合作,海外新机型获 GMS 授权,其中HONOR 50系列海外版本将预装Google Mobile Services(GMS);
  • 三星:14纳米EUV DDR5 DRAM正式量产。继去年3月推出首款EUV DRAM后,又将EUV层数增加至5层,为其DDR5解决方案提供当下更为优质、先进的DRAM工艺;将会是全球第一家量产 Gate All Around FET(GAA)架构的半导体厂,第一个 3GAE(3nm Gate-All-Around Early)技术预计 2022 年量产;三星将量产特斯拉的新型自动驾驶 5nm 芯片,早先于今年1月特斯拉已与三星合作研发;
  • 芯源微:成功竞得上海自贸区临港新片区前沿装备产业区04PD-0303单元J12-03B地块,面积为30013.2平方米,建成后将集研发、办公、实验、生产等功能;
  • 联发科技:迅鲲™ 系列移动计算平台的又一个新成员900T,6nm 工艺,CPU 2 x A78 + 6 x A55,GPU Mali-G68,AI 处理器 MediaTek APU,支持 LPDDR5 内存和 UFS 3.1 存储,可适配 2K 分辨率 120Hz 刷新率屏幕 ,相关平板近期上市;在今年底或明年初推出一款新顶级旗舰芯片——天玑2000,预计整体功耗比骁龙898可能低20%到25%,天玑2000有望搭载Cortex X2、A79架构,GPU也会配备G79架构,台积电4nm工艺;
  • 紫光展锐:发布新一代 4G 平台T616和T606。T616是一款影像能力进一步提升,基于DynamIQ新一代大小核架构设计,2xA75@2.0Gz + 6xA75@1.8GHz + Mali G57 GPU。T606注重性能与能耗的均衡,同样基于DynamIQ新一代大小核架构设计,12nm 工艺的 2 x A75@1.6GHz + 6 x A55 ;
  • 黑芝麻智能:完成数亿美元的战略轮及C轮两轮融资。战略轮由小米长江产业基金、富赛汽车等参与投资。融资用自动驾驶平台的研发、人才、市场拓展。目前已基于两大核心自研IP(NeuralIQISP图像信号处理器及高性能深度神经网络算法平台DynamAI NN引擎)开发了多款自驾芯片、计算平台等;
  • 毫末智行:推出针对高速、城市快速路的领航辅助驾驶方案,孵化自长城汽车。采用1个摄像头和5个毫米波雷达方案,另一套追求安全为14颗摄像头+5个毫米波雷达+2个激光雷达方案,结合高精地图如高德,也在尝试与腾讯地图合作;
  • 亚马逊:推出四核 AZ2 AI芯片,可让 Alexa 捕捉用户面部并显示个性化推荐、日历、待办事项列表等;
  • 台积电:高雄建厂已有初步规划,包括第一期月产能4万片 7/6nm 晶圆厂,及第二期月产能2万片的 28/22nm 晶圆厂。若投资确认,第一期建厂完工时间2024年,2025年进入量产;
  • 英特尔:计划在欧洲建立的晶圆厂,长达10年多的芯片制造项目可能于2022年开始动工,最早将在2020年中期投产。最终可能耗资950亿美元。预计直接雇用超 10,000 人+支持该地区 90,000 个工作岗位;
  • 瑞萨电子:计划到 2023 年将其汽车和电子产品关键部件的供应能力提高 50% 以上,主要通过在芯片代工厂获得更多的外包生产线;
  • 高通:与私募基金 SSW Partners 合作,以总价 45 亿美元对 ADAS 技术商 Veoneer 达成最终收购协议。明年,高通 SnapdragonRide 自动驾驶平台将量产装车;
  • 格芯:准备在纽约首次公开募股筹资约10亿美元,押注半导体“本土化”趋势将帮助其赢得客户和投资者;
  • 英伟达:被迫提出让步以 540 亿美元收购 Arm ,声明:“我们正在通过监管程序,期待与欧盟委员会合作解决他们可能的问题。这笔交易将有利于 Arm、其被许可方和这个行业”;
  • 索尼:携手台积电,投资70亿美元在日本西部联合建设一家半导体工厂;
  • 苹果:正准备 M1 芯片的高端版本 M1X 。假设新品中有两种 M1X 的变体,代号分别为 Jade C-Chop 和 Jade C-Die。前者将提8个高性能内核、2个高效内核和 16 个图形内核。后者将采用相同的配置,但图形内核的数量将增加到 32 个,M1X 相比 M1 是核心数量的提升,可能达到 Nvidia RTX 3070(移动)的图形性能水平;
  • 谷歌:将生产自己的电脑芯片,从 2023 年开始,这些芯片将为运行专有 Chrome 操作系统的笔记本电脑和平板电脑配备;
  • 商汤:向港交所递交IPO申请。招股书显示,商汤近三年半累计扣非净亏损242亿元。

注:个别链接打不开,请点击文末【阅读原文】跳转。

业界新闻

  • RISC-V 基础指令集将扩展:将向量扩展的强大功能带到小型设备上 | 半导体行业观察
    摘要:RISC-V 将被扩展,目的实在更小的嵌入式设备和微控制器提供矢量数学处理。Zve 扩展可用于音频、语音或图像处理等应用,类似于智能手机中的数字信号处理器处理的应用。例如,Zve 扩展可用于制造智能扬声器芯片。可以说,竞争对手的架构如 Arm,也为 CPU 内核提供向量指令。
    SiFive 已经提供支持上述更大 RVV 矢量扩展的产品。与 full-bore SIMD(单指令多数据)相比,Zve 方法更优雅、更高效,类似在 x86 处理器,Prior 说。他将 RISC-V 的矢量运算方法比作 1970 年代的 Cray 超级计算机。Microchip 的 Speers 表示,RISC-V 为高端设备创建矢量化编译器和库的努力也可以应用于 Zve,这使得编写满足全方位计算性能需求的软件变得容易。
  • 苹果A15芯片评测:CPU 和 GPU 提升惊人 | anandtech 半导体行业观察
    摘要:今年苹果在 A15 的公关方面有点奇怪,官方避免将新芯片与 A14 等任何世代比较。与过往不同的是,Apple 今年更喜欢与友商环境的比较中描述新 SoC;虽然这在 Mac 方面并不罕见,但在今年 iPhone 发布会上。关于 A15 的几个具体事实是,Apple 正在为其 CPU 使用新设计、更快的神经引擎、新的 4 核或 5 核 GPU(取决于 iPhone 版本),以及全新的显示pipeline 和视频媒体硬件块编码和解码,以及新的 ISP 改进以提高相机质量
    本文作为对新 SoC 的初始评测,重点关注在新芯片的性能和效率指标
    1. 频率提升:3.24GHz 性能核和 2.0GHz的效率内核;
    2. 巨型缓存:性能 CPU的 L2 增加到 12MB,SLC 增加到 32MB。Apple 的 SLC 可能是芯片能效的关键因素,能够将内存访问保持在同一个硅片上,而不是使用速度更慢、功率效率更低的 DRAM。我们已经看到更多 SoC 供应商采用了这些类型的最后一级缓存,但在 32MB 的情况下,新的 A15 使竞争对手的实现相形见绌,例如骁龙 888 上的 3MB SLC或 Exynos 2100 上估计的 6-8MB SLC ;
    3. CPU 微架构变化:缓慢迭代一年?更温和的微架构变化的可能是几个原因造成的,1. 首席架构师(Nuvia)离职;2. 向 Armv9 的转变可能意味更多工作;3. 疫情。等到明年的 A16,才能真正确定 Apple 的设计节奏是否已经放缓,或者这是否只是一个节点。
    4. GPU 性能:出色的 GPU,一般般的散热设计。在这一代的A15 芯片上,GPU的配置很有趣,这是苹果第一次在 iPhone 设备范围内对其 SoC 上的 GPU 配置进行功能分割。在微架构变化方面,新的 A15 GPU 似乎采用了与 M1 GPU 相同的双倍 FP32 吞吐量,似乎在现有的 FP32/双倍速率 FP16 ALU 旁边增加了额外的单元。增加的 32MB SLC 也可能对 GPU 带宽和hit-rates有很大帮助。
  • 壁仞科技首款高端通用 GPU 芯片交付流片 | 壁仞科技
    摘要:首款通用GPU——BR100,于近日正式交付开始流片,预计明年市场发布。GPU——BR100,性能参数直接对标当前国际最领先的同类产品,具有高算力、高通用性、高能效三大优势,采用 7nm 制程工艺,完全依托壁仞科技自主原创的芯片架构。
    搭载 BR100 芯片的系列通用计算产品,主要聚焦于人工智能训练和推理、通用运算等众多计算应用场景,将弥补人工智能应用的高速发展带来的巨大算力缺口,可广泛应用于包括智慧城市、公有云、大数据分析、自动驾驶、医疗健康、生命科学、云游戏等领域。
  • 华为昇腾:2.69分钟完成BERT训练!新发CANN 5.0加持,还公开了背后技术 | 量子位
    摘要:昇腾选择用图计算的原理,分析集群训练的流水线分布、内存分配,针对不同机器的特点进行了架构上的设计,合理分配各个节点中的内存和通讯时间,来提高机器整体的计算效率。CANN 5.0版本在性能优化上,主要自研了4点技术
    1. 任务自动流水:数据加载是因为硬件需要一定的时间来“反应”,包括加载计算指令等,但在数据量大的情况下,这显然会极大地延缓整体计算时间。5.0实现了计算指令和数据载入的多流水并行,载入数据满足分段数据量时,不仅启动后续计算逻辑、还保持数据继续载入,进一步“压榨”硬件处理器的并行计算能力,实现任务衔接;
    2. 算子深度融合:算子是支持AI模型训练与推理的基本运算单元及组合,异构计算架构基本都要有自己的算子库。5.0版本重新定制了更灵活的算子融合规则,通过多个算子自动融合提升模型训练效率
    3. 自适应梯度切分:该技术是华为针对集群训练提出的智能梯度切分算法,具体针对模型训练中的迭代计算进行了优化。CANN 5.0能通过智能梯度切分算法,自动搜索出最优梯度参数切分方式,让计算和通信进一步并行执行,使得通信拖尾时间降至最低、梯度调优时间降低90%
    4. AutoTune智能计算调优:不同的AI模型,如果架构只用一种方式进行计算分配的话,势必会造成不适配的情况。因此,CANN 5.0研究出了智能数据切分技术,提出最优切分策略,确保每个计算单元被充分利用,平均性能提升30%以上。5.0版本也预置了海量模型优化,能极大地缩短开发者的调优时间。
      正是这些技术优势,让华为在AI性能提升上,拥有了更多的底气。此外,相比于昇腾CANN 3.0,“跨代”的5.0版本带来三大优势:1. 性能:AI模型训练/推理性能大幅提升,用时更短;2. 功能:推理引擎ATC Suite1.0首次发布,AI模型推理性能更高、功能更全面;3. 便捷性:代码开发和调试进一步简化,包括支持混合编程等,使用门槛更低。

论文

  • [2109.15099] PPLCNet:CPU 端强悍担当,吊打现有主流轻量型网络,百度提出 CPU 端的最强轻量型架构 | AIWalker
    文章:https://arxiv.org/pdf/2109.15099.pdf
    代码: https://github.com/PaddlePaddle/PaddleClas
    摘要:自从 ResNet 以来,无论是轻量型还是高性能网络均重度依赖跳过连接、残差连接这种机制。反而像MobileNetV1这种非常简单模型的性能提升鲜少有学者进行深入研究。这篇文章是看不到创新,但工程性的梳理太令人钦佩了。
    本文提出一种基于MKLDNN加速的轻量CPU模型PP-LCNet,多任务上改善了轻量型模型的性能本文列举了一些可以提升模型精度且保持延迟几乎不变的技术,基于这些改进,所提PP-LCNet可以凭借同等推理速度大幅超过其他已有网络。 在图像分类任务方面,所提PP-LCNet在推理延迟-精度均衡方面大幅优于ShuffleNetV2、MobileNetV2、MobileNetV3以及GhostNet;在其他下游任务(如目标检测、语义分割等),所提方案同样表现优异:
    1. 激活函数:采用H-Swish替换BaseNet中的ReLU,性能大幅提升,而推理速度几乎不变
    2. SE模块的位置:将SE模块添加到接近网络尾部的模块 ,这种处理方式具有更好的精度-速度平衡。注:SE模块采用了与MobileNetV3相似的机制:SE中的两个激活函数分别为SE和H-Sigmoid
    3. 大卷积核:卷积核的尺寸通常会影响模型最终的性能,MixNet的作者分析了不同尺寸卷积对于网络性能的影响并提出了混合不同尺寸的卷积核,然而这种操作会降低模型的推理速度。我们尝试仅使用一个尺寸的卷积,并在低延迟&高精度情形下使用大尺度卷积核。类似SE模块的位置,在网络的尾部采用卷积核可以取得全部替换相近的效果。因此,我们仅在网络的尾部采用了较大的 5x5 卷积
    4. 全局平均池化后的高维卷积:在本文所提PP-LCNet中,GAP后的输出维度比较小,直接添加分类层会有相对低的性能。为提升模型的强拟合能能力,我们在GAP后添加了一个1280维的卷积,它仅需很小的推理延迟即可取得更强的性能
  • [1709.05943] Fast YOLO:用于实时嵌入式目标检测 | 计算机视觉研究院
    文章:https://arxiv.org/abs/1709.05943
    摘要:这篇文章翻译的不好,看看思想吧。
    提出的Fast YOLO框架分为两个主要部分:第一,优化的YOLOv2 backbone架构第二,运动自适应推理并非所有捕获的视频帧都包含被检物体,因此不需要对所有帧进行深度推理。对于每个视频帧,由带有参考帧的视频帧组成的图像,传递到1×1卷积层,该卷积层的结果是一个运动概率图,再送入运动自适应推理模块以确定是否需要推理来计算更新的类概率图
  • [CPVR2021] MobileHumanPose:装在手机里的3D姿态估计,模型尺寸仅同类1/7,平均关节位置误差却只有5厘米 | 量子位
    文章:https://openaccess.thecvf.com/content/CVPR2021W/MAI/html/Choi_MobileHumanPose_Toward_Real-Time_3D_Human_Pose_Estimation_in_Mobile_Devices_CVPRW_2021_paper.html
    代码:https://github.com/SangbumChoi/MobileHumanPose 摘要:三维姿态估计需要平衡精度和计算量,本文提出的 MobileHumanPose 可以同时做到又块又好。其模型的尺寸只有ResNet-50的模型的1/7,算力达到了3.92GFLOPS。且平均每关节位置误差(MPJPE),也只有大约5厘米。
    该模型是一个从基本的编码器-解码器结构改良得来的模型。编码器用于全局特征提取,而解码器进行姿态估计的基础架构上,研究团队对其主干网络、激活函数,以及Skip concatenation功能都进行了修改:团队选择的主干网络是 MobileNetV2 ,在其前四个倒置残差块(Residual Block)处修改了通道大小,激活函数采用 PReLU ,获得了性能提升。但考虑到推理速度,团队使用Skip concatenation结构。这一结构能从编码器到解码器中导出低级别特征信号(Lowlevel feature signal),不会降低性能。
  • ECBSR:移动端超分的磁悬浮,推理仅需10ms!港理工&达摩院开源超轻量超分网络ECB | 极市平台
    文章:https://www4.comp.polyu.edu.hk/~cslzhang/paper/MM21_ECBSR.pdf
    代码:https://github.com/xindongzhang/ECBSR
    摘要:本文是香港理工&达摩院张磊团队在移动端超分 方面的工作,已被ACM-MM2021接收。本文将low-level领域知识与重参数(推理时,多个卷积融合)思想进行了巧妙结合,提出了一种新颖的模块:Edge-oriented Convolution Block(ECB) 。在low-level领域,图像的梯度是非常重要的一个考虑,如何有效提升生成图像的边缘锐利度一直是业界的关注点。ECBSR就巧妙的就一阶梯度与二阶段梯度进行了结合。 Base Model采用DESR架构,卷积仅采用3x3和1x1,ECB模块对那个五个分支依次为:conv3x3;conv1x3->conv3x3;conv1x1->Sobel-Dx;conv3x3->Sobel-Dy;conv1x1->Laplacian,研究表明:边缘信息对于超分任务非常有用 。不同于SPSR的显式利用梯度信息,我们采用隐式方式将Sobel梯度集成到ECB模块的第三与第四分支,最后的laplacian滤波器提取了二阶梯度,特征更稳定对噪声更鲁棒,采用Expanding-and-Squeezeing Conv带来的更宽的特征可以显著提升表达能力推理时,ECB模块里的6个卷积和梯度计算都可视为线性编号,可以完全融合为一个3x3卷积,以便于高效推理
    基于ECB构建了超轻量型且性能同样突出的ECBSR,在x4任务输出为1080p,硬件平台为骁龙865DSP上:
    1. 当性能媲美SRCNN/ESPCN时,ECBSR-M4C8在移动端推理仅需10ms ,而SRCNN与ESPCN分别需要1583ms、26ms;
    2. 当性能媲美LapSRN时,ECBSR-M10C32在移动端推理仅需17ms ,而LapSRN则需要5378ms;
    3. 当性能媲美IMDN、EDSR以及CARN时,ECBSR-M16C64在移动端的推理仅需71ms ,而IMDN、EDSR与CARN的推理则分别为2782ms、527ms、170ms。

开源项目

  • OAID/TengineInferPipe:开源啦,超详细使用教程奉上 | Tengine开发者社区
    摘要:TengineInferPipe 是由 OPEN AI LAB 基于 mediapipe 框架进行改进、迭代的一套低代码、模块化的算法落地框架。通过解析部署配置文件,构建整个部署流程。可以用于快速构建算法部署sdk,以及可以作为一些可视化部署方案的中间层。
  • MegEngine/MegFlow: 旷视天元开源 MegFlow 流式计算框架,助力 AI 应用快速落地
    摘要:MegFlow 提供快速视觉应用落地流程,最快 15 分钟搭建起视频分析服务。其特性体现在:直接用 Python 搭建计算图(如先检测、再跟踪、最后质量判断加识别),不必关心 C++、图优化相关问题;省去 C++ SDK 集成,通过流程改进应对人力不足、时间紧、视觉功能多的情况。
  • opencv/opencv: 4.5.4 发布:DNN对RISC-V的优化,8位量化功能和导入ONNX量化模型功能,Intel推理引擎OpenVINO后端增强,支持给更多模型人体分割等 | OpenCV团队
    摘要:GSoC 2021结束了,11个项目的成果目前已经合入OpenCV 4.5.4(main repo和opencv_contrib):DNN模块8位量化功能和导入ONNX量化模型功能、Julia语言绑定改进了一些、给了个语音识别示例、OpenCV DNN对RISC-V的优化(中科院软件所贡献)、Universial Intrinsics和parallel_for_使用教程;
    DNN模块:改进layers和activations,支持更多模型、GRU, CumSum, Max, Min, ExpandDims、修复卷积的非对称填充、修复Unsqueeze (ONNX opset 13)、修复OpenCL核的几个内存填充问题、实现TextRecognitionModel中的CTC前缀束搜索解码、增加SoftNMS;
    Intel推理引擎后端(OpenVINO ):增加OpenVINO 2021.4.1 LTS release的支持、增加对非FP32输出或1D输出模型的支持; 更多详细信息请参考:https://github.com/opencv/opencv/wiki/ChangeLog#version454
  • paddlepaddle/paddle: 飞桨与海光人工智能加速卡DCU系列完成互证,助力国产AI加速 卡人工智能应用创新 | 飞桨PaddlePaddle
    摘要:百度飞桨深度学习框架与海光人工智能加速卡DCU系列进行了安装部署测试、基本功能测试和稳定性兼容性测试,联合测试结果显示百度飞桨深度学习框架在海光DCU系列以及海光3000、5000、7000系列CPU环境上均能顺利安装,可以可靠、稳定、高性能地运行,满足用户的关键性应用需求。
    DCU(Deep Computing Unit 深度计算器)是海光(HYGON)推出的一款专门用于AI人工智能和深度学习的加速卡。目前飞桨框架ROCm版基于海光CPU(X86)和DCU支持以下模型的单机单卡/单机多卡的训练与推理。飞桨框架ROCm版训练及预测
    训练:使用海光CPU/DCU进行训练与使用Intel CPU/Nvidia GPU训练相同,当前飞桨框架ROCm版本完全兼容飞桨框架 CUDA版本的API,直接使用原有的GPU训练命令和参数即可。
    预测:使用海光CPU/DCU进行预测与使用Intel CPU/Nvidia GPU预测相同,支持飞桨原生推理库(Paddle Inference),适用于高性能服务器端、云端推理。当前飞桨框架 ROCm版本完全兼容飞桨框架 CUDA版本的 C++/Python API,直接使用原有的GPU预测命令和参数即可。

博文

  • 深度学习编译系列之算子编译IR转换 | 商汤学术
    摘要:这篇小文给出了对于深度学习编译器在一种长尾算子代码生成场景中IR stack的讨论虽然单个长尾算子在整个神经网络中可能耗时比例较小,但是神经网络中可能包含数十个甚至数百个长尾算子,并且在未来这种需求也在不断地被创造
    因此,基于编译手段,不断增强支持不同类型的算子翻译,具有重要意义。当然,计算型算子和访存型算子有着不同的特征,计算型算子需要注意计算 pattern 的翻译,并需要满足形状信息约束,而访存型算子则需要注意 访存 pattern 的翻译,有些操作潜在囊括于 python 复杂的语法定义中,这时便需要在深度学习编译器中对应设计 IR 以支持 IR lowering 以及代码生成流程。
    通过上述讨论可以发现,对于访存型算子的翻译和支持往往是长尾算子高性能代码生成的痛点和难点。并且,DSC 往往对张量运算有很好的表示和支持方式, 本文的讨论也集中在张量运算上,而当我们面对越来越复杂的网络,Domain Specific Compiler 对于非张量运算支持的需求是否也在不断增加呢,例如控制流?我们在哪个层面对其进行表示和优化是更好的解决方案呢,希望和大家有更多的探讨。
  • 深度学习模型大小与模型推理速度的探讨 | OpenPPL
    摘要:本文介绍了评估模型大小的四个常用指标——计算量、参数量、访存量、内存占用,从 RoofLine 模型入手详细讨论了影响模型推理速度的影响因素,并给出了面向推理速度的模型设计方法论与建议。撰写本文的目的,不仅仅是给算法同学提供有效的网络设计建议,更多的还是希望能够传达性能优化的基础知识与分析思路,减少算法设计到部署之间的 gap,更快速高效的设计推理友好的网络模型。
  • C/C++ 性能优化背后的方法论:TMAM | vivo互联网技术
    摘要:性能优化的难点在于找出关键的性能瓶颈点,如果不借助一些工具辅助定位这些瓶颈是非常困难的,例如:c++程序通常大家可能都会借助perf /bcc这些工具来寻找存在性能瓶颈的地方。性能出现瓶颈的原因很多比如 CPU、内存、磁盘、架构等。本文就仅仅是针对CPU调优进行调优,即如何榨干CPU的性能,将CPU吞吐最大化。
    文要讲的 TMAM 即 Top-down Micro-architecture Analysis Methodology自顶向下的微架构分析方法。这是Intel CPU 工程师归纳总结用于优化CPU性能的方法论。TMAM 理论基础就是将各类CPU各类微指令进行归类从大的方面先确认可能出现的瓶颈,再进一步下钻分析找到瓶颈点,该方法也符合我们人类的思维,从宏观再到细节
    如果你还在为判断是CPU哪些操作导致服务性能瓶颈而不知所措,那么这篇文章将会你给你授道解惑。本文主要通过介绍自顶向下分析方法(TMAM)方法论来快速、精准定位CPU性能瓶颈以及相关的优化建议,帮助大家提升服务性能。为了让大家更好的理解本文介绍的方法,需要准备些知识。
  • NYU & Google: 知识蒸馏无处不在,但它真的有用吗 | 夕小瑶的卖萌屋
    标题:Does Knowledge Distillation Really Work?
    文章:https://arxiv.org/pdf/2106.05945
    摘要:本文的关键发现:
    1. 学生模型的泛化性能(generalization)和匹配度(fidelity)的变化趋势并不一致;
    2. 学生模型的匹配度(fidelity)和蒸馏的校准(calibration)有很大的关联;
    3. 知识蒸馏过程中的优化是很困难的,这也是导致低匹配度的主要原因;
    4. 蒸馏优化的复杂度以及蒸馏数据的质量之间存在均衡(trade-off);
      现在回到我们最开始的问题,知识蒸馏真的有用吗?毫无疑问,它是有用的,因为它通常可以提高学生模型的泛化性能;同时它也是没用的,因为它总是将很有限的知识从教师传递到学生,这与它的名字知识蒸馏相去甚远。