高通骁龙820的秘密武器

来源 :微型计算机 | 被引量 : 0次 | 上传用户：heyunhu

【摘要】

：

【作者】

：

王志恒

【出处】

：

微型计算机

【发表日期】

：

2015年21期

【关键词】

：

缓存处理器矢量高通单元数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　一般来说，玩家们关注一款手机处理器主要看的是CPU部分和GPU部分，比如CPU是什么架构、多少个核心、频率多少，GPU又有多少个模块、像素单元多少个等，但实际上手机处理器的构造远不止如此，除了性能支撑外，它还要负责例如语音处理、图像处理、输入输出处理、触觉反馈等。那么，这些“零零碎碎”的工作是由什么手机处理器中哪些部分完成的呢？答案就是DSP。
　　什么是DSP？
　　DSP的全称是“Digital Signal Processing”，也就是数字信号处理器。和多样性、多功能的CPU不同，DSP是一种固定的可编程功能硬件，它的灵活性比CPU差，但是整体效率更高，目前很多DPS都采用顺序执行方式设计这意味着更少的电能消耗和晶体管数量。并且，DSP往往都采用VLIW指令集，这也和现在的CPU等处理器设备完全不同。
　　举例来说，DSP中存在专门处理JPEG图像压缩的部分，这部分内容专门只针对JPEG图像压缩算法设计，硬件上只针对这一个工作进行全力优化（比如专门针对图形处理中常用的傅里叶变换的计算单元，效能极为出色），执行专用操作。一般来说，在一个移动处理器中，有很多类似的功能使用CPU部分完成虽然也可以，但是整体效能不高，并且能耗表现也不够理想。因此，人们往往为移动处理器增加多种专用的DSP，专门针对诸如图像、音频、视频、语音、输入、触控等内容，不但提高了处理效率，而且还在很大程度上释放了CPU资源，降低了能耗。当然，从技术角度来看，DSP比较关注指令集并行，也就是单核心性能，对线程级并行则不太擅长，因此也不太可能存在使用成千上万个DSP来组成计算单元的可能性了。
　　最近，高通在展会上介绍他们全新的骁龙820处理器时，专门花了很长一段时间详细介绍了骁龙820中集成的Hexagon 680 DSP处理器。通过这款先进的DSP处理器，我们可以大概了解到目前DSP部分对手机性能和功能的影响，以及先进DSP的优势所在。作为一款多功能、面向多场合的复杂的手机SOC，拥有强大的内置的DSP是不可或缺的，那么，骁龙820这款高通接下来的旗舰产品，其DSP都有哪些优势、性能如何呢？我们一起来看看吧！
　　强大的VVX——Hexagon 680 DSP简介
　　一般来说，用户主要在三个方面使用DSP，首先是视频处理。在Android设备上，视频处理可以改善播放的视频内容的质量，比如反交错、降噪、色彩校正等。其次是相机后处理和CV，包括摄像头数据处理、动态增强、色彩调整、HDR等。最后还有相机播放内容，针对传感器等的处理情况。目前Hexagon 680均对这些内容做出了支持。
　　Hexagon 680 DSP内置了一个1024bit的SMID矢量数据寄存器，高通称之为Hexagon VectorExtensions——Hexagon矢量扩展，简写为HVX。HVX每次可以处理四条VLIW向量指令，每个循环可以处理多达4096bit数据，需要注意的是，一般实际应用中的指令比DSP支持的最大指令宽度要小很多，不过借助于SIMD和系统的特性，单个指令可以一次操作多个数据，因此在计算中很多数据可以被一次性填充进入处理过程，实现效能的最大化。另外，HVX为了实现上下文切换功能，还设计了32个向量寄存器。规格方面，HVX支持32位的定点十进制数的操作，但不支持浮点计算，这应该是考虑到晶体管数量和功耗的原因，一般情况下也没有浮点计算的需求。总的来看，这样的规格和性能足以满足4K视频以及20M像素摄像头的处理需求了。高通还展示了HVX底层设计的一些细节。HVX内部拥有L1数据和指令缓存，4个并行的VLIW标量处理单元，单元的运行频率为500MHz，还有共享的L2缓存。此外，HVX中还有两组独立的矢量单元，这样设计实际上是为了执行多线程任务，比如同时处理音频和图像处理，矢量单元可以独立进行计算。
　　与此同时，在存储系统方面，矢量单元和向量单元共享L2缓存。但HVX的L2实际上在一个周期内就可以完成负载的处理，因此有些人也认为这就是一个更为宽松的L1缓存。从应用中来看，Hexagon 680可以直接将数据从摄像头传递至L2缓存（速度为1.2Gp/秒），并将其传输给ISP开始处理，以避免占用DRAM，同时也可以降低能耗。此外，高通还为设计了了一个SMMU （SystemMemory Management Unit），它可以自动管理那些不可复制的数据，并使得多个并发应用共享CPU资源，实现效能提升。
　　Hexagon 680提升效率、降低能耗
　　首先来看看有关Hexagon 680的SIMD架构和之前NEON架构的对比。NEON用作浮点和加速处理已经有很长一段时间了，也一直是ARM架构处理器增强浮点计算、矢量计算的重要组建。相对于HVX来说，NEON就显得特别“小气”。因为在一个单独的“核”下面，NEON只支持128bit的单个SIMD管道，相比4路的、1024bit-SMID的HVX显然要差太远了。不仅如此，HVX的SIMD的计算还拥有512KB的L2（相当于L1）缓存支持，相比之下，NEON之前在高通的处理器中应用时，只能使用32KB的L1指令缓存和L1数据缓存。显然，更大的缓存容量能够隐藏DRAM延迟，减少数据调用、等待时间并显著提高计算效率。Hexagon 680在相同的视频编辑工作下，大概能够达到之前NEON三信的效率，并降低了功耗。
　　此外，四个标量的线程也使得很多计算可以由HVX直接处理完成而不需要CPU的辅助，这也可以降低能耗并使得开发人员能够更方便的使用HVX。高通展示了有关Hexagon 680中HVX的计算能力测试结果。根据测试来看，HVX的性能随着线程数量增加，测试成绩增加非常显著，最高可超过14000分。另外，在DMIPS上，三个线程后，DMIPS的性能增加速度放缓，但是依旧逼近14000分。高通认为，目前很多应用程序同时需要矢量和标量计算，在HVX的加持下，很多应用可以考虑转移到HVX上来计算，这样就释放了大量的CPU资源，CPU可以转去做更为重要的一些工作，对GPU来说也是如此。　　之前我们说过，DSP在Android设备商最重要的功能之一就是图像处理。高通也做了一些这方面的成果展示。之前很多手机在拍摄完照片后进行处理时，往往会调用CPU或者GPU，虽然在软件算法的辅助下可以达到不错的效果，但在能耗比上的表现不是很令人满意。高通展示了一张通过Hexagon 680进行自动HDR计算的照片，在照片中，Hexagon 680改善了场景光照质量，针对一些曝光不足的地区自动调整曝光，并进行了降噪处理，最终使得画面纯净、自然。当然，这只是Hexagon 680应用的一个方面，在强大的矢量和标量记算能力的辅助下，只要有优秀的算法，Hexagon 680就能够大放异彩，高通宣称借助于Hexagon680，可以实现更为清晰的低光照下的视频录制功能，成像质量和速度比之前单纯使用CPU等有了明显提高。图形处理的性能方面，高通也公布了一些数据，比如由于有Hexagon 680的辅助，在图片处理方面，Hexagon 680相比之前使用四核心Krait处理延迟要低三倍，功耗更是只有后者的十分之—左右，节能效果非常显著。
　　最后再来看看Hexagon 680的一项特殊功能一一对始终开启的传感器实现自动监控。Hexagon680拥有特殊的“低功耗岛”，设计人员可以用它监控诸如计步器、传感器等一些需要系统“始终开启”的设备，替代之前的CPU唤醒或辅助处理器唤醒等操作，更进一步降低能耗。根据高通的测试来看，使用Hexagon 680的骁龙820对比骁龙808，能够在“始终开启”的状态下，仅使用之前1/3到1/2的功耗就能完成相同的任务。
　　DSP表现出色，骁龙820值得期待
　　Hexagon 680整体表现相当出色，它依靠DSP在架构设计上的优势，尤其是1024bit SIMD的加入，使得Hexagon 680大大拓展了应用范围，能够在多项任务中表现出比传统DSP更强悍的功能。目前有关Hexagon 680的相关API也已经准备完成，软件和系统只要调用Hexagon 680的API，就能够启动并得到计算辅助。从发布会来看，高通对Hexagon 680则进行了前所未有的详细介绍，这说明骁龙820努力在朝着更高能耗比、更高效能方向迈进。在经历了骁龙810的高热、高功耗之后，我们越来越期待这款高通精心打造、集成了大量先进技术的全新旗舰移动处理器了。

其他文献

不再躲躲藏藏

如何保护自己的重要数据，新手们第一时间想到的一定是“隐藏文件”，其实数据加密才是真正有效的办法，尤其品牌电脑附送的一些加密小软件，对于普通用户来说非常实用，不过新手们未必能用好这些软件，因此我们挑选了一些较为实用和有代表性的软件，为大家介绍其使用方法。　　文件加密听起来像是只有老鸟们才会做的事?要是你真的这样认为，那你就错了口专业的加密软件或许用起来步骤繁琐，但是一些品牌台式电脑附赠的加密软件却是

期刊

软件加密软件数据品牌电脑新手分区

网购产品售后状况解读

电子产品在使用中发生故障的时间和程度谁都无法预料，所以厂商才会通过不断提升产品品质和尽可能改进并完善售后服务等途径来应对这种情况。在过去网络购物尚未兴起的时候，用户都是直接在售出产品的当地经销商处获得售后服务，这一过程相对直接而且有效。而在网络购物逐渐替代传统购买渠道的今天，各种因素却又导致了购物轻松快捷，但售后却相对麻烦的现况。　　无发票，网购售后问题的“原罪”　　消费者“爱上”网购，除了方便、

期刊

消费者售后商家商品发票网店

掌握优化诀窍

整合平台的游戏性能在APU系列产品诞生之后一度大幅跃升，这也让APU平台成为了不少入门级玩家“花小钱，办大事”的极佳选择。本期，《微型计算机》和映泰将邀你一起来看看游戏的优化技巧。想了解如何能不明显降低游戏体验而提高帧数?想知道APU平台能挑战那些游戏大作呢?Follow US……　　相信玩家们已经看过不少关于A8系列APU的性能测试，其优秀的综合性能表现有目共睹。传统认知上只有独显才能流畅运行的

期刊

游戏画质质量纹理平台特效

是平板，非手机？联想乐Pad S2005

从左至右依次是菜单按键、主屏幕按键和返回按键，键距很宽大，不会误按，不过由于没有背光显示，在黑暗的环境下看不清按键的位置。　　前置130万像素摄像头，网络视频够用了，自拍的话，效果还是差了一点。机身后部还配置了支持自动对焦的500万像素摄像头，使用方便，实拍照片的效果也不错。　　相比其他5英寸的相似产品，800×480分辨率给人的感觉有些偏低。不过实际效果挺不错的，字体饱满清晰，字迹大小刚刚好，尤

期刊

三星处理器显卡平板内存硬盘

10大热门平台纵向大火并金秋购机平台测试

这是一场购机饕餮盛宴，我们根据价格的高低，精心选择了10个目前最流行的装机配置，并进行纵向的性能对比。在这场装机盛宴中，你会更清楚自己的购机需求，并依据需求进行更合理的选择。　　　　我们的测试方法　　　　我们之前的平台测试一般是在同价位下分成英特尔平台和AMD平台进行横向对比，例如英特尔高端平台、AMD高端平台和英特尔中端平台、AMD中端平台。这种测试的优势是让大家清楚了解在相同价位下，英特尔平台

期刊

性能平台测试功耗英特尔处理器

运指如飞

只要你稍稍留意，就会发现新手玩RTS(即时战略)游戏《魔兽争霸Ⅲ》的方法是鼠标点击、鼠标点击、鼠标点击、鼠标点击……　　而熟手玩《魔兽争霸Ⅲ》的方法是：鼠标点击，键盘快捷键、鼠标点击，键盘快捷键……　　且不论新手和熟手的战术水平差距，只是从键盘快捷键的操作上就可以看出他们对游戏的熟悉程度差异。而在高手之间对战中，按错快捷键无疑是一个致命的错误，也许就这么一小会儿，你的恶魔猎手就被对方的山丘之王“秒

期刊

键盘鼠标点击游戏魔兽争霸快捷键机械

支持USB 3.0的“飓风”机箱金河田飓风升级版极冻机箱等

金河田曾在飓风系列机箱上采用了独创的360度天窗设计，其精准散热的特性受到了主流用户的欢迎。另一方面，USB 3.0存储设备已有大量上市的趋势，于是增加USB 3.0接口的飓风升级版极冻机箱上市了(以下简称极冻机箱)。　　极冻机箱的前置面板采用不规则的多边形造型，并大量应用>中孔网和栅格，前置I／O接口中的USB 3.0接口非常显眼。硕大的红色开关键手感不错，迷你的重启键则可以防止用户误触导致系统

期刊

机箱散热片昂达飓风版主采用了

蹭网笔记

别告诉MCG编辑，你特意买了带802.11n无线网卡的迅驰4笔记本电脑，只是为了能在劫难逃家里或者星巴克无线上网，那也太逊了吧！能一分钱不花就用到无线热点就应该当仁不让地蹭，而且据国外某网站的调查，有一半的Wi-Fi用户“偷”过别人的热点。　　　　今天这边有个会　　　　会议室中的无线热点对于现在的商务人群，已经算是必不可少了，而很多承办会议的酒店，在他们的会议室中，自然也按需配备了无线设备，这类热

期刊

热点自己的电脑城小区都有营业厅

体验金士顿HyperX高频内存

依然记得2009年的8月，刚刚从大学毕业的我终于踏上了工作岗位，有了自己的第一份工作。在那草长莺飞的青葱岁月里，我还是一个有着无数热情的穷苦DIYer，用人生第一个月的工资购买了一套研究许久的心仪配置，算是心愿达成。那时，集超频与开核于一身的AMD羿龙Ⅱ X3710、帅气的790FX主板以及HD4870显卡所组成的3A平台打遍天下无敌手。可惜时过境迁，昔日的主流配置疲态尽显，早已不复当年之勇。　　

期刊

内存金士顿超频性能性价比优势

虽是同根生,性能却不同

在NVIDIA高端产品线上，2000元价位上有GTX 560Ti把守，1300元左右价位则有GTX 460坐镇，但1300元-2000元价位上并没有相应的产品。在这个价位段上，AMD充分利用锚位竞争策略，倚仗Radeon HD 6870吸引了不少玩家的关注。在这种情况下NVIDIA推出了GTX560——它和GTX 560Ti又有什么关系呢？我们将从影驰GTX 560黑将(以下简称“影驰GTX560

期刊

频率核心影驰价位显存显卡

高通骁龙820的秘密武器

其他学术论文