北京短视频代运营,北京抖音广告片,北京抖音代运营公司欢迎您 ! 联系朗创|收藏本站|网站地图

朗创seo公司

北京专业抖音代运营广告片拍摄10年短视频运营经验!

咨询电话:13683819778

北京seo服务首选朗创网络营销
您的位置: 资讯中心 > 常见问题 >

Seobro如何优化人工神经网络硬件的设计

作者: 1 来源:朗创seo公司 发布日期: 2018-10-27 08:55:45
信息摘要:
雷锋。com出版社:这篇文章的作者咯咯地笑着,也是《硅谷谈话》的首席作者。本文是大脑核心编辑:窥视大脑,编织网络核心制作的第四系列。 在传统体系结构的基础上,有三种方法

雷锋。com出版社:这篇文章的作者咯咯地笑着,也是《硅谷谈话》的首席作者。本文是大脑核心编辑:窥视大脑,编织网络核心制作的第四系列。

在传统体系结构的基础上,有三种方法可以优化神经网络的人工智能硬件设计。计算卷积核,点击这里!

这个故事从并行计算机体系结构开始。当涉及到并行计算机体系结构时,我们需要丢掉一个书包。

我从我的第一门计算机体系结构课程开始使用这本书,从并行计算体系结构到高级计算机体系结构。我必须感谢作者给我买了很多教科书钱。当然,牛x书的作者也是非常x的。有人想把这本书叫做《圣经计算机A》。框架结构。我不评论,但是我们在这里谈论的大部分来自这本书。

说到底,这个特立独行的故事始于一位名叫迈克尔·弗林的老爷爷(还活着)。他出生在大萧条时期,提出了一个叫做弗林分类法的分类法(1966年)。NGES集团几十年来。

Flynn分类学五指组将计算机结构分为指令和数据两部分,时间线上的指令和数据可分为单指令单数据(SISD)、单指令多数据(SIMD)、多指令单数据(MISD)和多指令。通过单步骤或多次运行指令多数据(MIMD)。

首先,看看指令和数据之间的关系。指令是一组可以由处理器逐步实现的操作。指令集中的每个指令由两部分组成:(1)要做什么和(2)要操作什么数据。专业上,我们称前者为操作码。后者是操作数(即数据)。当然,并非所有的命令都有数据操作。在传统的定义指令集中,对应的操作数不超过2。例如,加、减、乘、除都是典型的两个元素操作。写是酉运算,有的是没有数据运算的,如有条件判断(if)发生,根据判断程序的结果去哪里,只是一个跳跃运算,他不需要任何数据输入。

第一个也是更经典的指令级并行方法叫做时间并行,它是所有体系结构教科书都喜欢教的管道。马德等待老司机完成一辆车。但是流水线将旧的撞车变成三只臭鹅,每只三分之一的工作交给下一个,所以下一个命令是,然后一只完成13后,你才能进来。虽然老司机有良好的体力,但他赶不上那只臭鹅卵石。通过这种方式,流水线可以及时实现指令集的并行性,使实际指令的处理效率提高一倍。

有两个,还有时间余地。所以第二种方法是空间上的并行性。空间并行性基于一个观察——对数据有许多操作——加、减、乘、除移位、整数运算、浮点运算……处理(ALU/EXU)是独立的,因此在空间上,在处理时间上加上浮点运算,可以同时执行整数移位操作,例如老孩子教的龙女左右起搏分心。开发左-右互操作性的操作系统包括Superscalar/Very..ction Word(VLIW)处理器。

与流水线超标量复杂精炼过程(黄荣不能左右互写博客)相比,数据级并行是一种简单而纯粹的硬件叠加,创建了数千手观音的并行处理:

千手观音的科学名称是SIMD,单指令多数据,单指令多数据处理器。事实上,简单说来,有一个处理单元(ALUEXU)现在是加法器,现在它变成了N。M次扩展需要重复和积累,只要需要M/N扩展,相应的时钟和时间就会显著减少。

简单而粗略的并行性不仅提高了每个指令的吞吐量,而且将自身的单标量处理演化为向量处理阵列,因此调用了SIMD和向量处理指令。KS。早在MP3时代,SIMD处理器被广泛应用于各种信号处理芯片,所以SIMD指令也需要行业标准。现在让我们看一个例子看看SIMD指令集。

在然后一部分中,我们简要的历史中提到的第一个risc-arm。同时ARM的SIMD指令为更重要的便携式处理器如手机和平板电脑是国王的风格,从它的名字,霓虹灯。

NEON的命令操作输入(操作数)是一组128位宽的寄存器,但是存储在这个寄存器中的寄存器的数量是由编码器自己预先定义的,它可以是4个32位浮点,或者不动点,或者8个16位不动点,或者16个8位不动点……离子组广泛地定义了输入和输出的位宽,以便对变压器进行自由控制。考虑到前馈网络通常只需要16位和8位整数位宽度,更有效的NEON命令一次可以实现16次乘法和累加计算(16次突触)。

SIMD如何显示霓虹灯的风格NEON还充分利用指令级并行性,使用10级流水线(4级解码+6级单元),这可以简单地理解为将卷积计算的吞吐量增加10倍。单指令5级流水线。第一条通用并行计算快速通道由ARM Cortex A7以上的核心处理单元构成。

管道和SIMD都是在神经网络未满时统治舞台的英雄。今天,在神经网络的世界里,它们仍然自助吗答案显然是否定的。

当通用的SIMD处理器与神经网络相遇时,它们会与火花碰撞并开始相互抱怨。让我们从抱怨存储空间管理开始。我们知道,在神经网络中,通常每个卷积核首先需要加载系数和输入数据,然后计算部件。指令执行和存储空间之间的通信是Feng Neumann的瓶颈,对于神经网络来说,多次的存储和读取是性能的关键。面向神经网络的SIMD指令的主要问题

这给SIMD面对神经网络带来了新的机遇——局部更新和数据滑动。让我们来看看下面的电影——以前的麻省理工学院Eyeriss项目研究小组。

对于使用SIMD的卷积核,一组输入是固定系数向量,而另一组输入类似于FIFO。在初始填充之后,每次注射一个单元(也一个单元)以乘以Reava。然后的累积结果存储在执行单元的寄存器中,并且只发生然后的卷积。结果将被写回存储器。

这样,在神经网络中,无论是数据导入还是输出,对存储空间的访问都会大大减少。当然,原理图只是一维的。当卷积核的维数达到二维或三维时,情况会复杂得多。推荐阅读MIT EyrISS,KIST的MID,或者IMEC的2D SIMD(EnVIEW)。这里没有什么可做的。

好的,我这次就到这里。所谓的烛台集群是一小块自由定义的数据,在相同的SIMD指令下,行内集成行,变成了孤单的向量操作。

咨询热线

13683819778