AG真人游戏

一群 “清华帮”打造全新语音AI芯片,边缘计算 存储优先,推翻冯诺依曼体架构

点击量:176   时间:2019-12-31 04:24

这样的转变,也点出了AI 遭遇商用化落地的阵痛期,其实比预期长。

从语音 AI 到图像 AI,探境的愿景是无处不在的边缘计算。

这是问芯Voice 与探境科技创始人兼 CEO 鲁勇对谈时,抛出的两大问题。

未来目标是朝语音、图像结合的 AI 芯片公司发展,从算法层面包含语音算法、图像算法,结合图像系列和语音系列的芯片,能面向安防、新零售、辅助驾驶等不同的场景,实现端云一体化目标。

展开全文

探境的语音 AI 芯片除了 611 系列外,还有单麦和双麦的 611 和 612、支持降噪功能的 631,以及用于穿戴设备的超低功耗 311 系列。

如果以高强度神经网络与传统 DNN 两种算法来做对比,模型参数前者大概是后者的五分之一,熟知芯片的人都知道,参数的数目意味着存储大小,存储意味着面积,而芯片的面积就等同成本。

上一波 AI 热潮打造出寒武纪、商汤、旷视、地平线、依图等知名 AI 独角兽企业。然而,从 2018 年开始,资本对于 AI 企业已不再照单全收,而是关心AI 如何商用化落地?能不能快速变现?

鲁勇指出,语音 AI 芯片不是一个新浮出水面的市场,市面上玩家已经很多,这个市场现在看似红海,实则是蓝海,尽管竞争者众,实际上多数的供应商都没有竞争力。

Networking Slicing 是在同一个基地台上把不同的网絡应用服务切割开来,各自独立运作,即使其中任何一个网絡出现错误,也不影响其他网絡,而这当中就要靠基站边缘侧端带来软件服务,以及在基站背后放置边缘服务器。

先看最早期的云端语音 AI,是透过网絡连线,把数据发到云端处理,像是火红过一波的智能音箱就是最典型的产品。

AI 很好,但能不能变现?

但是,这种传输到云端处理的方式,门槛壁垒和成本代价是十分高的,尤其对于家电产品,人和设备的沟通必须要在边缘端完成,不可能什么数据都要反馈给云端才能反应,因此需要在没有连网的环境下,也能交互控制。

鲁勇表示,对于边缘端的语音 AI 芯片,所有客户都知道机会来了,需求也十分迫切,但现实面是,市面上的解决方案效果都不好,至少产品的水平要超过 60 分这个分水岭,再来谈所谓的性价比。至于图像 AI 芯片,那竞争者就更少了。

回到探境本身,创立之初就设定芯片、算法并重,语音 AI 芯片和图像 AI 芯片并行,策略和产品着力点都是两条腿走路。

探境从 2017 年成立至今,经历 SFA 架构的完成,以及芯片的流片,一直到今年底的量产,目前共有 30 家合作伙伴,当中有很多是智能家居领域,从灯具、热水器、垃圾筒、净化器等,客户需求浮现。

SFA 架构优势是完全不用动到底层的工艺,是系统层面的架构更新,成本结构也是在合理范围。再者,SFA 架构可以支援任意神经网络的,通用性高。

探境的语音 AI 芯片都是由台积电打造,从 55nm 到 28nm 工艺技术,目标是 2020 年在语音 AI 芯片上的出货目标达到数千万颗,并且让一系列低成本版本、高配版等芯片陆续问世。

原标题:一群 “清华帮”打造全新语音AI芯片,边缘计算 存储优先,推翻冯诺依曼体架构

然而,在 AI 芯片或是深度学习算法中,面临最大的挑战不是卷积运算的乘法或加法,而是去处理存储带宽要求大,功耗高的问题,因此,AI 算法在芯片中的最大瓶颈其实是存储。

为了解决 “存储墙” 的问题,探境提出存储优先 SFA 的概念,推翻冯诺依曼体系架构,做了颠覆性的改革,以存储调度为核心,让数据在存储器之间传递的过程中就得到计算,这样的架构特别适合边缘计算的场景。

鲁勇指出,大家都知道人工神经网络里面,算力越高,神经网络模型的描述能力越强,识别率就会愈高,在计算机视觉中有一个专用词汇叫高计算强度,因此我们设计了高计算神经网络,增加了卷积的操作次数,减少了传统语音识别算法中 DNN/TDNN 的比例。

何谓 “存储优先”?目前多数的 AI 芯片都是依循冯诺伊曼架构,以“计算” 为中心来进行优化。

边缘计算的世界

语音识别AI芯片的挑战

第三个领域是工业应用,也就是利用边缘计算来推动智能制造的发展,包括机械手臂的控制、产品质量的检测等,都可以透过机器视觉来完成。

同样是解决 “存储墙” 问题,与近期非常热门的 “存算一体” 相比,鲁勇则是直言,SFA 具有更通用的算法支持度和更快速的商业开发节奏。

鲁勇分析,这一波的 AI 公司分为两路人马:做芯片的人和应用端算法出身的班底,通常做传统芯片的人来做 AI 芯片,在算法上是与外面团队合作,而做算法出身的人做 AI 芯片,则需要找一颗芯片来承载。

他为公司设立了短期、长期目标。短期目标是以语音 AI 芯片作为敲门砖,再逐渐走向图像 AI 芯片,进一步覆盖整个边缘计算领域,无处不在的边缘计算境界,是探境的愿景。

探境表示,在同等条件下,SFA 架构相对于传统的类 CPU 架构,可将数据访问降低 10~100 倍,存储子系统功耗下降 10 倍以上,28nm 工艺系统能效超过 4T Ops/W。

边缘计算芯片的特点之一,是非常重视“成本”。未来的挑战之一是如何在边缘端承载更好的算法,并且透过技术手段优化,来支撑很复杂的语音算法,但又能控制成本。

鲁勇对问芯Voice 表示,创业之初锁定语音 AI 和图像 AI 两大方向,就是因为看好语音产品可以很快落地,现在的新创公司一定要达到产品快速落地、创造营收、持续投资三部曲,才能争取生存下来的机会。

另外,针对智能家居有精简命令词的 321 系列芯片,旗舰产品则是 711/712,把自然语言的识别挪到本地芯片上,比现在的芯片是处理预先制定好的词,还要更前进一步。

由于 AI 逐渐从云端往终端设备发展,因此促进了边缘计算与 AI 的结合,随着在制造流程中不断融入 AI 技术,包括搜集技术、监控流程、协助判断系统是否有异常等模式识别,都可以藉由加入 AI 技术,而让智慧制造流程更为精密且有效率。

“Voitist 音旋风 611”就是包含了基于深度学习的 AI 降噪算法,可以处理常见和一些非稳态的噪声,或是突发性的噪声。再者,是专门用来做语音识别的神经网路 HONN。

AI芯片领域,两路人马狭路相逢

鲁勇解释,探境之所以可以在自己的芯片上完成上述那些复杂算法,是因为设计出一个能解决 “存储墙” 问题的新架构:存储优先架构 SFA。

再者,相较于传统芯片,大家可能会谈论功耗、成本等面向,但语音 AI 芯片会更重视体验效果,这也是算法带来的最直接体验。

第二个应用是新零售市场,像是无人超市需要大量的智能设备入驻,因此也需要非常多的边缘计算功能,连结不同的传感器且提供边缘视觉 AI 的计算,并利用边缘计算服务器将数据在边缘端进行处理,免去了传上云端的流程。

“边缘计算板块火热,覆盖层面极广,要如何抓住这一波浪潮?”

探境针对智能家居市场推出的首款语音识别 AI 芯片“音旋風 611”,在离线的状态下,可以支援覆盖生活场景高达 200 条命令词、唤醒率不低于 99%,以及超过 97% 的识别率,反应时间快,且约在 10 米范围之内,都可以正常唤醒与识别。

再者,市面上很多语音 AI 芯片都是基于 DSP 芯片(数位信号处理器)来研发的。但 DSP 只是一种通用型芯片,只能应付相对简化的算法,并非是专门针对神经网路运算所设计的专用 AI 芯片,如果以 DSP 芯片来运算 AI 算法,会存在重大缺陷。

探境科技创始人鲁勇是本科、硕士、博士都毕业于北京清华大学的“三清”。

“全新的“存储优先” 架构,与近期火热的“存算一体” 概念,都是要颠覆传统的冯诺依曼体系架构,两者有何差别?”

探境的第二个产品是面向边缘计算的图像 AI 芯片。在公司创立初期,图像 AI 芯片和语音 AI 芯片是同步开发的,只是语音芯片比较早落地,而图像芯片也即将进入商业化阶段了,未来公司会锁定三个应用的领域。

以鲁勇为首的探境科技研发团队,是一群能征善战的半导体沙场老将。当中,不少核心团队也是来自于“清华帮”,骨干研发人员的平均工作经验都有 15 年左右,正处于研发的黄金周期,当中不少是历练过外商半导体公司,像是 Marvell、英特尔、高通、硅谷数模等。

首先,是一些介于云端和终端 Device 之间的需求,尤其是 5G 时代来临后,对于边缘计算的需求会更高,像是网絡切片(Networking Slicing)就是 5G 技术的核心。

所谓的信噪比,是指目标信号与干扰信号强度比值,取了对数并且乘以固定系数后就是以 分贝dB 方式描述的信噪比参数。 一般信噪比低于 15dB 称为噪声环境,如果信噪比为 0dB,代表语音信号和噪声信号强度一样,人耳识别起来会特别费力。

另外,在算力上,高强度计算神经网络的算力需求量超过 106M OPs,而 DNN 只有不超过 5M 的计算强度。如果在安静环境下,或许感受不到差异,一旦到了低信噪比环境,差异明显可以体现出来,但现在国内很多语音识别芯片的供应商仍是采用 DNN 的方法。

鲁勇过去在存储芯片大厂 Marvell 任职期间,协助组建中国的芯片研发团队,对于存储技术有非常深入的了解,在 Marvell 后期,他开始思考想做一些不一样的事,追求更高的天花板,因此,2017 年他决定跳出舒适圈,探境科技也因此诞生。

SFA 架构不仅适配于终端,也适配于云端、推理、训练,可以组合成各种不同的产品形态。再者,这两年 AI 芯片有层出不穷的架构设计问世,有些是需要用到底层的半导体设计器件或工艺,有的在芯片密度上集成超大容量的存储器,会增加成本。

所谓的边缘计算,是指数据处理能力在网络边缘,且更接近数据源。通过边缘计算,四周的每台设备都可以进行数据采集,且进行处理和分析。

鲁勇指出,在投入研发之前,探境看到家居环境下做语音识别技术,面临了三个主要的挑战,包括低信噪比、非稳态的噪声影响,多声源的问题。

只是,芯片产业门槛高,如果不是这个行业出身,方向判断会有不准确或局限性问题,不能准确找到方向。

一般人正常说话约在 50~60dB 左右,超过 60dB (分贝)是属于大声说话,超过 70dB 可能是跟人吵架,根据美国环保署调查,70dB 是人类能承受的最大噪声值,如果噪声值超过 85dB,时间久了可能会产生听力损伤。

因此,在语音识别的技术上,有两部分的能力特别重要,一是降噪处理的能力,二是专门用来做语音识别的神经网络的描述能力。

鲁勇解释,要完成上述这些算法,必须同时熟悉语音、图像、神经网络、信号处理等各个模块。


d88-d88尊龙官网-d88真人手机版