智器械(公众号:zhidxcom)
文 | 心缘

架构创新正成为新风口,而新兴权势在个中扮演着相当重要的角色。

传统芯片遵守冯·诺依曼架构,处理器和存储相互分别,在承当AI推理运算时,数据要在硬盘、主存、计算单位之间搬来搬去,90%以上的能量消耗于这一过程当中。

为了冲破传统架构对算力的掣肘,存算一体这类新兴逻辑架构应运而生。其罕见完成方法有两种,一是在内存和固态硬盘芯片中植入计算单位,另外一种则是在直接用存储单位完成计算义务。

2016年,一对北大年夜微电子系85后夫妻,在留美时代积聚了基于NOR Flash的存算一体AI芯片研发经历,并早早定下回国创业的想法主意。

就在本年8月6日,他们所创办的知存科技宣布了近亿元A轮融资。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

▲知存科技开创人兼CEO王绍迪展见知存科技的存算一体AI芯片

近日,智器械同知存科技开创人兼CEO王绍迪聊了聊创业眼前的故事,从创业想法主意萌芽阶段的无人问津,到创业5个月完成流片,再到行将迎来第一批产品的落地,他们正在离三年内卖出5000万颗芯片的“中期目标”愈来愈近。

一、从游戏中孵出的芯片情结

23年前,王绍迪8岁,父母为他买了一台搭载英特尔奔跑一代CPU的586电脑。那时辰一台586电脑售价八千多元,花费了他父母将近一年的工资。

奔跑(Pentium)这个跨时代的产品,不只开辟了英特尔一统CPU市场的浊世王朝,也在王绍迪心中埋下做芯片的种子。
小学时代的王绍迪,重要照样用电脑来玩游戏。在这一过程当中,他直不雅感触感染到摩尔定律带来的变更,计算机变革飞速,CPU速度、光驱速度、软盘速度、硬盘内存大年夜小等都一日千里。

很快,586电脑曾经跟不上游戏速度,家里的电脑设备逐步升级,每隔两三年换一代。2000年阁下,为了玩雷神之锤等3D后果好的游戏,王绍迪开端接触GPU。逐步地,王绍迪开端对芯片异常入神。

经过高中物理比赛,高三上半学期,王绍迪被保送北大年夜。在接收本地辽沈晚报采访时,他即果断地表达了本身的爱好和志向,欲望进修微电子专业,成为“中国芯”的研发人员之一。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

▲辽沈晚报专访王绍迪(图右)

2、结缘存算一体,师从学术大年夜牛

知存科技关于存算一体芯片技巧的基本,来源于王绍迪的老婆郭昕婕,她是第一批从事存算一体AI芯片研究的博士生。
虽然王绍迪和郭昕婕都是2011届信息迷信技巧学院微电子专业的应届生,但由于北大年夜教授教化很看重基本,前两年上的都是实际课那种大年夜课,两人直到大年夜三才了解。

到大年夜四请求出国留学时,两人关于黉舍的一个重要挑选标准就三个字——离得近。
普通同窗请求十几所黉舍,他们则连续请求三十多个黉舍,还特地按着美国地图看,就是为了能请求到同一个或许离得近的黉舍。终究,王绍迪请求到的加州大年夜学洛杉矶分校(UCLA),和郭昕婕请求到的加州大年夜学圣塔芭芭拉分校(UCSB),相隔不过100英里。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

说起来,郭昕婕尔后研究存算一体芯片所跟随的导师,照样王绍迪在拿到几个offer后,帮她领导师写信请求的。
郭昕婕的导师Dmitri B.Strukov传授是做存算一体的学术大年夜牛。

2008年,惠普实验室(HP Labs)证明了37年前的迷信预言,发明世界上第四种根本电路元件——忆阻器(memristor),并成功完成了世界首个能任务的忆阻器原型,这项研究在《Nature》上发表《寻获着落不明的忆阻器》,而Dmitri B.Strukov正是这一团队的核心成员之一。尔后,忆阻器、存算一体这些研究陆续如火如荼地展开。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

▲HP Labs忆阻器团队,从左到右分别是Dmitri Strukov, Stan Willams, Duncan Stewart, Greg Snider

2011年,即卒业那年,王绍迪和郭昕婕提交请求,异样在这一年,Dmitri B.Strukov预备请求存算一体项目,次年郭昕婕就成了第一批被招收的先生,被分到基于NOR Flash的存算一体芯片技巧偏向。

Dmitri B.Strukov告诉她,这个偏向是最接近家当化的、实用的偏向,Flash技巧成熟,曾经商用几十年,本钱很低,但其缺点异样是由于Flash研究起步较早,不好在顶刊上发文章。

立项早期,深度进修还不火,郭昕婕重要将存算一体芯片应用在视频处理矩阵乘法,到2013年,深度进修的热度包括学术界,发明存算一体芯片运算深度进修后果好后,在导师的支撑下,郭昕婕直接转偏向到做深度进修芯片。
历经6次流片,耗时4年,郭昕婕终究在2016年研收回全球第一个3层神经搜集的浮栅存算一体深度进修芯片技巧,并完成技巧验证。一年后,她又再度攻下7层神经搜集的浮栅存算一体深度进修芯片。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

▲郭昕婕在IEEE电子器件大年夜会(IEDM 2017)上发表的论文

存算一体以存储器和模说明书位为主,Flash存储阵列经优化改革后,既可以包容更多神经搜集的权重参数,又可以完成和此权重相干的模仿计算。据王绍迪简介,实际上,单个Flash单位可完成8bit乘加法运算,假定有200M个Flash单位,就可以存储2亿个参数,同时能并行完成2亿次乘加法运算。实际运转时,算力约为峰值的10%-50%,由于芯片具有必定通用性,并不是完全针对某一算法定制,AI算法在芯片没法达到100%的应用率。

在王绍迪看来,存算一体芯片的核心优势有三点。

其一,存储单位可用于计算,运算中无需数据搬运,运算单位数量可晋升多个数量级。

其二,无需自力计算单位,如许既节俭了片上并行计算单位的面积消费,同时不消过于寻求最早辈的芯片加工工艺,而是可以应用成熟工艺来降低本钱。

其三,架构中无需推敲内存搬运,大年夜幅降低多核AI芯片的设计难度。

3、投石无路,艰苦的创业起步

从郭昕婕的研究中,王绍迪看到了端侧AI芯片商用落地的价值,回国创业的想法主意在心中萌芽。但是创业的热忱熄灭正旺,忽然就被实际的冷水浇熄,他在压服他人投资的路上屡屡碰鼻。

2016年年中,王绍迪在中美两处寻觅投资人。

彼时美国主流不雅点认为端侧不须要AI,只要办事器端深度进修做练习的需求才较大年夜。王绍迪因在三星和Arm练习,便测验测验接洽这两家公司做存储器的相干担任人,但他们认为王绍迪提出的筹划找不到应用处景。

在美国没取得正面反应,王绍迪托人回国询问却也无果。

当时他看中的市场是缺乏高效端侧算力的AR市场,而这一时代,国际的AR刚走太高速生长的黄金时代,市场开端疲软下滑,王绍迪也没能建立甚么有效的接洽。

机会没到,就再等等,王绍迪留在美国持续从事博士后研究任务,很快,欲望再次光降。

2016年9月,英特尔宣布收买视觉处理芯片创企Movidius,直接弥补其在物联网范畴的技巧短板。伴随着这一收买案的推动,终端侧AI芯片逐步鼓起。从2017年年中开端,王绍迪每个月回国一次找融资,别的一名合股人也一向在国际帮着找各投资机构去聊。由于存算一体芯片依然异常小众,找融资的过程停止的非常艰苦。

终究,在一名北航传授的协助接洽下,启发之星、兆易创新的投资人在和王绍迪聊过后伸出了橄榄枝,说可以投资。
取得这一行动承诺,王绍迪急速飞往美国打包行李,把车一卖,提早谈好做存算一体芯片所需的知识产权授权,不到一个月就前往故国,于2017年10月在北京创办知存科技,王绍迪任CEO,郭昕婕任CTO。

四、创业早期的摸索

成立早期的知存科技可谓是一贫如洗,融资难、缺人才网job.vhao.net、没经历。

推敲到携带材料往后能够有风险,王绍迪和老婆郭昕婕回国时根本上都两手空空。

一开端,知存科技只要王绍迪、郭昕婕和他们的合股人三小我,租了一个四人的小办公室,还多出一个工位。

三小我都是学术圈出身,余下的那个工位天然是要留给一个有做模仿芯片经历的专业人士,后来他们花了很大年夜精力才请来一名具有15年模仿芯片研发经历的老兵作为知存科技如今的模仿芯片研发担任人。

因而,到2018年春节,知存的小团队成功涨到4小我。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

创业时代的节拍比学术研究时代快很多,企业筹划、运营管理和家当经历都要经持续进修和积聚。从创业至今,王绍迪每周下班时间逾越100小时,有一周乃至只睡了缺乏28小时。

由于在学术研究时代,郭昕婕简直踩过各类芯片设计的坑,这也使得知存在成立后的短短5个月内就快速流片。
2018岁首年代,知存的扩大速度堪比“龟速”,3月5小我,4月6小我,5月7小我,流片前才终究冲破个位数,达到10小我。熬过缺乏资金的创业早期,团队扩大速度渐渐加快。

以后知存曾经凝集了一支经历和才能兼备的55人团队,个中,模仿芯片设计团队人数也增至近11人,团队均匀任务经历达9年。另外,王绍迪还表示,本年知存科技还将再招5人阁下。

融资方面,知存科技已于2018年1月取得启发之星等投资的天使轮融资,同年12月获讯飞领投的天使+轮融资,本年8月取得近亿元A轮融资,由中芯聚源领投,普华本钱、招商局创投、三峡鑫泰、科讯创投、燕缘雄芯跟投。

专利方面,知存科技请求了40多项专利,并购买了郭昕婕早期在国外研发时代所创造的专利授权。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

知存的核心产品MemCore001是基于NOR Flash存算一体架构的嵌入式智能语音芯片,重要应用于低功耗、低本钱的端侧语音辨认,支撑8-bit DNN、LSTM、TDNN等多种经常使用搜集,支撑可变运算和参数精度。

据王绍迪简介,算力根据应用需求而定,市情上的芯片算力从1Mops到100Gops都有。知存行将发布3款存算一体芯片产品,功耗和本钱和市情上10Mops的芯片相当,算力为10Gops。

比拟当下基于冯·诺依曼架构的AI芯片,知存科技的存算一体芯片能将运算效力晋升20-50倍,现有运算效力达15TOPS/W,本钱也比惯例AI芯片降低30-90%,针对不合应用的本钱在几十美分到几美元。

五、泡沫化很正常,落地难只是临时景象

随着AI需求的演进,知存会对芯片外部照应优化,经过过程调剂设计架构,使其更好地支撑现有搜集支撑,可设备性更多,对新型搜集效力更高,全体芯双方面积也变得更小。

存算一体毕竟是一个创新芯片架构,缺乏成熟的EDA对象、测试对象和应用层适配软件,量产步调还够不成熟。不合于传统芯片直接将量产步调交由晶圆厂来完成,存算一体芯片的量产步调须要芯片设计公司和晶圆厂一路来摸索和建立。
在语音芯片落地后,将来,知存还筹划研发低本钱、低功耗的视觉处理芯片。

而王绍迪他们之所以暂不推敲云端,是由于软件SDK开辟的投入太大年夜,这对一家始创公司来讲将是很大年夜包袱。Flash存在读写偏慢的缺点,假设今后有更出色且成熟的存储器,他们也会推敲用其替换Flash。

关于AI家当热议的泡沫化和AI芯片落地难、量产难等成绩,王绍迪也分享了他的不雅察和思虑。

他认为,像大年夜多半快速生长的行业一样,AI也有泡沫,但这并不是由于AI没有价值,而是由于还没找到好的贸易形式,以后的授权等贸易形式利润不高。

在他看来,AI芯片落地难只是临时的,AI芯片的感化是赞助AI更好的落地。从之前的生长来看,供给更高的算力可以赞助更多的算法落地到应用,降低本钱和功耗可以赞助AI拓展更多的应用处景。是以做算力更大年夜的AI芯片和更低本钱的AI芯片都可以赞助AI落地。以后AI芯片落地难由于AI应用还不是一个成熟的市场,没有成熟的产品形状。AI芯片和AI一样都在摸索中生长,逐步落地更多的应用。

而关于AI芯片量产难的成绩,王绍迪认为有多个缘由。

一是AI产品新,产品需求和功能一向在变更,没有成熟的产品形状。很多芯片做了很长时间design in,碰到产品需求忽然变更,形成了芯片没法量产。这也是由于AI产品和算法更新换代快所招致的,选错了应用或许功能设计错了的芯片没法量产。

二是某些大年夜算力AI芯片须要很好的算法实用性,研发周期长投入大年夜从业人才网job.vhao.net少。

三是新型架构的AI芯片,像是存算一体芯片,没有成熟的筹划可以采取,须要开辟新的量产筹划。

结语

比拟那些在芯片行业摸爬滚打多年的老兵,王绍迪等从学术圈走出的创业者们相对缺乏创业经历和工程经历。特别是在开辟一条门路之时,能够需经过各类试错、磨合、迷茫和思路转换。

但同时,他们也具有加倍蓬勃的朝气,果断而无畏地寻求创新,勇于冒险,勇于跳进造芯的大水当中,注入一抹不一样的色彩。

固然,云端市场巨擘环伺,终端市场亦是强手如林,留给创企的机会有,真正做到包围也很难。AI芯片家当的规律还需经历漫长的考验,而更多带着各类创业者的涌入,必将会为全部家当创造更多的能够性。

在当局、投资方、孵化器等机构的赞助下,或许下一个破局者曾经在生长当中。