黄氏刀法 眼花缭乱!NVIDIA官方确认7nm安培首发割了一刀
近日,NVIDIA正式揭晓了全新一代GPU架构“安培”(Ampere),其庞大的规模、精妙的架构令人惊叹,同时不出意外、一如既往,首发核心又被割了一刀。
首先需要注意的是,不同于此前首发帕斯卡架构的Tesla P100、伏特架构的Tesla V100,这次的新计算卡被简单地叫做“A100”,并没有冠以Tesla的品牌序列,具体原因不详,可能是想用于更广泛领域。
与此同时,新的核心则被叫做“A100 Tensor Core GPU”,突出张量核心的关键作用,而核心代号按惯例延续为GA100。
GA100设计了8组GPC(GPU处理集群),每一组GPC里又分为8组TPC(纹理处理集群),而每组又分为两组SM(流式多处理器),然后每组SM包含64个FP32 CUDA核心(流处理器)。
这样一来,一颗完整的GA100芯片就一共有128组SM、8196个流处理器,而这种分组结构和以往的NVIDIA GPU架构是一致的。
同时,每一组SM里还有4个第三代Tensor核心,整颗芯片内共计512个,外部则搭配六颗HBM2显存,每颗8GB,12个512-bit控制器,总位宽6144-bit。
另外,二级缓存从6MB猛增至40MB,每组SM单元的共享内存从最多96KB增至164KB、寄存器容量还是256KB,但整颗芯片寄存器达到27MB。
GA100芯片采用台积电第一代7nm(N7)工艺制造,核心面积达826平方毫米,相比上代12nm GV100仅增大了11平方毫米(0.13%),但晶体管数量从211亿个猛增至542亿个,多了接近1.6倍,同时功耗控制在400W(增加33%),可见新架构和新工艺的威力。
如此庞大的核心在量产初期显然会受制于良品率问题,所以实际使用的A100核心未达成完整规格,但和以往简单屏蔽整组计算单元不同,这次砍得略有些复杂。
GPC单元屏蔽了整整一组,但剩余的也并未全部开启,其中两组GPC也各自屏蔽了一个TPC(两组SM),导致总的SM单元为108个、流处理器为6912个、Tensor核心为432个。
核心加速频率1410MHz,比前两代其实都低了,但整体性能在飞跃。
显存也没有逃过刀法,只开启了五组HBM2,所以总容量为40GB,总位宽为5120-bit,频率1215MHz,带宽1555GB/s,比上代增加73%。
具体到每个SM单元,其中的Tensor核心数量虽然从8个减少到4个,但每一个每时钟周期都支持多达256个FP16FP FMA操作,合计就是1024个,相比伏特、图灵架构翻了一番。
新的Tensor核心还支持对所有数据类型加速,包括FP16、BF16、TF32、FP64、INT8、INT4、Binary。
您可能也感兴趣:
官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
富士康计划2024年4月前在印度卡纳塔克邦生产iPhone
苹果数据显示iOS 16普及率超过80% iPadOS 16超过70%
Meta抢在苹果之前发布最新一代VR头显Quest 3
博通第二财季营收87亿美元 营收净利润同比仍保持增长
iPhone 15 Pro系列设计细节曝光:1.55mm极窄边框+弧边处理手感完美
再创历史新高 比亚迪5月新能源车销量24.02万辆
外媒称国内电动汽车电池制造商已在扩展韩国市场
丰田将向北卡罗来纳州新电池厂再投资21亿美元 投资总额达59亿美元
苹果App Store去年创收1.1万亿美元 超九成归于开发者和企业
更多
- 现代汽车5月份销售2.3万辆电动汽车 连续4个月超过2万辆
- 必应聊天放宽限制:每轮会话最多支持30次交流 每日上限增至300次
- 富士康计划2024年4月前在印度卡纳塔克邦生产iPhone
- 苹果数据显示iOS 16普及率超过80% iPadOS 16超过70%
- Meta抢在苹果之前发布最新一代VR头显Quest 3
- 博通第二财季营收87亿美元 营收净利润同比仍保持增长
- 起亚计划2030年在欧洲销售超过50万辆电动汽车 占年度销量近三分之一
- LG新能源和现代汽车集团将斥资43亿美元在美合建一家电池厂
- 外媒称国内电动汽车电池制造商已在扩展韩国市场
- 丰田将向北卡罗来纳州新电池厂再投资21亿美元 投资总额达59亿美元