关于天机9000以及骁龙8GenX gen1的预测(?

当时还没发布的时候写的,懒得更改了

关于天机9000以及骁龙8GenX gen1的预测(?

前面是参数,后面是谈论

2019 10 25 R0P0

2021 5 25 R2P0解封

X2支持ARMv9的 AA64指令集,MMU,

40位PA(物理地址)

48位VA(虚拟地址)

128位长度的 SVE和SVE2

私有的,统一的数据和指令L2L1,

L2支持ECC纠错

集成执行单元和SIMD和FP支持

可选加密拓展

分离L1i和L1d

私有且统一的数据和指令L2cache

后端方面:

两组分支预测单元,两组整数单周期,两组整数单,多周期

4组FP单元(ASIMD)

两组存写单元,两组存储器,一个只存

4个FP(

2个复杂SIMD

2个简单SIMD

ROB从224增加到288

当然虽然大于AMD的Vermeer(256)但是不如Firestorm(630)

宽度依旧128bit

加大了Load/store部分,数据预取能力加强,提高访存性能

还有就是在流水线上,将dispatch的两周期减少到一个周期,流水线长度也减少了一级,(但是11和10区别不大)

现在谈X1

前端5解码8发射,6条整数流水线

4个加法ALU,一个复杂整数ALU,2个branch ALU

FP部分在4条带FMA的NEON(4X128)

ROB(重排序缓冲区从160-224(高通改了),L1d和L2带宽翻倍

同时A710

实行ARMv9 的A32,T32和A64指令集

内存管理单元(MMU)

40位物理地址(PA)

48位虚拟地址(VA)

拥有GIC(通用中断控制器)CPU接口,链接外部中断分发器

128向量长度的SVE和SVE2

集成执行单元与高级SMID和FP支持

缓存

独占L1i/d

可选独占或共享L2d,独占L2i

L1和L2支持MMU TC和ECC,允许SECDED

每个集群的所有核心都可以由不同的缓存大小

L1i 32-64 L1d 32-64 L2 256-512

L2事务队列48/56/62

L1i:32k/64k 4w

L1TLB支持4k/16K/64K和2MB页面大小

1536条目 4way的L0 MOP缓存

动态分支预测器

L1d

32k/64k 4way 64缓存线关联的缓存

L1d TLB 支持4k 16k 64k页面大小以及2mb和512mb块大小

L2

核心独占L2,8w关联,256k/512k,通过异步cpu桥连接到dsu110

Cpu桥:

cpu网桥控制核心与dsu110之前的缓冲和同步

Cpu桥是异步的,允许每个核心使用不同的频率,功耗和区域实现点。

L1iTLB中的miss或者 L2TLB的hit由3个周期的审判

增加了TLBcache(32-48)

MOPcache被砍了,mop派发从6宽变成5宽,同时流水线还是缩短了一级

好来到我写过的A510!

首先天机9000给的是依旧的 单核复合体,也就是一组整数一组浮点的设计,也就是说并不采用CMT架构

根据ppt,整数55%总性能35%(fp拖后腿了)但是并不知道是否为双核复合体给到了256k的L2

在CPU部分,至少这次MTK给了很多力L3给到了8m,面积虽然大但是被n4恰了

在GPU方面

在7-16cu下,为G710

1-6cu下,为G610

G510为G57迭代

G710为 G78迭代

G310为 G3

全部基于Valhall架构

Valhall:从G77开始,采用valhall,Valhall核心:新的超标量引擎(提升ipc以及pw值)

简化的ISA,新的指令组对编译器更友好

新的指令动态调度

配合 Vulkan等API,采用新的数据结构

例如前代的Bifrost架构是 4wide/8wide

G72执行部分包括4w的标量SIMD,warp size 4

G76则增加到两个4w,warp size 8

这种窄warp设计,导致调度时无法有效填充足够的线程,而Valhall则将warp增加到16w,这样ALU的利用率就会上升

执行引擎从之前的3个合并为一个大的,但是实际ALU则仍旧由两部分组成,2x16w的FMA

相比加Bifrost这种,(每个执行引擎都有各自的 数字路径控制逻辑,scheduler,指令缓存),较为浪费资源,

G710相比较前代,每个shader核心包含了两个执行引擎,实现了shader翻倍

引擎内仍旧两个处理单元,但是稍有变化

在wide size和整数吞吐不变的情况下,G710的处理单元分为了4x4wide,每个引擎都有专门的资源,这种设计实现了每核每周期的FMA翻倍。新的TMU单元能做到每周期处理8个双线性纹素(?)

G710把mali本来的 job manger换成了所谓的 CSF,负责处理调度和draw call

G610 其实就是少于7个的G710

从直面参数来看,G510和G310的确很恐怖(100%呢)但是G31几百年没更新了……而且懒得写(正论)

G510的shader核心内部多了一个执行引擎,每个执行引擎选配2个丛集的处理单元,和G710类似,不过G510其中一个引擎可以只配一个处理单元,每周期fma处理能力可选48-64,另外在纹理单元可选每周期4纹素/8纹素,可选2-6核,可以选配L2

在天机9000中的GPU给到了mp10并定850mhz,类比mp20的g78但并不

内存带宽为60GB(4x16x3750x2÷8)slc为6m

Isp部分不太理解,摊参数来说,18bit,最高320mb懒写

Dsu110,新的Dynamiq

ARM

猜测D9000首发

推测模型在N4下,虽说事N5改进版本,而且不太清楚tsmc的技术节点在哪儿(14-?-7-5),也就是说与N7到N6的进步几乎相同,也几乎提升了15%的能量密度,降低5%的功耗

先说N5,相比较N7为80的密度,降低30功耗或者提高了15的性能(CPP:48,MMP:30,171.3mmtr)N5最大问题为热密度,在1.8x密度下功耗只降低到0.7x,不过好歹N5有个特殊的高密度版本,密度降低,功耗提升,热密度下降(猜测就是N4)

N4mmtr提升了6密度,提升7性能或者降低15功耗,也就是从171变成180左右的mmtr

N4重要的是功耗下降以及热密度问题并非晶体管密度

虽说tsmc并不想上GAAFFT,但是其mmtr还可,虽说单位像素密度并不能代表芯片die的总体密度,(毕竟由密度并不平均)

在D9000上,可能是第一个上了ARMv9的siv,其架构优势(sve)参考前文

首先,因arm的ppt有点虚假宣传,所以并不能参考,而且在D9000上采用了

X2上了1m的L2

A710则512

A510则256且定1.8(若甜品)

总L3为8m

DSU110

已知X2相比较X1流水线缩短了一节相比较上代的X1,同时已知在D9k上定频定到了3.05,粗略推测大概会在x1定3.36下性能约等(并不虽说有其他问题但是大概推测并例x1,x2一样)同时,L3给了8M(理论最高16m但是arm ppt对标1135g7推测8CX下一代(8GX?), 根据ppt推测,虽说在同工艺在低频情况下,x2相比较x1能效比差一点,但是性能只要上来,x2能效比更强,也就是说arm推荐让巨核在高频情况下下运行其提高能效比,大概16%但是狡猾的是,arm在ppt中给的是4m的X1,8m的x2,怪哦

虽说看起来x2能效比更好,但是其实x2同频能效比肯定比X1费电,从ppt中,arm并不用常见的P/W,用了Performance/PowerCurve,也就是同性能来看能效比,同性能下,X2可以用更低的频率运行,来吃低电压的优势。根据16%的ipc领先,在低频情况下可以获得大概30%(土3)的能效比buff,当然在同频下x2的power会高点(那就藏在角落)推测GB5 单x2,1250分浮动

同时在a710中,足够平衡的PPAC其设计语言。在设计上,A710为A78的小修小布,前端比X2改的少了,但是还是由足够的增加幅度,分支预测的窗口缓存翻倍,增加了TLBcache(32-48)uop砍了,且派发从6宽变成5宽,降低了一个周期的流水线。在PPT,上,在给8L3情况下,相比较4的L3的A78,性能up10或者同性能功耗降低30。而且A710适合艹高频,ppt在A78不适合的地方拐的(有问题而且不太准确,于是咕了,反正ARM的ppt看着就行了)

在A510中,这个事ARM近期最大的改变,上一代的小核在用了7年的情况下(a55事a53加入乱序以及共享缓存(忘记)提升了很多,毕竟我写过那就一笔带过,复杂点的可以看我的前文或者我抄一下

首先解码从2到3

加入了分支预测

可以把A510组合成双核复合体,或者单核复合体

双核复合体共享L2cache,L2TLB和VPU单核复合体独占L2cache,L2TLB和VPU载入可以选择2x64bit或者2x128bit(估计上128bit在单核复合体做使用)

删除了AA32

小核如果加入AA32支持会导致功耗增加,所以arm谨慎的在A710上保留了AA32,绝对不是arm牙膏(

在能效比方面,在低频情况下甚至还不如A55,只有在高频的情况下比a55好,但是谁用高频的小核呢

A510相比上代提升了35%的性能但是没有谈功耗,有点恐惧,谁知道在多少定频的情况下呢。。。,估测实际毕竟增加了一个解码还增加了功耗,对A510持悲观态度,性能提升20功耗大概也在15左右,悲

在GPU方面,MTK很罕见的堆了10个G710,要知道,G710相比较前代g78虽说同属valhall架构但是每个shader核心包含了两个执行引擎,实现了shader翻倍,也就是理论可以理解为,和Google的“自研”tensor的malig78mp20相同但是又不同。猜测提升了大概20的性能,20的能效比(ARMPPT)

小道消息说,定在850mhz,有点恐怖,估测在GFX3.1为170(10~)左右,相比较前代大概提升不太多,理论最高mc16但是体积塞不下这是个问题而且shader翻倍不是闹真的。。。。

关于isp和基带这俩麻烦大佬们补充谢谢(咕)

总之就是,在D9000真的拿出来的时候,看看样品和我估分的差距写着写着(咕着咕着)

突然发现SDM要发布SM8450也就是8gen1,虽不提这命名有点USBIF那味,而且不提8CX gen3的命名怎也改成这奇奇怪怪的8GXG1)纯谈技术不谈其他的

早点时间,卢十瓦在微博说单D9000成本大于1999,我保持怀疑,毕竟当时8350的时候也就65美刀就算提价格30%也就80刀,我保持否定

谈谈8G1罢

目前已知的事,为SS的n4,离3GAA工艺还有1nm(毕竟签了协议便宜)

采用kyro780(不确定会不会增加AA32来应付国内市场

GPU再也不用6xx来超频了,采用Adreno730

CPU依旧三丛簇,1+3+4,

依旧不知道A510是单事双。

X2定到3.0,a710定到2.5,A510定到1.8,L3给了4m(相比较mtk今年boki,sdm真的弱了,L3不给满,命中率降低,延迟增加,审判延迟更多了,唯一好处就是,省钱,毕竟cache真的站面积

Cpu其实在D9000聊了,目前谈Adreno730

这玩意在默认驱动不怎么优化的情况下,730相比较660提升了35的性能,另外不清楚GPU给了多少,听说工程固件给到了960(欢迎来采购 QRD,高通牌手机,你值得拥有)功耗降低了1W,但是oem打算锁性能,因为他们认为性能溢出。猜测adr730估分170功耗6w左右同时其他参数并不清楚,毕竟我不是内鬼,我只是一个鸽子,其他的,因为被窝太暖和了导致根本不想写,算了,等高通发布会吧,大概性能预测在此,只谈技术不谈其他的,有些资料可以看我之前的文章,论A510和论armv9

顺便提一嘴 d7000,虽然我不知道怎么把G510塞到armv8.2去,而且还是tsmc的N5,并且依旧4个a78 2.75,4个a55 2.0?????,而且malig510mc6,应该是个中端u,mtk应该要走田忌赛马的路,并且A55验收事1.8的,我不理解.jpg

根据TSMC官网来说,我个人觉得会上N5P试水,虽说事一个完整节点但是在如此密度下,漏电率事肯定高,加上虽然老旧但是不老就的工艺(不谈),相比较N7提升了1.8的密度,同功耗提升15或者同性能降低30的功耗

但是,这只是N5,我猜测d7000会上N5p也就是n5 performance(凑字数)与n7p类似,在FEOL和MOL中优化,同性能提升7的性能提升和同性能下的15的省电。而且,我虽然不理解为何上A78带G510,虽说G510提升巨大但是也是在G57不知道多少钱没改的情况下更新,也就是说,你看起来提升巨大,但是提升的点就是因为几百年没更行然后突然改个siv让剑桥来干,和G310同理,G31那是真的几百年没动了,这次更新表面100性能提升,但是对比同时期甚至上个时期的cu,你会发现提升个寂寞,这就是ARM的巧妙之处

真实谈一下G510罢

G510的shader核心增加了一个执行引擎,每个引擎最高2个丛集的处理单元,G510的一个引擎只能配置一个执行单元,每周期fma处理能力可选48-64,可选2-6cu,这波。。。怎么说呢算是D800的迭代,或者说在国内市场为了32位的支持,推出的新的兼容产品,毕竟在armv8还是有32位的,若在国内市场没得A710,那么等于这个cu就是纯粹的64位,对国内很多毒瘤软件不支持,导致了性能降低,这也是arm在发布会的时候:我们为有些地方特地保留了AA32(笑)有可能因此才保留了armv8的产品,不确定全部,随便猜测

再谈谈三星下一代新处理器,exy2200(?)首先是最眼红的就是,amd的RDNA2!!,下一篇文章应该咕了,肯定咕了,下一个就是猫鼬罢‘!

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章