关于天机9000以及骁龙8GenX gen1的预测（？--粉丝服务平台-粉丝头条-fensifuwu.com

关于天机9000以及骁龙8GenX gen1的预测（？

科技 09-08 来源： Kurnal

当时还没发布的时候写的，懒得更改了

关于天机9000以及骁龙8GenX gen1的预测（？

前面是参数，后面是谈论

2019 10 25 R0P0

2021 5 25 R2P0解封

X2支持ARMv9的 AA64指令集，MMU，

40位PA（物理地址）

48位VA（虚拟地址）

128位长度的 SVE和SVE2

私有的，统一的数据和指令L2L1,

L2支持ECC纠错

集成执行单元和SIMD和FP支持

可选加密拓展

分离L1i和L1d

私有且统一的数据和指令L2cache

后端方面：

两组分支预测单元，两组整数单周期，两组整数单，多周期

4组FP单元（ASIMD）

两组存写单元，两组存储器，一个只存

4个FP(

2个复杂SIMD

2个简单SIMD

）

ROB从224增加到288

当然虽然大于AMD的Vermeer（256）但是不如Firestorm（630）

宽度依旧128bit

加大了Load/store部分，数据预取能力加强，提高访存性能

还有就是在流水线上，将dispatch的两周期减少到一个周期，流水线长度也减少了一级，（但是11和10区别不大）

现在谈X1

前端5解码8发射，6条整数流水线

4个加法ALU，一个复杂整数ALU，2个branch ALU

FP部分在4条带FMA的NEON（4X128）

ROB(重排序缓冲区从160-224（高通改了），L1d和L2带宽翻倍

同时A710

实行ARMv9 的A32，T32和A64指令集

内存管理单元（MMU）

40位物理地址（PA）

48位虚拟地址（VA）

拥有GIC(通用中断控制器)CPU接口，链接外部中断分发器

128向量长度的SVE和SVE2

集成执行单元与高级SMID和FP支持

缓存

独占L1i/d

可选独占或共享L2d，独占L2i

L1和L2支持MMU TC和ECC，允许SECDED

每个集群的所有核心都可以由不同的缓存大小

L1i 32-64 L1d 32-64 L2 256-512

L2事务队列48/56/62

L1i:32k/64k 4w

L1TLB支持4k/16K/64K和2MB页面大小

1536条目 4way的L0 MOP缓存

动态分支预测器

L1d

32k/64k 4way 64缓存线关联的缓存

L1d TLB 支持4k 16k 64k页面大小以及2mb和512mb块大小

核心独占L2，8w关联，256k/512k，通过异步cpu桥连接到dsu110

Cpu桥：

cpu网桥控制核心与dsu110之前的缓冲和同步

Cpu桥是异步的，允许每个核心使用不同的频率，功耗和区域实现点。

L1iTLB中的miss或者 L2TLB的hit由3个周期的审判

增加了TLBcache（32-48）

MOPcache被砍了，mop派发从6宽变成5宽，同时流水线还是缩短了一级

好来到我写过的A510!

首先天机9000给的是依旧的单核复合体，也就是一组整数一组浮点的设计，也就是说并不采用CMT架构

根据ppt，整数55%总性能35%（fp拖后腿了）但是并不知道是否为双核复合体给到了256k的L2

在CPU部分，至少这次MTK给了很多力L3给到了8m，面积虽然大但是被n4恰了

在GPU方面

在7-16cu下，为G710

1-6cu下，为G610

G510为G57迭代

G710为 G78迭代

G310为 G3

全部基于Valhall架构

Valhall：从G77开始，采用valhall，Valhall核心：新的超标量引擎（提升ipc以及pw值）

简化的ISA，新的指令组对编译器更友好

新的指令动态调度

配合 Vulkan等API，采用新的数据结构

例如前代的Bifrost架构是 4wide/8wide

G72执行部分包括4w的标量SIMD，warp size 4

G76则增加到两个4w,warp size 8

这种窄warp设计，导致调度时无法有效填充足够的线程，而Valhall则将warp增加到16w，这样ALU的利用率就会上升

执行引擎从之前的3个合并为一个大的，但是实际ALU则仍旧由两部分组成，2x16w的FMA

相比加Bifrost这种，（每个执行引擎都有各自的数字路径控制逻辑，scheduler，指令缓存），较为浪费资源，

G710相比较前代，每个shader核心包含了两个执行引擎，实现了shader翻倍

引擎内仍旧两个处理单元，但是稍有变化

在wide size和整数吞吐不变的情况下，G710的处理单元分为了4x4wide，每个引擎都有专门的资源，这种设计实现了每核每周期的FMA翻倍。新的TMU单元能做到每周期处理8个双线性纹素（？）

G710把mali本来的 job manger换成了所谓的 CSF，负责处理调度和draw call

G610 其实就是少于7个的G710

从直面参数来看，G510和G310的确很恐怖（100%呢）但是G31几百年没更新了……而且懒得写（正论）

G510的shader核心内部多了一个执行引擎，每个执行引擎选配2个丛集的处理单元，和G710类似，不过G510其中一个引擎可以只配一个处理单元，每周期fma处理能力可选48-64，另外在纹理单元可选每周期4纹素/8纹素，可选2-6核，可以选配L2

在天机9000中的GPU给到了mp10并定850mhz，类比mp20的g78但并不

内存带宽为60GB（4x16x3750x2÷8）slc为6m

Isp部分不太理解，摊参数来说，18bit，最高320mb懒写

Dsu110，新的Dynamiq

ARM

猜测D9000首发

推测模型在N4下，虽说事N5改进版本，而且不太清楚tsmc的技术节点在哪儿（14-？-7-5），也就是说与N7到N6的进步几乎相同，也几乎提升了15%的能量密度，降低5%的功耗

先说N5，相比较N7为80的密度，降低30功耗或者提高了15的性能（CPP：48,MMP：30,171.3mmtr）N5最大问题为热密度，在1.8x密度下功耗只降低到0.7x，不过好歹N5有个特殊的高密度版本，密度降低，功耗提升，热密度下降（猜测就是N4）

N4mmtr提升了6密度，提升7性能或者降低15功耗，也就是从171变成180左右的mmtr

N4重要的是功耗下降以及热密度问题并非晶体管密度

虽说tsmc并不想上GAAFFT,但是其mmtr还可，虽说单位像素密度并不能代表芯片die的总体密度，（毕竟由密度并不平均）

在D9000上，可能是第一个上了ARMv9的siv，其架构优势（sve）参考前文

首先，因arm的ppt有点虚假宣传，所以并不能参考，而且在D9000上采用了

X2上了1m的L2

A710则512

A510则256且定1.8（若甜品）

总L3为8m

DSU110

已知X2相比较X1流水线缩短了一节相比较上代的X1，同时已知在D9k上定频定到了3.05，粗略推测大概会在x1定3.36下性能约等（并不虽说有其他问题但是大概推测并例x1，x2一样）同时，L3给了8M（理论最高16m但是arm ppt对标1135g7推测8CX下一代（8GX?）, 根据ppt推测，虽说在同工艺在低频情况下，x2相比较x1能效比差一点，但是性能只要上来，x2能效比更强，也就是说arm推荐让巨核在高频情况下下运行其提高能效比，大概16%但是狡猾的是，arm在ppt中给的是4m的X1，8m的x2，怪哦

虽说看起来x2能效比更好，但是其实x2同频能效比肯定比X1费电，从ppt中，arm并不用常见的P/W，用了Performance/PowerCurve，也就是同性能来看能效比，同性能下，X2可以用更低的频率运行，来吃低电压的优势。根据16%的ipc领先，在低频情况下可以获得大概30%（土3）的能效比buff，当然在同频下x2的power会高点（那就藏在角落）推测GB5 单x2，1250分浮动

同时在a710中，足够平衡的PPAC其设计语言。在设计上，A710为A78的小修小布，前端比X2改的少了，但是还是由足够的增加幅度，分支预测的窗口缓存翻倍，增加了TLBcache（32-48）uop砍了，且派发从6宽变成5宽，降低了一个周期的流水线。在PPT，上，在给8L3情况下，相比较4的L3的A78，性能up10或者同性能功耗降低30。而且A710适合艹高频，ppt在A78不适合的地方拐的（有问题而且不太准确，于是咕了，反正ARM的ppt看着就行了）

在A510中，这个事ARM近期最大的改变，上一代的小核在用了7年的情况下（a55事a53加入乱序以及共享缓存(忘记)提升了很多，毕竟我写过那就一笔带过，复杂点的可以看我的前文或者我抄一下

首先解码从2到3

加入了分支预测

可以把A510组合成双核复合体，或者单核复合体

双核复合体共享L2cache，L2TLB和VPU单核复合体独占L2cache，L2TLB和VPU载入可以选择2x64bit或者2x128bit（估计上128bit在单核复合体做使用）

删除了AA32

小核如果加入AA32支持会导致功耗增加，所以arm谨慎的在A710上保留了AA32，绝对不是arm牙膏（

在能效比方面，在低频情况下甚至还不如A55，只有在高频的情况下比a55好，但是谁用高频的小核呢

A510相比上代提升了35%的性能但是没有谈功耗，有点恐惧，谁知道在多少定频的情况下呢。。。，估测实际毕竟增加了一个解码还增加了功耗，对A510持悲观态度，性能提升20功耗大概也在15左右，悲

在GPU方面，MTK很罕见的堆了10个G710，要知道，G710相比较前代g78虽说同属valhall架构但是每个shader核心包含了两个执行引擎，实现了shader翻倍，也就是理论可以理解为，和Google的“自研”tensor的malig78mp20相同但是又不同。猜测提升了大概20的性能，20的能效比（ARMPPT）

小道消息说，定在850mhz，有点恐怖，估测在GFX3.1为170（10~）左右，相比较前代大概提升不太多，理论最高mc16但是体积塞不下这是个问题而且shader翻倍不是闹真的。。。。

关于isp和基带这俩麻烦大佬们补充谢谢（咕）

总之就是，在D9000真的拿出来的时候，看看样品和我估分的差距写着写着（咕着咕着）

突然发现SDM要发布SM8450也就是8gen1，虽不提这命名有点USBIF那味，而且不提8CX gen3的命名怎也改成这奇奇怪怪的8GXG1)纯谈技术不谈其他的

早点时间，卢十瓦在微博说单D9000成本大于1999，我保持怀疑，毕竟当时8350的时候也就65美刀就算提价格30%也就80刀，我保持否定

谈谈8G1罢

目前已知的事，为SS的n4，离3GAA工艺还有1nm（毕竟签了协议便宜）

采用kyro780（不确定会不会增加AA32来应付国内市场

GPU再也不用6xx来超频了，采用Adreno730

CPU依旧三丛簇，1＋3＋4，

依旧不知道A510是单事双。

X2定到3.0，a710定到2.5，A510定到1.8，L3给了4m（相比较mtk今年boki，sdm真的弱了，L3不给满，命中率降低，延迟增加，审判延迟更多了，唯一好处就是，省钱，毕竟cache真的站面积

Cpu其实在D9000聊了，目前谈Adreno730

这玩意在默认驱动不怎么优化的情况下，730相比较660提升了35的性能，另外不清楚GPU给了多少，听说工程固件给到了960（欢迎来采购 QRD，高通牌手机，你值得拥有）功耗降低了1W，但是oem打算锁性能，因为他们认为性能溢出。猜测adr730估分170功耗6w左右同时其他参数并不清楚，毕竟我不是内鬼，我只是一个鸽子，其他的，因为被窝太暖和了导致根本不想写，算了，等高通发布会吧，大概性能预测在此，只谈技术不谈其他的，有些资料可以看我之前的文章，论A510和论armv9

顺便提一嘴 d7000，虽然我不知道怎么把G510塞到armv8.2去，而且还是tsmc的N5，并且依旧4个a78 2.75，4个a55 2.0？？？？？，而且malig510mc6，应该是个中端u，mtk应该要走田忌赛马的路，并且A55验收事1.8的，我不理解.jpg

根据TSMC官网来说，我个人觉得会上N5P试水，虽说事一个完整节点但是在如此密度下，漏电率事肯定高，加上虽然老旧但是不老就的工艺（不谈），相比较N7提升了1.8的密度，同功耗提升15或者同性能降低30的功耗

但是，这只是N5，我猜测d7000会上N5p也就是n5 performance（凑字数）与n7p类似，在FEOL和MOL中优化，同性能提升7的性能提升和同性能下的15的省电。而且，我虽然不理解为何上A78带G510，虽说G510提升巨大但是也是在G57不知道多少钱没改的情况下更新，也就是说，你看起来提升巨大，但是提升的点就是因为几百年没更行然后突然改个siv让剑桥来干，和G310同理，G31那是真的几百年没动了，这次更新表面100性能提升，但是对比同时期甚至上个时期的cu，你会发现提升个寂寞，这就是ARM的巧妙之处

真实谈一下G510罢

G510的shader核心增加了一个执行引擎，每个引擎最高2个丛集的处理单元，G510的一个引擎只能配置一个执行单元，每周期fma处理能力可选48-64，可选2-6cu，这波。。。怎么说呢算是D800的迭代，或者说在国内市场为了32位的支持，推出的新的兼容产品，毕竟在armv8还是有32位的，若在国内市场没得A710，那么等于这个cu就是纯粹的64位，对国内很多毒瘤软件不支持，导致了性能降低，这也是arm在发布会的时候：我们为有些地方特地保留了AA32（笑）有可能因此才保留了armv8的产品,不确定全部，随便猜测

再谈谈三星下一代新处理器，exy2200（？）首先是最眼红的就是，amd的RDNA2!!，下一篇文章应该咕了，肯定咕了，下一个就是猫鼬罢‘！