Post APvSBcHpO39RVHIBjE by maweiwei@pawoo.net
(DIR) More posts by maweiwei@pawoo.net
(DIR) Post #APvO7qUsDAOibLLBqq by Soybean@mastodon.ktachibana.party
2022-11-24T09:34:10Z
0 likes, 0 repeats
看到一个有意思的讨论,说为什么rpi4理论上内存带宽12.8GB/s,但是跑分只能跑出4GB/s的内存速度其实rpi4的架构有点类似一些早年的console,GPU初始化SoC的启动,AXI总线root port和MC都在GPU,只有GPU有可能使用完整的内存带宽,其余设备的内存访问都被卡在AXI总线的带宽上了(而且这芯片可能有两条AXI总线,就像STM32大多两条AHB)当然IO性能本来也不是ARM的强项就是了(====Actual memory bandwidth of raspberry pi4? - Raspberry Pi Forumshttps://forums.raspberrypi.com/viewtopic.php?t=281183
(DIR) Post #APvQm3IqDb93oH0q4e by Soybean@mastodon.ktachibana.party
2022-11-24T10:03:50Z
0 likes, 0 repeats
@maweiwei 实在是懒得翻rk3588那快5000页的文档,但是起码可以知道rk3588也是两条一宽一窄的AXI4,一个小的是CPU-GPU,一个大的是GPU-MEM,至于分别带宽多少没看;CPU不管大小核都需要经过同一个L3和总线通信,估计大小核IO速度差别不会太大
(DIR) Post #APvSBcHpO39RVHIBjE by maweiwei@pawoo.net
2022-11-24T10:19:39Z
0 likes, 0 repeats
@Soybean 所以说到底,慢全是ARM核垃圾...
(DIR) Post #APvSv9Pv3U07Hrn0ls by Soybean@mastodon.ktachibana.party
2022-11-24T10:27:54Z
0 likes, 0 repeats
@maweiwei 主要是搞x86级别的北桥,对arm不管是芯片面积还是功耗开支太大了再说就是x86的历史包袱,架构早期设计图形都是CPU直接写到VRAM和render寄存器的 -DMA都省了-,没有GPU的位置(
(DIR) Post #APvTmtFrMVlonYi1gm by Soybean@mastodon.ktachibana.party
2022-11-24T10:37:37Z
0 likes, 0 repeats
@maweiwei 那个大的AXI直接连在GPU L2上(也不能说是arm辣鸡吧,arm从一开始就是个HSA设计,x86至今都做不到长SIMD的完全GPU offload(至今还在堆晶体管处理AVX-AVX2-AVX512),再说stm32直接外挂SRAM/DRAM的性能我觉得还是很不错的(
(DIR) Post #APvUGPi9ljl7rG1SrY by maweiwei@pawoo.net
2022-11-24T10:42:56Z
0 likes, 0 repeats
@Soybean 现在我还上了最新的alarm全套,还给虚拟机做了vcpu pinning,全在A76大核上了再看看测试结果吧还是不行就真的是ARM76的锅了
(DIR) Post #APvgtFxFB14MLGMqrg by xymopen@pawoo.net
2022-11-24T13:04:24Z
0 likes, 0 repeats
@Soybean @maweiwei AMD 不是曾经想把浮点 offload 给 GPU 么,没成功。后来 x86 似乎就看不到异构计算的发展了。
(DIR) Post #APvi8lVmEMjuVoTmIC by Soybean@mastodon.ktachibana.party
2022-11-24T13:18:26Z
0 likes, 0 repeats
@xymopen @maweiwei 主要是NV牵头做x86的GPGPU但是没x86处理器,Intel市场份额最大但是集显废物,AMD直到今年才让集显支持HIP(