AI时代对芯片设计的一个最大的需求变化是

步子哥

带宽，尤其是内存带宽。
芯片设计的难度将降低，核心的算力就是矩阵计算而已，但设计的难点会集中在多芯片联合Chiplet架构下，如果构造出800GB/s以上的带宽。
以目前LLM的规模，至少要32B参数，FP8也就是32GB内存，外加 KVCache，实际需要大约64GB内存才有可能跑一个略微有点用的本地AI。
而这个AI的性能呢，取决于CPU/GPU/NPU一秒钟内能读多少遍模型的参数。

一小步

有道理