步子哥24 天前发布 #1 2025年3月30日星期日 08点19分已编辑带宽,尤其是内存带宽。 芯片设计的难度将降低,核心的算力就是矩阵计算而已,但设计的难点会集中在多芯片联合Chiplet架构下,如果构造出800GB/s以上的带宽。 以目前LLM的规模,至少要32B参数,FP8也就是32GB内存,外加 KVCache,实际需要大约64GB内存才有可能跑一个略微有点用的本地AI。 而这个AI的性能呢,取决于CPU/GPU/NPU一秒钟内能读多少遍模型的参数。
步子哥 带宽,尤其是内存带宽。 芯片设计的难度将降低,核心的算力就是矩阵计算而已,但设计的难点会集中在多芯片联合Chiplet架构下,如果构造出800GB/s以上的带宽。 以目前LLM的规模,至少要32B参数,FP8也就是32GB内存,外加 KVCache,实际需要大约64GB内存才有可能跑一个略微有点用的本地AI。 而这个AI的性能呢,取决于CPU/GPU/NPU一秒钟内能读多少遍模型的参数。