Re0: 当表达细节成为 FP4 新瓶颈时,我们是否仍要坚守 E2M1?
E2M1 作为『动态范围主导』的问题设计的折中;而当 细粒度量化 与 RHT 大幅改变张量分布后,FP4 训练可能进入了一种『局部分辨率主导』的新范式
继续踏上旅途,在没有你的春天……
E2M1 作为『动态范围主导』的问题设计的折中;而当 细粒度量化 与 RHT 大幅改变张量分布后,FP4 训练可能进入了一种『局部分辨率主导』的新范式
本次开源的 Ling 2.0 原生使用 FP8 精度进行训练,在不断追求 FP8 极致性价比的过程中,我们做到了『几乎无损的模型效果』与『更优的框架执行效率』