存儲成本壓力上升期，面壁智能1.58

來源于：河北風順金屬制品有限公司

發布時間：2026-05-25 15:31:22

界面新聞記者 | 伍洋宇
界面新聞編輯 | 文姝琪

5月25日，存儲成本面壁智能聯合清華大學、壓力OpenBMB開源社區正式發布BitCPM-CANN。上升這是期面一個基于國產算力平臺原生訓練并開源的1.58-bit三值權重大模型系列，涵蓋0.5B、壁智1B、存儲成本3B、壓力8B四種尺寸版本。上升

相比BF16精度，期面BitCPM的壁智1.58-bit技術意義在于，通過將權重限制在-1、存儲成本0、壓力1三個值，上升釋放推理側約6倍的期面顯存，讓設備在同等物理內存約束下運行更大參數規模模型。壁智例如，過去只能跑4B模型的芯片，可以在同樣內存消耗下運行8B模型。

BitCPM-CANN的發布正值全球半導體供應鏈的動蕩期。高盛近期報告指出，受AI服務器需求爆發影響，繼續上調2026年存儲價格預期，DRAM漲幅250%-280%，NAND漲幅200%-250%，HBM因技術門檻與產能約束漲幅更高。

面壁智能AI Infra負責人李宇軒在接受界面新聞等媒體采訪時指出，內存成為了大模型行業的稀缺資源，其價格在過去一年內翻了約5倍，這導致手機及終端廠商在產品迭代中存在顯存焦慮。

對此，原生低比特訓練的端側AI模型，能夠有效平衡AI性能與顯存消耗嗎？

據界面新聞記者了解，針對該問題的傳統方法是后訓練量化，即先用高精度（如 BF16）完成模型訓練，再將其權重壓縮至INT8或INT4，但性能損失問題較為突出。

面壁智能的方案是先通過量化感知訓練（QAT）讓模型進入穩定的收斂態，隨后再引入全精度模型進行知識傳遞。由于低比特模型對數據質量極度敏感，團隊通過更精細的數據配比與教師模式，以抵消位寬壓縮帶來的信息損失。

在訓練范式上，李宇軒將這一先量化、再蒸餾的策略比作教導一個天資有限但勤奮的學生，如果過早引入復雜的蒸餾機制，模型反而難以收斂。

此外，李宇軒認為，從技術邏輯上看，1.58-bit被視為模型壓縮的“數學甜蜜點”。雖然1-bit（二值）理論上壓縮比更高，但無法同時兼顧數學表達的對稱性與含零特性，導致精度損失巨大。相比之下，1.58-bit能在保持極致壓縮比的同時，最大限度保留權重的表達豐富度。

數據顯示，BitCPM系列模型在常識、閱讀理解等11項核心任務中，保留了全精度模型90%至97%的能力。“如何用最便宜的芯片跑出最大的智能，這就是端側模型最核心的問題。”李宇軒強調，“1.58-bit是單位內存占用下，知識密度承載量最優的狀態。”

圖源：面壁智能

針對行業對精度損失的普遍擔憂，李宇軒表示，低比特帶來的退化是平緩而非斷崖式的，通過后訓練技術可以將損失引導至非核心場景，從而保證總結、交互等端側核心體驗不降級。

“我舉個例子，手機AI對代碼能力要求不高，我們就可以盡可能把這部分損失通過后訓練引導到代碼能力上，把重點放在客戶關注的指標上。”李宇軒說。

站在商業化角度，BitCPM的上端目標仍然是手機、車機等。李宇軒預判，隨著低比特技術與稀疏化（MoE）技術的疊加，更大規模模型（如60B）有望在明年上端，進一步拉近端側與云端的智能差距。

此次BitCPM的另一個突破還在于其國產算力屬性。此前，極低比特模型訓練依賴英偉達CUDA生態進行算法驗證，而BitCPM從量化算子、訓練算法到全鏈路框架均在華為昇騰原生環境中完成。

李宇軒告訴界面新聞記者，適配國產算力的主要挑戰不在硬件，而在軟件生態。面對編程環境差異，面壁團隊利用大概一個月時間才打通底層軟件棧。他認為，這次突破證明了國產芯片有能力承載復雜的低比特預訓練算法，實現國產模型、框架與芯片的協同。

分享到：

聯系方式