本地 LLM 微調拆解：從 Modelfile、LoRA 到 DPO 的實戰系列 part 09｜如何挑主力版本：Lexi、主力 adapter 與最後留下的判準

走到這裡，最該回答的其實不是「我還能再做什麼」。

而是：

我到底該留下什麼。

這整條路很容易讓人一直往前加東西：

再多一個 LoRA 版本
再深一點的 target modules
再多開幾層
再補一輪 DPO
再試一個新的 Modelfile
再換一個量化格式

它永遠都還能再做一點。
但真正麻煩的不是「能不能做」，而是：

Lexi、主力版本與最後判準圖

為什麼 Lexi 會變成一個參照物

你整條路一開始會想追 Lexi，不是因為它名字特別。
而是因為它很像一個很具體的誘惑：

同樣是 Llama 3.1 8B
體感速度沒有爛掉
整體聰明程度也沒有明顯掉
但護欄與說話方式明顯不一樣

這種東西很容易讓人第一反應是：

那我是不是也可以訓一顆差不多的？

後來真的一路跑過來，你才會慢慢看見，Lexi 真正提供的，不一定是 recipe，反而比較像一種對照。

它提醒你的不是：

一定要把模型改很深

而是：

你能不能在不把底模弄壞的前提下，改到你想要的使用手感

這差很多。

為什麼 Lexi 那條路看起來比較穩

這裡我會講得很保守，因為你沒有它的完整 recipe。

但至少從你前面一路研究到的線索來看，它讓人感受到的工程風格比較像：

保住強底模
盡量不要把底模訓壞
在外層包裝、格式、提示、推理與量化上做精細處理
最後把整體體感推出去

這跟你自己前面那條「小資料 LoRA 一路往深層鑽」形成了一個很好對照。

所以 Lexi 最有價值的地方，不是讓你模仿它每一步。
而是讓你意識到：

想保住聰明感，很多時候不是更深地改，而是更克制地改。

你前面為什麼會做出那麼多版本

這件事現在回頭看，其實非常合理。

因為你那時候其實在探索三件不同的事：

1. 施工範圍

從：

q_proj + v_proj
到 qkvo
到 all-linear

2. 施工樓層

從：

全層
到只後半層

3. 動手深度

從：

LoRA
到 partial FT
再到 DPO 這種不同訓練方法

所以這些版本不是因為你愛亂試。
而是因為你真的在摸：

哪種改法比較穩
哪種改法成本比較高
哪種改法容易把模型拉歪
哪種改法只是看起來深，其實不值得

baseline-small、qkvo-small、all-linear-small、all-linear-last-half-small 差在哪

這裡值得收成一個很清楚的表意邏輯。

baseline-small

q_proj
v_proj
全層

這是最保守的起手式。
作用像在最小施工範圍內摸 LoRA 的基本手感。

qkvo-small

q_proj
k_proj
v_proj
o_proj
全層

它把 attention 那整塊打得更開。
通常比 baseline 更有機會有感，也更有機會出事。

all-linear-small

更廣的 linear 模組
全層

這一版開始明顯往更深、更廣的方向走。
它不是自然升級，而是明顯提高施工範圍。

all-linear-last-half-small

更廣的 linear 模組
但只掛後半層

它的意義不在於「更高級」。
而在於你開始認真探索：

模組範圍
層級範圍

這兩個維度怎麼交叉影響結果。

qkvo 與 all-linear 的差別，為什麼值得留意

因為這不是幾個字母差別而已。

qkvo

主要還在 attention 內部動手。

all-linear

則是開始往 attention 外也擴出去。

所以你可以把它理解成：

qkvo：在一個核心區域加深施工
all-linear：開始擴大施工區

而實作上最重要的現實就是：

施工區域擴大，不等於品質一定更好。

這句是你親手證明過的。

`model.model.norm`、`lm_head` 為什麼會成為關鍵名字

因為它們都很靠近輸出。

`model.model.norm`

你可以把它想成輸出前最後一層整理姿態的地方。

`lm_head`

則是最後把內部表示投到詞彙表上的輸出頭。

所以一旦你打開這些位置：

行為可能很有感
代價也很有感

這也是為什麼它們常常在 partial FT 階段出現，而不是在最前面的 LoRA 小實驗裡就先碰。

`for block in model.model.layers[-4:]` 為什麼最後會是 4 層

不是因為 4 神聖。
而是因為在你當時那台機器、那個目標、那組成本限制下，它是一個折衷。

開少一點

可能太保守，幾乎沒什麼手感。

開多一點

很可能直接把機器拖死。

所以最後 4 層這種選擇，本質上不是理論正解，
而是現場最能成立的 compromise。

這種 compromise 很值得留。
因為它比硬背教科書更像真實做事的人會留下的判準。

erratic results 是什麼

我覺得這個詞很值得寫進主線，因為它很接近你前面真正遇到的狀態。

最白話的講法：

erratic results 指的是模型不是單純變差，而是變得不穩。

可能的表現像：

有時正常、有時胡說
某些題目突然怪掉
語氣、格式、知識感一起亂飄
同樣的 prompt，手感非常不一致

這比「模型整體降智」還更煩。
因為它讓你很難判讀到底是哪一層出了問題。

為什麼有些版本會超慢，有些版本會超笨

這句話值得再收一次，因為它幾乎就是整條路最後的判斷骨架。

超慢

通常是部署與格式問題：

merge 後太大
沒量化
本地推理成本很重

超笨

通常是訓練與 recipe 問題：

小資料太少
掛載範圍太大
adapter 把模型拉歪
DPO / SFT 訊號不夠強或不夠穩

所以你後面最該留下來的能力，不是做更多版本。
而是能分辨：

現在這個問題，是速度病，還是品質病。

主力版本到底怎麼挑

這件事如果只靠感覺，很容易越試越亂。

我現在會建議你用三層判準。

第一層：底模有沒有保住

還像不像原版那顆模型
聰明感有沒有掉
回答是不是開始莫名其妙亂補

第二層：客製化有沒有真的成立

格式有沒有更穩
口氣有沒有往目標偏
你要的東西到底有沒有出現

第三層：部署有沒有現實可用性

跑不跑得動
慢不慢
量化後還能不能接受
會不會只是實驗室裡成立

如果一個版本：

改得很多
但底模智力感掉了

那它不該是主力。

如果一個版本：

幾乎不改
但穩、快、可部署、而且有微幅朝正確方向偏

反而更有資格留下來。

什麼叫主力版本

不是最炫的那個。
不是最深的那個。
不是最有論文味的那個。

主力版本比較像：

你真的願意每天用、敢拿來持續疊代、而且不會每次開它都在賭運氣的那個版本。

這個定義聽起來不浪漫，
但我覺得很重要。

因為工程上的主力版本，本來就不該靠炫技入選。
它該靠穩定入選。

這整條路最後留下來的，不應該只是工具，而是判準

如果回頭看，你前面真正得到的其實不是：

我學會了 LoRA
我學會了 DPO
我學會了 merge
我學會了 quantize

真正留下來的比較像是一整套判讀能力：

哪些東西該放外層
哪些東西值得往 LoRA 寫
哪些東西根本不值得碰權重
哪些時候要停下來，先保住原版
哪些時候要承認不是模型壞了，是部署太重
哪些時候要承認不是部署問題，是訓練 recipe 本來就歪了

這些判準，才是整條路最後真正留下來的東西。

這篇最後該留下來的一句話

如果這一篇只留一句，我會留這句：

主力版本不是改得最多的那個，而是最能保住底模、又真的往目標偏，而且還能在現實裡跑得動的那個。

我覺得這句很值得收在整個主線最後。
因為它把這一整串：

分層
記憶
工具鏈
SFT / LoRA / DPO
訓練腳本
MPS / OOM
merge / quantization / Ollama

最後全部壓回一個真正有用的判準。