PM 產品數據與實驗 06 － Retention、Cohort、Segmentation：看懂誰留下來，比只看平均值重要

很多產品看起來沒有明顯出事，往往就是因為平均值太會粉飾太平。

整體 D7 沒掉。
平均轉換也還行。
Dashboard 甚至還有些指標在往上。

如果你只看這一層，很容易得到一個危險的結論：產品大概沒什麼大問題。

但真實世界常常不是這樣。

有可能是新客變差，老客把平均撐住。
有可能是某個高品質渠道越來越好，掩蓋了其他來源的惡化。
也有可能是某群用戶其實很快流失，只是另一群重度使用者把整體數字拖住了。

這也是為什麼 PM 一旦開始碰留存，很快就會發現：

retention、cohort、segmentation 不是三個獨立名詞，而是一整套用來拆開平均值幻覺的分析方法。

我會把這三個東西理解成：

Retention：有沒有回來，回來得夠不夠穩
Cohort：是哪一批人回來
Segmentation：是哪些人回來，哪些人沒回來

如果你只看 retention，而不看 cohort 與 segmentation，很容易只拿到一個看似客觀、其實很鈍的平均答案。

留存不是「有沒有打開 App」，而是有沒有回到價值

很多團隊談 retention，第一步就會先掉進一個坑：把 return event 定得太隨便。

例如：

有沒有任何 event
有沒有打開 App
有沒有 page view

這些定義不是完全不能用，但它們往往太鬆。鬆到最後，你量到的未必是產品價值持續存在，而只是某種表面活躍。

Mixpanel 在 retention 文件裡把 retention 描述成「做了一個事件之後，再回來做另一個事件」。GA4 的 cohort exploration 也是先定 inclusion criteria 和 return criteria。這其實都在提醒同一件事：

Retention 的核心，不是看人有沒有回來碰到產品，而是先定義什麼叫值得算作回來。

對訂房產品來說，這個 return event 可能是：

再次搜尋
再次查看房源
再次開始訂房
成功完成第二次訂單

這幾個定義對應的是完全不同的產品問題。

如果你在看 activation 後的短期留存，search_performed 或 view_listing 可能有意義。
如果你在看真實商業價值，第二次成功訂房通常更接近你要的答案。

所以我通常不會先問「你們 D7 retention 是多少」，而會先問：

你們把什麼行為算作 retained，這個行為和產品價值的關係夠不夠近？

D1、D7、D30 很有用，但它們不是答案本身

D1、D7、D30 當然重要，因為它們提供了共同語言。

但它們本質上只是時間切片，不是洞察本身。

對某些高頻產品，D1 和 D7 很關鍵。
對低頻、高考慮週期的產品，D30 甚至 D60 可能更有意義。
對內容或社群型產品，GA4 這類工具還會用 DAU / WAU / MAU stickiness ratio 來補看使用黏性，但 stickiness 也不是 cohort retention 的替代品。

所以我比較喜歡這樣看：

D1 常在看起始體驗和第一輪價值
D7 常在看是否形成早期回訪習慣
D30 更接近長一點的留存穩定度

你要選哪一個，不應該先看大家都在講什麼，而要先看你的產品節奏。

Cohort 的世界觀，是把不同批次拆開看

Cohort analysis 最重要的貢獻，不是表格長得很專業，而是它把「不同時間進來的人」分開看。

這一步很關鍵，因為很多產品問題本來就不是總體問題，而是某一批人、某一個版本、某一種來源的問題。

例如你每週都看整體 D7 retention，數字看起來穩定在 18%。

這個數字可能代表兩種完全不同的世界：

世界 A：每一批新客都差不多

那就表示產品體質大致穩定，只是仍有優化空間。

世界 B：新 cohort 越來越差，舊 cohort 還撐著平均

那你其實已經在漏水，只是水箱還沒見底。

Cohort 的價值，就是把這兩個世界拆開。

GA4 的 cohort exploration 會依照 inclusion 和 return criteria 形成 cohort，並用日、週、月粒度展示每一批人在後續區間的回訪狀況。這個做法提醒我們：cohort 不是一張圖，而是一種看時間批次的方法。

PM 真正要看的是什麼

我通常會先看三件事：

新 cohort 是變好還變差
這告訴我最近的產品或流量變化，有沒有真的改善起始體驗。
不同 cohort 的衰退形狀長怎樣
有些產品是 Day 1 掉最兇，有些是 Day 7 之後才鬆。這反映的不是同一種問題。
某次改版前後，cohort 形狀有沒有變
如果只是整體均值變一點點，你很難判斷。但 cohort shape 變了，通常更有訊號。

Segmentation：不是切爽的，是用來找差異真正在哪裡

當 cohort 告訴你「哪一批」出問題，segmentation 進一步回答的是：

在同一批人裡，到底是哪些類型的人留下來，哪些類型的人走了？

Amplitude 把 segmentation 講得很實際，核心就是用 user segments 去看不同群組在產品中的行為差異。Mixpanel 也把 cohort 定義成共享某些屬性或行為序列的一群使用者。這些工具語言不太一樣，但指向的是同一件事：不要把所有人假裝成同一種人。

對 PM 來說，我最常用的 segmentation 維度其實就三種。

1. 來源分群：source / channel / campaign

這組維度很適合回答一個經典問題：

這是價值問題，還是流量品質問題？

如果某個新廣告渠道帶來很多註冊，整體 activation 也許看起來還行，但 D7 retention 明顯更差，那問題不一定在 onboarding，而可能在於 promise 和受眾根本不對。

2. 身分或特徵分群：country、device、plan、persona

這組維度通常幫你看：

某些國家是不是因供給不足而留不住
某種裝置是不是流程體驗比較差
免費與付費使用者的回訪模式差在哪

3. 行為分群：有沒有做過某個關鍵動作

這類 segmentation 最接近產品問題本身。

例如：

看過至少 5 個房源的人，D7 retention 是否更高
第一天完成收藏的人，後續回訪是否更穩
在 24 小時內完成第一次預訂的人，是否更可能在 30 天內再次下單

這時 segmentation 不只是描述差異，而是在幫你找可能的 aha proxy 和 leading indicator。

平均留存很容易把 PM 帶往錯的方向

這裡我想講一個 PM 很常遇到的判斷岔路。

假設某個月整體 D7 retention 從 18% 掉到 16%。

如果你只看平均值，你很可能會直接得出：產品留存變差了，要去修 activation。

但拆開來看，可能有三種完全不同的故事。

故事一：所有 segment 都一起掉

那比較像產品價值或體驗本身出問題。

故事二：只有某個新渠道掉很多

那更像流量品質問題，不一定該優先改產品。

故事三：某些高意圖行為的人沒掉，但低意圖的大量新客變多了

這時候整體均值變差，未必是體驗退化，而可能是 acquisition mix 變了。

這三種情況，對應的動作完全不同。
第一種可能要修產品或追 onboarding friction。
第二種可能要修訊息、著陸頁、投放對象。
第三種則可能要重新定義 success mix，而不是急著修介面。

所以我很常說：

Retention 不是一張表。它是一個把產品問題和流量問題分開的判讀框架。

什麼時候不要一直切 segment

講 segmentation 很容易走到另一個極端，就是切到停不下來。

這樣也很危險。

不要切的情況一：樣本太小

如果某個 segment 本來就只有很少人，你看到的波動很可能只是噪音。這時候切得越細，只是越容易被假訊號帶著跑。

不要切的情況二：切法沒有對應動作

如果你把使用者切成 17 種顏色、12 種地區、8 種註冊時間，但最後沒有一個切法會影響產品或營運決策，那只是資料觀光。

不要切的情況三：身份解析本來就不穩

GA4 的 cohort exploration 明講 cohort 是基於 device data，User-ID 不納入 cohort 建立。這提醒我們，工具的身分邊界會直接影響 cohort 和 segmentation 的可信度。

如果你的跨裝置 identity 還沒處理好，某些 cohort 結果本來就要打折看。

PM 可以怎麼讀 retention、cohort、segmentation

如果你要一個比較實際、不是教科書式的讀法，我會建議這樣：

第一步：先定 return event

先確認你要量的是「回到產品」，還是「回到價值」。這一步定錯，後面整套都會歪。

第二步：選對時間尺度

高頻產品先看 D1 / D7，低頻產品可能要看週留存、月留存，甚至 repeat purchase。

第三步：先看 cohort，不要先看平均

先看最近幾批是變好還變差，再看平均，不要反過來。

第四步：只切 2 到 3 個最有可能改變動作的 segment

通常我會先切來源、關鍵行為、裝置或國家，不會一開始就全切。

第五步：把結果翻成產品判斷

最後一定要回到這句話：

這比較像價值問題、流量品質問題，還是身分 / 資料定義問題？

沒有這一步，retention 分析很容易停在「有趣的圖表」。

留存分析最常怎麼失敗

失敗一：把任何 event 都當 retained

這樣得到的不是留存，而是鬆散活躍。

失敗二：只看平均，不看 cohort

你會太晚才發現新用戶其實變差。

失敗三：只看 cohort，不切 segment

你知道某一批變差，但不知道是誰變差。

失敗四：切太多 segment，卻沒有決策邏輯

最後什麼都看了，什麼也沒有決定。

失敗五：忽略 identity、資料延遲或口徑差異

這時你以為自己在看產品問題，實際上可能只是在看資料邊界。

PM 要從這篇真的帶走什麼

如果要把這篇濃縮成一句話，我會這樣講：

Retention 告訴你有沒有人回來，cohort 告訴你是哪一批人，segmentation 告訴你是哪一種人。三個都看，PM 才比較像在做判斷，不是在看平均值安慰自己。

做到這裡，你就已經不只是會看留存圖，而是開始能把留存讀成產品訊號：

這是 activation 問題還是 traffic mix 問題
這是價值沒有建立，還是建立了但回來理由不夠
這是某一群人掉，還是整體都在鬆

而這也正好接到下一篇。

因為當你已經能讀懂留存差異，下一個問題就是：

那我要怎麼把這些洞察變成可被驗證的實驗，而不是停在看圖說故事？

下一篇，我們來講 A/B Test 不只是假設與 p-value，PM 為什麼一定要懂 exposure、SRM、guardrails 和 validity。