很多產品看起來沒有明顯出事,往往就是因為平均值太會粉飾太平。

整體 D7 沒掉。
平均轉換也還行。
Dashboard 甚至還有些指標在往上。

如果你只看這一層,很容易得到一個危險的結論:產品大概沒什麼大問題。

但真實世界常常不是這樣。

有可能是新客變差,老客把平均撐住。
有可能是某個高品質渠道越來越好,掩蓋了其他來源的惡化。
也有可能是某群用戶其實很快流失,只是另一群重度使用者把整體數字拖住了。

這也是為什麼 PM 一旦開始碰留存,很快就會發現:

retention、cohort、segmentation 不是三個獨立名詞,而是一整套用來拆開平均值幻覺的分析方法。

我會把這三個東西理解成:

  • Retention:有沒有回來,回來得夠不夠穩
  • Cohort:是哪一批人回來
  • Segmentation:是哪些人回來,哪些人沒回來

如果你只看 retention,而不看 cohort 與 segmentation,很容易只拿到一個看似客觀、其實很鈍的平均答案。

留存不是「有沒有打開 App」,而是有沒有回到價值

很多團隊談 retention,第一步就會先掉進一個坑:把 return event 定得太隨便。

例如:

  • 有沒有任何 event
  • 有沒有打開 App
  • 有沒有 page view

這些定義不是完全不能用,但它們往往太鬆。鬆到最後,你量到的未必是產品價值持續存在,而只是某種表面活躍。

Mixpanel 在 retention 文件裡把 retention 描述成「做了一個事件之後,再回來做另一個事件」。GA4 的 cohort exploration 也是先定 inclusion criteria 和 return criteria。這其實都在提醒同一件事:

Retention 的核心,不是看人有沒有回來碰到產品,而是先定義什麼叫值得算作回來。

對訂房產品來說,這個 return event 可能是:

  • 再次搜尋
  • 再次查看房源
  • 再次開始訂房
  • 成功完成第二次訂單

這幾個定義對應的是完全不同的產品問題。

如果你在看 activation 後的短期留存,search_performedview_listing 可能有意義。
如果你在看真實商業價值,第二次成功訂房通常更接近你要的答案。

所以我通常不會先問「你們 D7 retention 是多少」,而會先問:

你們把什麼行為算作 retained,這個行為和產品價值的關係夠不夠近?

D1、D7、D30 很有用,但它們不是答案本身

D1、D7、D30 當然重要,因為它們提供了共同語言。

但它們本質上只是時間切片,不是洞察本身。

對某些高頻產品,D1 和 D7 很關鍵。
對低頻、高考慮週期的產品,D30 甚至 D60 可能更有意義。
對內容或社群型產品,GA4 這類工具還會用 DAU / WAU / MAU stickiness ratio 來補看使用黏性,但 stickiness 也不是 cohort retention 的替代品。

所以我比較喜歡這樣看:

  • D1 常在看起始體驗和第一輪價值
  • D7 常在看是否形成早期回訪習慣
  • D30 更接近長一點的留存穩定度

你要選哪一個,不應該先看大家都在講什麼,而要先看你的產品節奏。

Cohort 的世界觀,是把不同批次拆開看

Cohort analysis 最重要的貢獻,不是表格長得很專業,而是它把「不同時間進來的人」分開看。

這一步很關鍵,因為很多產品問題本來就不是總體問題,而是某一批人、某一個版本、某一種來源的問題。

例如你每週都看整體 D7 retention,數字看起來穩定在 18%。

這個數字可能代表兩種完全不同的世界:

世界 A:每一批新客都差不多

那就表示產品體質大致穩定,只是仍有優化空間。

世界 B:新 cohort 越來越差,舊 cohort 還撐著平均

那你其實已經在漏水,只是水箱還沒見底。

Cohort 的價值,就是把這兩個世界拆開。

GA4 的 cohort exploration 會依照 inclusion 和 return criteria 形成 cohort,並用日、週、月粒度展示每一批人在後續區間的回訪狀況。這個做法提醒我們:cohort 不是一張圖,而是一種看時間批次的方法。

PM 真正要看的是什麼

我通常會先看三件事:

  1. 新 cohort 是變好還變差
    這告訴我最近的產品或流量變化,有沒有真的改善起始體驗。

  2. 不同 cohort 的衰退形狀長怎樣
    有些產品是 Day 1 掉最兇,有些是 Day 7 之後才鬆。這反映的不是同一種問題。

  3. 某次改版前後,cohort 形狀有沒有變
    如果只是整體均值變一點點,你很難判斷。但 cohort shape 變了,通常更有訊號。

Segmentation:不是切爽的,是用來找差異真正在哪裡

當 cohort 告訴你「哪一批」出問題,segmentation 進一步回答的是:

在同一批人裡,到底是哪些類型的人留下來,哪些類型的人走了?

Amplitude 把 segmentation 講得很實際,核心就是用 user segments 去看不同群組在產品中的行為差異。Mixpanel 也把 cohort 定義成共享某些屬性或行為序列的一群使用者。這些工具語言不太一樣,但指向的是同一件事:不要把所有人假裝成同一種人。

對 PM 來說,我最常用的 segmentation 維度其實就三種。

1. 來源分群:source / channel / campaign

這組維度很適合回答一個經典問題:

這是價值問題,還是流量品質問題?

如果某個新廣告渠道帶來很多註冊,整體 activation 也許看起來還行,但 D7 retention 明顯更差,那問題不一定在 onboarding,而可能在於 promise 和受眾根本不對。

2. 身分或特徵分群:country、device、plan、persona

這組維度通常幫你看:

  • 某些國家是不是因供給不足而留不住
  • 某種裝置是不是流程體驗比較差
  • 免費與付費使用者的回訪模式差在哪

3. 行為分群:有沒有做過某個關鍵動作

這類 segmentation 最接近產品問題本身。

例如:

  • 看過至少 5 個房源的人,D7 retention 是否更高
  • 第一天完成收藏的人,後續回訪是否更穩
  • 在 24 小時內完成第一次預訂的人,是否更可能在 30 天內再次下單

這時 segmentation 不只是描述差異,而是在幫你找可能的 aha proxy 和 leading indicator。

平均留存很容易把 PM 帶往錯的方向

這裡我想講一個 PM 很常遇到的判斷岔路。

假設某個月整體 D7 retention 從 18% 掉到 16%。

如果你只看平均值,你很可能會直接得出:產品留存變差了,要去修 activation。

但拆開來看,可能有三種完全不同的故事。

故事一:所有 segment 都一起掉

那比較像產品價值或體驗本身出問題。

故事二:只有某個新渠道掉很多

那更像流量品質問題,不一定該優先改產品。

故事三:某些高意圖行為的人沒掉,但低意圖的大量新客變多了

這時候整體均值變差,未必是體驗退化,而可能是 acquisition mix 變了。

這三種情況,對應的動作完全不同。
第一種可能要修產品或追 onboarding friction。
第二種可能要修訊息、著陸頁、投放對象。
第三種則可能要重新定義 success mix,而不是急著修介面。

所以我很常說:

Retention 不是一張表。它是一個把產品問題和流量問題分開的判讀框架。

什麼時候不要一直切 segment

講 segmentation 很容易走到另一個極端,就是切到停不下來。

這樣也很危險。

不要切的情況一:樣本太小

如果某個 segment 本來就只有很少人,你看到的波動很可能只是噪音。這時候切得越細,只是越容易被假訊號帶著跑。

不要切的情況二:切法沒有對應動作

如果你把使用者切成 17 種顏色、12 種地區、8 種註冊時間,但最後沒有一個切法會影響產品或營運決策,那只是資料觀光。

不要切的情況三:身份解析本來就不穩

GA4 的 cohort exploration 明講 cohort 是基於 device data,User-ID 不納入 cohort 建立。這提醒我們,工具的身分邊界會直接影響 cohort 和 segmentation 的可信度。

如果你的跨裝置 identity 還沒處理好,某些 cohort 結果本來就要打折看。

PM 可以怎麼讀 retention、cohort、segmentation

如果你要一個比較實際、不是教科書式的讀法,我會建議這樣:

第一步:先定 return event

先確認你要量的是「回到產品」,還是「回到價值」。這一步定錯,後面整套都會歪。

第二步:選對時間尺度

高頻產品先看 D1 / D7,低頻產品可能要看週留存、月留存,甚至 repeat purchase。

第三步:先看 cohort,不要先看平均

先看最近幾批是變好還變差,再看平均,不要反過來。

第四步:只切 2 到 3 個最有可能改變動作的 segment

通常我會先切來源、關鍵行為、裝置或國家,不會一開始就全切。

第五步:把結果翻成產品判斷

最後一定要回到這句話:

這比較像價值問題、流量品質問題,還是身分 / 資料定義問題?

沒有這一步,retention 分析很容易停在「有趣的圖表」。

留存分析最常怎麼失敗

失敗一:把任何 event 都當 retained

這樣得到的不是留存,而是鬆散活躍。

失敗二:只看平均,不看 cohort

你會太晚才發現新用戶其實變差。

失敗三:只看 cohort,不切 segment

你知道某一批變差,但不知道是誰變差。

失敗四:切太多 segment,卻沒有決策邏輯

最後什麼都看了,什麼也沒有決定。

失敗五:忽略 identity、資料延遲或口徑差異

這時你以為自己在看產品問題,實際上可能只是在看資料邊界。

PM 要從這篇真的帶走什麼

如果要把這篇濃縮成一句話,我會這樣講:

Retention 告訴你有沒有人回來,cohort 告訴你是哪一批人,segmentation 告訴你是哪一種人。三個都看,PM 才比較像在做判斷,不是在看平均值安慰自己。

做到這裡,你就已經不只是會看留存圖,而是開始能把留存讀成產品訊號:

  • 這是 activation 問題還是 traffic mix 問題
  • 這是價值沒有建立,還是建立了但回來理由不夠
  • 這是某一群人掉,還是整體都在鬆

而這也正好接到下一篇。

因為當你已經能讀懂留存差異,下一個問題就是:

那我要怎麼把這些洞察變成可被驗證的實驗,而不是停在看圖說故事?

下一篇,我們來講 A/B Test 不只是假設與 p-value,PM 為什麼一定要懂 exposure、SRM、guardrails 和 validity。