很多產品看起來沒有明顯出事,往往就是因為平均值太會粉飾太平。
整體 D7 沒掉。
平均轉換也還行。
Dashboard 甚至還有些指標在往上。
如果你只看這一層,很容易得到一個危險的結論:產品大概沒什麼大問題。
但真實世界常常不是這樣。
有可能是新客變差,老客把平均撐住。
有可能是某個高品質渠道越來越好,掩蓋了其他來源的惡化。
也有可能是某群用戶其實很快流失,只是另一群重度使用者把整體數字拖住了。
這也是為什麼 PM 一旦開始碰留存,很快就會發現:
retention、cohort、segmentation 不是三個獨立名詞,而是一整套用來拆開平均值幻覺的分析方法。
我會把這三個東西理解成:
- Retention:有沒有回來,回來得夠不夠穩
- Cohort:是哪一批人回來
- Segmentation:是哪些人回來,哪些人沒回來
如果你只看 retention,而不看 cohort 與 segmentation,很容易只拿到一個看似客觀、其實很鈍的平均答案。
留存不是「有沒有打開 App」,而是有沒有回到價值
很多團隊談 retention,第一步就會先掉進一個坑:把 return event 定得太隨便。
例如:
- 有沒有任何 event
- 有沒有打開 App
- 有沒有 page view
這些定義不是完全不能用,但它們往往太鬆。鬆到最後,你量到的未必是產品價值持續存在,而只是某種表面活躍。
Mixpanel 在 retention 文件裡把 retention 描述成「做了一個事件之後,再回來做另一個事件」。GA4 的 cohort exploration 也是先定 inclusion criteria 和 return criteria。這其實都在提醒同一件事:
Retention 的核心,不是看人有沒有回來碰到產品,而是先定義什麼叫值得算作回來。
對訂房產品來說,這個 return event 可能是:
- 再次搜尋
- 再次查看房源
- 再次開始訂房
- 成功完成第二次訂單
這幾個定義對應的是完全不同的產品問題。
如果你在看 activation 後的短期留存,search_performed 或 view_listing 可能有意義。
如果你在看真實商業價值,第二次成功訂房通常更接近你要的答案。
所以我通常不會先問「你們 D7 retention 是多少」,而會先問:
你們把什麼行為算作 retained,這個行為和產品價值的關係夠不夠近?
D1、D7、D30 很有用,但它們不是答案本身
D1、D7、D30 當然重要,因為它們提供了共同語言。
但它們本質上只是時間切片,不是洞察本身。
對某些高頻產品,D1 和 D7 很關鍵。
對低頻、高考慮週期的產品,D30 甚至 D60 可能更有意義。
對內容或社群型產品,GA4 這類工具還會用 DAU / WAU / MAU stickiness ratio 來補看使用黏性,但 stickiness 也不是 cohort retention 的替代品。
所以我比較喜歡這樣看:
- D1 常在看起始體驗和第一輪價值
- D7 常在看是否形成早期回訪習慣
- D30 更接近長一點的留存穩定度
你要選哪一個,不應該先看大家都在講什麼,而要先看你的產品節奏。
Cohort 的世界觀,是把不同批次拆開看
Cohort analysis 最重要的貢獻,不是表格長得很專業,而是它把「不同時間進來的人」分開看。
這一步很關鍵,因為很多產品問題本來就不是總體問題,而是某一批人、某一個版本、某一種來源的問題。
例如你每週都看整體 D7 retention,數字看起來穩定在 18%。
這個數字可能代表兩種完全不同的世界:
世界 A:每一批新客都差不多
那就表示產品體質大致穩定,只是仍有優化空間。
世界 B:新 cohort 越來越差,舊 cohort 還撐著平均
那你其實已經在漏水,只是水箱還沒見底。
Cohort 的價值,就是把這兩個世界拆開。
GA4 的 cohort exploration 會依照 inclusion 和 return criteria 形成 cohort,並用日、週、月粒度展示每一批人在後續區間的回訪狀況。這個做法提醒我們:cohort 不是一張圖,而是一種看時間批次的方法。
PM 真正要看的是什麼
我通常會先看三件事:
-
新 cohort 是變好還變差
這告訴我最近的產品或流量變化,有沒有真的改善起始體驗。 -
不同 cohort 的衰退形狀長怎樣
有些產品是 Day 1 掉最兇,有些是 Day 7 之後才鬆。這反映的不是同一種問題。 -
某次改版前後,cohort 形狀有沒有變
如果只是整體均值變一點點,你很難判斷。但 cohort shape 變了,通常更有訊號。
Segmentation:不是切爽的,是用來找差異真正在哪裡
當 cohort 告訴你「哪一批」出問題,segmentation 進一步回答的是:
在同一批人裡,到底是哪些類型的人留下來,哪些類型的人走了?
Amplitude 把 segmentation 講得很實際,核心就是用 user segments 去看不同群組在產品中的行為差異。Mixpanel 也把 cohort 定義成共享某些屬性或行為序列的一群使用者。這些工具語言不太一樣,但指向的是同一件事:不要把所有人假裝成同一種人。
對 PM 來說,我最常用的 segmentation 維度其實就三種。
1. 來源分群:source / channel / campaign
這組維度很適合回答一個經典問題:
這是價值問題,還是流量品質問題?
如果某個新廣告渠道帶來很多註冊,整體 activation 也許看起來還行,但 D7 retention 明顯更差,那問題不一定在 onboarding,而可能在於 promise 和受眾根本不對。
2. 身分或特徵分群:country、device、plan、persona
這組維度通常幫你看:
- 某些國家是不是因供給不足而留不住
- 某種裝置是不是流程體驗比較差
- 免費與付費使用者的回訪模式差在哪
3. 行為分群:有沒有做過某個關鍵動作
這類 segmentation 最接近產品問題本身。
例如:
- 看過至少 5 個房源的人,D7 retention 是否更高
- 第一天完成收藏的人,後續回訪是否更穩
- 在 24 小時內完成第一次預訂的人,是否更可能在 30 天內再次下單
這時 segmentation 不只是描述差異,而是在幫你找可能的 aha proxy 和 leading indicator。
平均留存很容易把 PM 帶往錯的方向
這裡我想講一個 PM 很常遇到的判斷岔路。
假設某個月整體 D7 retention 從 18% 掉到 16%。
如果你只看平均值,你很可能會直接得出:產品留存變差了,要去修 activation。
但拆開來看,可能有三種完全不同的故事。
故事一:所有 segment 都一起掉
那比較像產品價值或體驗本身出問題。
故事二:只有某個新渠道掉很多
那更像流量品質問題,不一定該優先改產品。
故事三:某些高意圖行為的人沒掉,但低意圖的大量新客變多了
這時候整體均值變差,未必是體驗退化,而可能是 acquisition mix 變了。
這三種情況,對應的動作完全不同。
第一種可能要修產品或追 onboarding friction。
第二種可能要修訊息、著陸頁、投放對象。
第三種則可能要重新定義 success mix,而不是急著修介面。
所以我很常說:
Retention 不是一張表。它是一個把產品問題和流量問題分開的判讀框架。
什麼時候不要一直切 segment
講 segmentation 很容易走到另一個極端,就是切到停不下來。
這樣也很危險。
不要切的情況一:樣本太小
如果某個 segment 本來就只有很少人,你看到的波動很可能只是噪音。這時候切得越細,只是越容易被假訊號帶著跑。
不要切的情況二:切法沒有對應動作
如果你把使用者切成 17 種顏色、12 種地區、8 種註冊時間,但最後沒有一個切法會影響產品或營運決策,那只是資料觀光。
不要切的情況三:身份解析本來就不穩
GA4 的 cohort exploration 明講 cohort 是基於 device data,User-ID 不納入 cohort 建立。這提醒我們,工具的身分邊界會直接影響 cohort 和 segmentation 的可信度。
如果你的跨裝置 identity 還沒處理好,某些 cohort 結果本來就要打折看。
PM 可以怎麼讀 retention、cohort、segmentation
如果你要一個比較實際、不是教科書式的讀法,我會建議這樣:
第一步:先定 return event
先確認你要量的是「回到產品」,還是「回到價值」。這一步定錯,後面整套都會歪。
第二步:選對時間尺度
高頻產品先看 D1 / D7,低頻產品可能要看週留存、月留存,甚至 repeat purchase。
第三步:先看 cohort,不要先看平均
先看最近幾批是變好還變差,再看平均,不要反過來。
第四步:只切 2 到 3 個最有可能改變動作的 segment
通常我會先切來源、關鍵行為、裝置或國家,不會一開始就全切。
第五步:把結果翻成產品判斷
最後一定要回到這句話:
這比較像價值問題、流量品質問題,還是身分 / 資料定義問題?
沒有這一步,retention 分析很容易停在「有趣的圖表」。
留存分析最常怎麼失敗
失敗一:把任何 event 都當 retained
這樣得到的不是留存,而是鬆散活躍。
失敗二:只看平均,不看 cohort
你會太晚才發現新用戶其實變差。
失敗三:只看 cohort,不切 segment
你知道某一批變差,但不知道是誰變差。
失敗四:切太多 segment,卻沒有決策邏輯
最後什麼都看了,什麼也沒有決定。
失敗五:忽略 identity、資料延遲或口徑差異
這時你以為自己在看產品問題,實際上可能只是在看資料邊界。
PM 要從這篇真的帶走什麼
如果要把這篇濃縮成一句話,我會這樣講:
Retention 告訴你有沒有人回來,cohort 告訴你是哪一批人,segmentation 告訴你是哪一種人。三個都看,PM 才比較像在做判斷,不是在看平均值安慰自己。
做到這裡,你就已經不只是會看留存圖,而是開始能把留存讀成產品訊號:
- 這是 activation 問題還是 traffic mix 問題
- 這是價值沒有建立,還是建立了但回來理由不夠
- 這是某一群人掉,還是整體都在鬆
而這也正好接到下一篇。
因為當你已經能讀懂留存差異,下一個問題就是:
那我要怎麼把這些洞察變成可被驗證的實驗,而不是停在看圖說故事?
下一篇,我們來講 A/B Test 不只是假設與 p-value,PM 為什麼一定要懂 exposure、SRM、guardrails 和 validity。