前些日子聽了 @kevin 同學的知乎 live 《了解信息流產品和內容推薦算法》 ,很有收獲(可以在外行前裝壹裝了 ?)。鑒於兩小時的 live 信息量很大,就做了份筆記,把其中最有價值的部分做成了圖解,應該算得上是「幹貨」了。
不過, 5 分鐘能讀完的小文,到底只是走馬觀花而已。倘若讀完真的感興趣,還是建議去聽 live,畢竟就其內容質量而言,9.99 元是真的值。
每個使用新聞客戶端的用戶,都多少接觸過的信息流這種產品形態。它有以下諸多特點:
信息流的內容並不是純靠算法推薦,人工運營也是其中的重要部份。實際上, 人工和算法各有所長 ——人工運營更長於新聞價值的判斷(尤其是「情感判斷」),以及對熱點的預測,對突發事件的響應;而算法,運用在個性化匹配、冷門的長尾內容推薦上,則更適合。
壹個算法實現的內容推薦基本框架,理論上可以抽象成下圖。
落實到具體實現,這裏是魅族 新聞資訊 的壹個實際案例。
壹個信息流產品,不會僅僅使用壹種算法模型,通常會進行分流。占大比重的是經過驗證的穩定模型,同時,會有多個占小比重的實驗模型。
要評估這些實驗算法模型的效果,采用的評測指標主要為以下三項:
除此以外,還需關註的核心業務指標:
為什麽要看多個指標,不能只關註點擊率呢?是因為壹味追求點擊率,會鼓勵「標題黨」,導致用戶文章閱讀完成度降低,最終影響產品調性,造成深度用戶流失。
影響信息流推薦效果的因素,並不僅僅只有算法模型。事實上,由於自建模型的難度很高,造成差異的往往是算法外的因素。
首先, 強大的內容庫 是壹個信息流產品的基礎。內容的多樣性、數量、質量、時效如果得不到保障,推薦效果根本無從談起。譬如,今日頭條、網易新聞這種量級的產品,內容每日入庫量至少超過 500k,可推薦集要超過 200k。
其次,壹些 交互細節及業務參數的調優 ,也會對最終的效果產生非常大的影響。
另外, 數據上報 會極大影響推薦準確度和策略選擇。而且通常也是埋坑及填坑最大的地方,需要產品對上報時機、閾值、去重、內容做規範。此外, 冷啟動策略 、如何 防止用戶畫像固化 造成的「瓶頸效應」,等等,都會最終影響推薦效果。
用戶畫像是內容推薦重要的參考體系,通常是對用戶主動行為、推送刺激產生的數據進行挖掘後生成的。
上圖是魅族新聞資訊的壹個用戶畫像實例,其中:
信息流產品涉及領域非常多,包括內容庫、用戶畫像、短視頻、搜索、信息流廣告,等等。而且每個領域都有很多值得深挖的內容,非常鍛煉產品能力。
如果想要入門信息流領域, 內容運營 是壹個非常好的切入口——可以研究現有自媒體平臺,深入探索它的下發策略、管理後臺、數據統計。最後,是幾本參考書籍推薦,能讓產品對系統的理解能力成倍提升: 《推薦系統實踐》 《這就是搜索引擎》 《計算廣告》 。