今日頭條推薦算法公開,求高手來破


今日頭條推薦算法公開,求高手來破

文章插圖

今日頭條副總編輯徐一龍
【今日頭條推薦算法公開,求高手來破】 會議由今日頭條副總編輯徐一龍主持 。 徐一龍在談到今日頭條對行業公開、透明自己算法原理的初衷時說,算法也是一種“法”,都是通過一定的規則和方法,達成預期的一種效果 。 算法和法律法規一樣,如果施行的好,都很高效,也都要求透明 。
曹歡歡博士在現場分享了今日頭條推薦算法的基本原理,并詳細介紹了算法模型設計維度與策略 。 包括如何在線訓練大規模推薦模型,典型召回策略的設計方法,多目標如何融合等核心問題 。 此外,他還重點講解了今日頭條的內容安全機制及相關舉措,公開了風險內容識別技術以及泛低質內容識別技術 。
他表示:“算法分發并非是把所有決策都交給機器,我們會不斷糾偏,設計、監督并管理算法模型 。 希望這次分享能讓更多的人理解算法,并共同參與到算法模型的制定中來,以改善算法,更好的為用戶服務,讓算法為社會創造更大的價值 。 ”

今日頭條推薦算法公開,求高手來破

文章插圖

現場觀眾
此次今日頭條將算法透明化,并接受建言,屬于行業首例 。 算法原則歷來屬于公司行業機密,極少有公司會對外公布 。 今日頭條方面表示,人工智能發展帶來的挑戰,是人類此前沒有遭遇過的 。 當企業發展壯大時,有責任也有義務,與行業一道積極思考與研究新技術可能帶來的機遇和風險 。
據介紹,阿里、騰訊、百度、美團、新浪、網易等科技公司的算法工程師和產品經理都去了 。 看來大家對今日頭條到底用了什么推薦算法,那是相當的好奇 。
在當天的交流會上,今日頭條資深算法架構師、中國科學技術大學計算機博士曹歡歡帶來了題為《讓算法公開透明》的分享,首次面向行業公開算法原理 。

今日頭條推薦算法公開,求高手來破

文章插圖
今日頭條資深算法架構師曹歡歡講解今日頭條算法原理
他表示:“算法分發并非是把所有決策都交給機器,我們會不斷糾偏,設計、監督并管理算法模型 。 希望這次分享能讓更多的人理解算法,并共同參與到算法模型的制定中來,以改善算法,更好的為用戶服務,讓算法為社會創造更大的價值 。 ”

今日頭條推薦算法公開,求高手來破

文章插圖

據曹歡歡介紹,今日頭條旗下幾款產品都在沿用同一套大的算法推薦系統,但根據業務不同,每套系統的架構會有所調整 。 曹歡歡在現場的PPT里公布了頭條使用的五種推薦算法,包括傳統的協同過濾模型,監督學習算法Logistic Regression模型,基于深度學習的Factorization Machine,以及DNN和GBDT 。 曹歡歡介紹說,現在很難有一套通用的架構模型適用于所有的推薦場景,所以很多公司會做多個算法的組合,比如現在很流行將LR和DNN結合,甚至前幾年Facebook也是將LR和GBDT算法做結合 。 今日頭條也基本是一套大算法,根據業務不同再具體調整結構 。 在解釋了算法之后,曹歡歡進一步解密了頭條的推薦如何工作 。 曹歡歡表示,主要有四類最重要的用戶特征,將會輸入給算法,影響到推薦算法的工作 。

今日頭條推薦算法公開,求高手來破

文章插圖

第一類是相關性特征,就是評估內容的屬性和維度與用戶是否匹配 。 顯性的匹配包括關鍵詞匹配、分類匹配、來源匹配、主題匹配等 。 像FM模型中也有一些隱性匹配,從用戶向量與內容向量的核心距離可以得出 。 第二類是環境特征,包括地理位置、時間 。 這些既是bias(基礎)特征,也能以此構建一些匹配特征 。 第三類是熱度特征 。 包括全局熱度、分類熱度,主題熱度,以及關鍵詞熱度等 。 熱度信息在大的推薦系統特別在冷啟動的時候非常有效 。 第四類是協同特征,它可以在部分程度上幫助解決所謂算法越推越窄的問題 。 協同特征并非考慮用戶已有歷史 。 而是通過用戶行為分析不同用戶間相似性,比如點擊相似、興趣分類相似、主題相似、興趣詞相似,甚至向量相似,從而擴展模型的探索能力 。

相關經驗推薦