機器學習算法那家強因子分解機（FM算法）工業落地能力最強

2021-04-23 10:31:09

導讀文 | 石塔西源 | 夕小瑤的賣萌屋盡管BERT為代表的預訓練模型大肆流行但是身處工業界才會知道它落地有多難尤其是QPS動輒幾百的

文 | 石塔西

源 | 夕小瑤的賣萌屋

盡管BERT為代表的預訓練模型大肆流行但是身處工業界才會知道它落地有多難尤其是QPS動輒幾百的在線推薦、搜索系統哪怕在大廠也很難在線上系統見到它們。

今天就想反其道而行之談談工業界搜索、推薦、廣告這類核心場景中落地能力最強的算法（之一）：因子分解機（FM）。我不敢說它是最簡單的（FM的確很簡單）但是作為一個推薦算法調參工程師掌握FM一定是性價比最高的。我推崇FM算法的原因有以下三點：

功能齊全

眾所周知推薦算法有三個應用領域：召回、粗排、精排。推薦算法千千萬但是有的算法只能用于召回有的算法只能用于排序。像FM這樣實現三個領域全覆蓋的多面手目前為止孤陋寡聞的我尚不知道有第二個。但是需要強調的是我們不能只訓練一個FM排序模型然后直接拿這個排序模型用于召回。盡管都是基于FM算法但是FM召回與排序有以下不同：

使用的特征不同

FM召回由于未來要依賴Faiss進行線上檢索所以不能使用user與doc的交叉特征。只有如此我們才能獨立計算user embedding與doc embedding

FM排序則沒有這方面的限制可以使用user與doc的交叉特征。是的你沒看錯。因為FM所實現自動二階交叉僅能代表“共現”。但是user與doc之間還有其他形式的交叉比如user tag與doc tag之間的重合度喂入這樣的交叉對于排序性能提升仍然有很大幫助。

使用的樣本不同

訓練FM做排序時必須使用“曝光未點擊”這樣的“真負”樣本。

訓練FM做召回時起碼不能只使用“曝光未點擊”做負樣本。大部分的負樣本必須通過隨機采樣得到。個中原因見我的文章《負樣本為王：評Facebook的向量化召回算法》。

使用的Loss不同

FM排序時由于負樣本是真實的可以采用CTR預估那樣的point-wise loss

FM召回時由于負樣本是隨機采樣得到的存在一定的噪聲最好采用BPR, hinge這樣的pair-wise loss。

性能優異

推薦系統的兩大永恒主題 “記憶”與“擴展” FM也能實現全覆蓋。

FM存在一階項實際就是LR 能夠“記憶”高頻、常見模式

FM存在feature embedding。如我在《無中生有：論推薦算法中的Embedding思想》據說 Embedding是提升推薦算法“擴展性”的法寶。FM通過feature embedding 能夠自動挖掘低頻、長尾模式。在這一點上基于embedding的二階交叉并不比DNN的高階交叉遜色多少。

便于上線

現在深度學習是推薦領域的寵兒 LR/FM/GBDT這樣的傳統機器學習算法不招人待見。

DNN雖然性能優異但是它有一個致命缺點就是上線困難。訓練的時候各位調參俠把各種酷炫的結構什么attention, transformer, capsule 能加上的都給它加上看著離線指標一路上漲心里和臉上都樂開了花卻全然無視旁邊的后端工程師恨得咬緊了牙根。模型越復雜離線和線上指標未必就更好但是線上的時間開銷肯定會增加輕則影響算法與后端的同事關系（打工人何苦為難打工人）重則你那離線指標完美的模型壓根沒有上線的機會。雖說目前已經有TF Serving這樣的線上serving框架但是它也不是開箱即用的也需要一系列的性能調優才能滿足線上的實時性要求。

所以如果你身處一個小團隊后端工程人員的技術能力不強 DNN的線上實時預測就會成為一個難題這個時候 FM這樣的傳統機器學習算法就凸顯出其優勢。

FM排序雖然理論上需要所有特征進行二階交叉但是通過公式化簡可以在 O(n)的時間復雜度下完成。n是樣本中非零的特征數目由于推薦系統中的特征非常稀疏所以預測速度是非常快的。

召回由于候選集巨大對于實時性的要求更高。很多基于DNN的召回算法由于無法滿足線上實時生成user embedding的需求只能退而離線生成user embedding 對于用戶實時興趣的捕捉大打折扣。FM召回這時就顯現其巨大的優勢。事先把doc embedding計算好存入Faiss建立索引 user embedding只需要把一系列的feature embedding相加就可以得到再去faiss中進行top-k近鄰搜索。FM召回可以實現基于用戶最新的實時興趣從千萬量級候選doc中完成實時召回。

總結與參考

由于以上優點我心目中將FM視為推薦、搜索領域的"瑞士軍刀"。風頭上雖然不及DNN那么搶眼但是論在推薦系統中發揮的作用絲毫不比DNN遜色有時還能更勝一籌。FM有如此眾多的優點優秀的調參俠+打工人還等什么還不趕快學起來。想迅速掌握FM 我推薦如下參考文獻：

掌握FM原理推薦讀美團的博客《深入FFM原理與實踐》。FFM的部分可以忽略在我看來 FFM更像是為了Kaggle專門訓練的比賽型選手損失了FM的很多優點。這就好比奧運會上的射擊冠軍未必能夠勝任當狙擊手一樣。

FM用于召回推薦讀《推薦系統召回四模型之：全能的FM模型》。注意如我所述 FM雖然萬能但是FM排序與FM召回在特征、樣本、Loss都存在不同不可能訓練一個FM排序就能直接拿來做召回。這一點《全能FM》一文沒有提到需要讀者特別注意。

如果想親手實踐可以嘗試alphaFM。該項目只不過是作者八小時之外的課外作品卻被很多公司拿來投入線上實際生產環境足見該項目性能之優異和作者功力之深厚令人佩服。強烈建議不滿足只當“調參俠”的同學通讀一遍alphaFM的源代碼一定收獲滿滿。

[1] https://zhuanlan.zhihu.com/p/165064102

[2] https://zhuanlan.zhihu.com/p/320196402

[3] https://link.zhihu.com/?target=https%3A//tech.meituan.com/2016/03/03/deep-understanding-of-ffm-principles-and-practices.html

[4] https://zhuanlan.zhihu.com/p/58160982

[5] https://link.zhihu.com/?target=https%3A//github.com/CastellanZhang/alphaFM

原文標題：談談工業界落地能力最強的機器學習算法

文章出處：【微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。