Quora是如何做推薦的,quora怎么才能使用Quora是如何做推薦的知乎聯合創始人張亮在值乎上問了俞軍老師一個問題,「以您的使用體驗看,您覺得知乎現在最急需做的三到五項產品改進是哪些」俞軍老師的回答中給的第一個意見就是,「個性化內容的挖掘和推快遞,我知道知乎里有大量內容是我感興趣的,但知乎推快遞的內容只有很少是我愿......
知乎聯合創始人張亮在值乎上問了俞軍老師一個問題,「以您的使用體驗看,您覺得知乎現在最急需做的三到五項產品改進是哪些」俞軍老師的回答中給的第一個意見就是,「個性化內容的挖掘和推快遞,我知道知乎里有大量內容是我感興趣的,但知乎推快遞的內容只有很少是我愿意點擊的,總讓我有種入寶山而空回的感覺,這方面網易云音樂、淘寶、今日頭條都是不錯的學習對象。」那么,有著“美版知乎”之稱的Quora是如何做推薦的呢以下內容選自RecsysChina。
Quora的VP Engineering機器學習大牛Xavier Amatriain,曾在WWW2016大會的Question Answering Workshop做了一個報告,Machine Learning for QA Sites:The Quora Example[1]。
Quora的Mission:To share and grow the worlds knowledge。
Quora主要考慮的三個因素:Relevance、Quality和Demand。
Quora核心的數據模型及其之間的關系:
Feed Ranking
Quora做推薦的一個最核心問題就是Personalized Feed Ranking。Quora是以問題、答案與主題為核心把「知識」串聯起來,然后基于用戶的頂和踩等動作來劃分內容質量,最后再通過人和問題的Follow關系讓知識在社區內流動起來。而個人Feed正是這種「流動」的最主要的載體。Xavier說Quora做Feed Ranking的難度要比Netflix大,這也正常,沒有更大的挑戰想來Xavier也不會跳槽是吧。Quora Feed Ranking的首要目標是確保推快遞進用戶Feed的內容應該是和用戶興趣高度相關的,其次還需要考慮的包括用戶之間的Follow關系以及互動,Xavier管這個叫做social relevance,另外還有時間因素,比如一些和熱點事件相關的問答,也應該及時地推快遞進用戶Feed。
1.目標:Present most interesting stories for a user at a given time
·Interesting=topical relevance+social relevance+timeliness
·Stories=questions+answers
2.主要使用的是個性化的learningtorank方法
3.Xavier確認了一點,相比于時間排序(timeordered),相關度排序大大提升了用戶參與度。
4.面臨的挑戰:
·potentially many candidate stories
·realtime ranking
·optimize for relevance
下圖是Quora做Feed Ranking最最基礎的數據構成,Quora管這個叫做「impression logs」。
圍繞這些基礎行為,Quora定義的Relevance函數如下。
簡單講就是使用一個「行為加權函數」來預測用戶對一個story的感興趣程度。有兩種可選的計算方法,一種是把所有行為弄到一個回歸模型里面直接預測最終值,另外一種就是先分別預測每個動作的可能性(比如頂、閱讀、分享等)然后再綜合起來加權求和。第一種簡單,但可解釋性稍差,第二種可以更好的利用每個動作信號,但需要給每個動作配一個分類器,計算消耗大。
Quora主要使用的三類模型如下:
另外Xavier也強調了特征工程的重要性,在這塊下功夫搞一下對最終能得到一個好的ranking結果非常有幫助,如果能夠實時在線的更新特征就更好了,這樣可以更及時地對用戶的行為作出響應。Quora最主要的特征包括:
·user(e.g.age,country,recent activity)
·story(e.g.popularity,trendiness,quality)
·interactions between the two(e.g.topic or author affinity)
從整體框架來看,Quora的Feed Ranking也沒有什么太特別的地方,基本上也是業界的標準打法。Quora比較特別的是它的數據模型相對其他網站更復雜,之間的關系也更多樣化。比如從用戶角度看,既可以follow其他用戶User,又可以follow問題Question,還可以follow主題Topic。
1.Follow用戶接收到的信息范圍更廣也更多樣化,驚喜內容很可能就是來自于自己關注的有趣的用戶,但也可能最容易制造不相關的內容噪音,這塊的最重要工作是用戶專業度的評估。
2.Question/Answer是Quora最核心的內容元素,也是驅動Quora體系里知識流動的原力,這塊的主要工作是引導更多的高專業度用戶來貢獻優質答案,另外就是如何激發生產出更多的好問題(甚至是自動生成問題),要計算answer ranking,還有要做反sapm的工作。
3.Topic是對一個主題內容的聚合,Topic在Quora的信息架構里面承載著極其重要的角色,是知識結構的骨架,Quora管這個叫做Topic Network,如何構建Topic Network本身就是一個非常大的挑戰,另外還需要解決的問題包括,如何把Topic下(潛在)優質的問題發掘出來,以及如何把水問題降權和過濾/合并重復問題等。
圍繞著這些核心問題,Quora分別都進行了更深入的工作。Answer Ranking
Goal:Given a question and n answers,come up with the ideal ranking of those n answers.
Quora主要考慮了下面三大維度來進行Ranking計算,每個大維度下面又包含了很多的features。
4.答案內容本身的質量度。Quora對什么是「好的答案」有明確的指導[2],比如應該是有事實根據的,有可復用價值的,提供了解釋說明的,進行了好的格式排版的等等。
5.互動,包括頂/踩、評論、分享、收藏、點擊等等。
6.回答者本身的一些特征,比如回答者在問題領域的專業度。
另外這塊的工作也包含非個性化的與個性化的兩部分,某些類問題的排序是非個性化的,最好的答案對所有用戶而言都是一致的,而另外一些問題則是個性化的,對于每個人而言最好的答案會有自己個性化的判斷。總之,Answer Ranking對Quora非常重要,這塊Quora做得很細致,Quora的blog上有一篇專門的文章講這個,有興趣的朋友可以去看看原文[3]。
The Answer Ranking system endtoend
Ask2Answers
A2A是Quora產品里面非常重要的一個功能,本來Quora是可以直接把相關問題推薦給系統認為的合適的回答者的,Quora最開始也是這么做的,但系統自動做這事兒顯然不如發動群眾人肉邀請回答來得感覺好,A2A操作增強了儀式感,讓被邀請者有種被人需要的感覺,心理上很滿足,另外這也是一種社交動作,社交的精髓之一就是為用戶制造「裝逼」的便利,回答問題前很隨意的「謝邀/瀉藥」,一切盡在不言中了。這個功能看似很簡單,Quora也是下了功夫的,Quora把A2A這事model成了一個機器學習問題:Given a question and a viewer rank all other users based on how「wellsuited」they are。其中「wellsuited」=likelihood of viewer sending a request+likelihood of the candidate adding a good answer,既要考慮瀏覽用戶發快遞邀請的可能性,又要考慮被邀請者受邀回答的可能性。Quora的blog上也有一篇文章詳細講解了他們的做法[4]。
Topic Network
Quora花了很大力氣來正確引導用戶給內容打標簽,持續不斷堅持這項工作的好處開始逐漸顯露出來了,他們發現[5],
隨著用戶群體的擴大,Topic正在呈現出迅速多樣化的勢頭。
很多領域都自組織出了相當不錯的層級知識結構。
Quora相信這種依靠社群來組織領域知識的方式是可行的。
User Trust/Expertise Inference
這是Quora另一件非常重要的事情,Quora需要找出某個領域的專家,然后通過產品引導這些專家在這個領域里貢獻更多的優質答案。Quora會考慮用戶在某個領域里回答問題的多少,接收到的頂、踩、感謝、分享、收藏及瀏覽等數據。另外還有一個很重要的是專業度的傳播效應,比如Xavier在推薦系統領域對某個答案頂了一下,那么這個答案作者在推薦系統領域很可能具備較高的專業度。
其他
其他相關的,包括推薦主題、推薦用戶、相關問題、重復問題、反Spam等等,Quora大量地在使用機器學習的方法來解決這些問題。
Quora最大的寶藏,就是這幾年在各個領域不斷積累下來的大量有價值的內容,Quora自然也少不了對這些的挖掘,有篇文章叫Mapping the Discussion on Quora Over Time through Question Text[6],就是一個很好的挖掘數據價值的案例。
Facebook等幾個主題隨時間的變化情況
參考資料:
[1]http://www.slideshare.net/xamat/machinelearningforqasitesthequoraexample
[2]https://www.quora.com/WhatdoesagoodansweronQuoralooklikeWhatdoesitmeantobehelpful/answer/QuoraOfficialAccount
[3]https://engineering.quora.com/AMachineLearningApproachtoRankingAnswersonQuora
[4]https://engineering.quora.com/AskToAnswerasaMachineLearningProblem
[5]https://data.quora.com/TheQuoraTopicNetwork
[6]https://data.quora.com/MappingtheDiscussiononQuoraOverTimethroughQuestionText
特別聲明:以上文章內容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關于作品內容、版權或其它問題請于作品發表后的30日內與ESG跨境電商聯系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號密碼登錄
平臺顧問
微信掃一掃
馬上聯系在線顧問
小程序
ESG跨境小程序
手機入駐更便捷
返回頂部