用戶研究:互聯(lián)網(wǎng)產(chǎn)品的個性化推薦系統(tǒng)

            作者:浩網(wǎng)科技
            發(fā)布時間:2011-09-03

            上個月寫過一篇產(chǎn)品推薦的文章,詳情請見《我所了解的產(chǎn)品推薦》,內(nèi)容很泛,多為工作心得。本周讀了幾篇相關(guān)的論文,收獲頗多,分享點(diǎn)干貨。
            以下內(nèi)容摘自《個性化推薦系統(tǒng)的研究進(jìn)展》,該文發(fā)表于2009年1月的《自然科學(xué)進(jìn)展》專題評述,作者是劉建國、周濤、汪秉宏。
            我略去了具體的算法和許多公式,重點(diǎn)看原理、思路和比較。
            互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展使得大量的信息同時呈現(xiàn)在我們面前,傳統(tǒng)的搜索算法只能呈現(xiàn)給所有的用戶一樣的排序結(jié)果,無法針對不同用戶的興趣愛好提供相應(yīng)的服務(wù)。信息的爆炸使得信息的利用率反而降低,這種現(xiàn)象被稱之為信息超載。個性化推薦,包括個性化搜索,被認(rèn)為是當(dāng)前解決這個問題最有效的工具之一。推薦問題從根本上說是代替用戶評估它從未看過的產(chǎn)品,這些產(chǎn)品包括書、電影、CD、網(wǎng)頁、甚至可以是飯店、音樂、繪畫等等。
            個性化推薦系統(tǒng)通過建立用戶與信息產(chǎn)品之間的二元關(guān)系,利用已有的選擇過程或相似性關(guān)系挖掘每個用戶潛在感興趣的對象,進(jìn)而進(jìn)行個性化推薦。高效的推薦系統(tǒng)可以挖掘用戶潛在的消費(fèi)傾向,為眾多的用戶提供個性化服務(wù)。 一個完整的推薦系統(tǒng)由3個部分組成:
            收集用戶信息的行為記錄模塊
            分析用戶喜好的模型分析模塊
            推薦算法模塊
            推薦算法模塊是最核心的部分。根據(jù)推薦算法的不同,推薦系統(tǒng)可以分為如下幾類:
            協(xié)同過濾(collaborative filtering)系統(tǒng)
            基于內(nèi)容(content-based)的推薦系統(tǒng)
            基于用戶-產(chǎn)品二部圖網(wǎng)絡(luò)結(jié)構(gòu)(network-based)的推薦系統(tǒng)
            混合(hybrid)推薦系統(tǒng)
            其他
            1. 協(xié)同過濾系統(tǒng)
            第一代被提出并得到廣泛應(yīng)用的推薦系統(tǒng)。如amazon的書籍推薦,Jester的笑話推薦,等等。
            1)核心思想:利用用戶的歷史信息計(jì)算用戶之間的相似性——>利用與目標(biāo)用戶相似性較高的用戶對其他產(chǎn)品的評價來預(yù)測目標(biāo)用戶對特定產(chǎn)品的喜好程度——>根據(jù)喜好程度來對目標(biāo)用戶進(jìn)行推薦。
            在計(jì)算用戶之間相似度時,大部分都是基于用戶對共同喜好產(chǎn)品的打分。最常用的方法是Pearson相關(guān)性和夾角余弦。
            協(xié)同過濾推薦系統(tǒng)的算法可以分為兩類,基于記憶(memory-based)&基于模型(model-based)。前者是根據(jù)系統(tǒng)中所有被打過分的產(chǎn)品信息進(jìn)行預(yù)測,注重于預(yù)測用戶的相對偏好而不是評分絕對值;后者是收集打分?jǐn)?shù)據(jù)進(jìn)行學(xué)習(xí)并推斷用戶行為模型,再對某個產(chǎn)品進(jìn)行預(yù)測打分。
            2)優(yōu)點(diǎn):
            發(fā)現(xiàn)用戶潛在的興趣偏好,推薦新信息
            能推薦難以進(jìn)行內(nèi)容分析的產(chǎn)品
            3)缺點(diǎn):
            由于是基于用戶對產(chǎn)品的評分,所以對新用戶進(jìn)行推薦或者是對用戶推薦新產(chǎn)品,精度不高
            隨著用戶量的增多,計(jì)算量呈線性增加,影響系統(tǒng)的性能
            2. 基于內(nèi)容的推薦系統(tǒng)
            是協(xié)同過濾技術(shù)的延續(xù)與發(fā)展。
            1)核心思想:分別對用戶和產(chǎn)品建立配置文件——>比較用戶與產(chǎn)品配置文件的相似度——>推薦與其配置文件最相似的產(chǎn)品。
            例如,在電影推薦中,基于內(nèi)容的系統(tǒng)首先分析用戶已經(jīng)看過的打分較高的電影的共性(演員、導(dǎo)演、風(fēng)格等),再推薦與這些用戶感興趣的電影內(nèi)容相似度很高的其他電影。基于內(nèi)容的推薦算法根本在于信息獲取和信息過濾。因?yàn)樵谖谋拘畔@取與過濾方面的研究較為成熟,現(xiàn)有很多基于內(nèi)容的推薦系統(tǒng)都是通過分析產(chǎn)品的文本信息進(jìn)行推薦。 在信息獲取中,最常用的是TF-IDF方法。
            2)優(yōu)點(diǎn):
            能處理新用戶、新產(chǎn)品的問題(冷啟動)
            實(shí)際系統(tǒng)中用戶對產(chǎn)品的打分信息非常少,基于內(nèi)容的推薦系統(tǒng)可以不受打分稀疏性問題的約束
            能推薦新出現(xiàn)的產(chǎn)品和非流行的產(chǎn)品,發(fā)現(xiàn)隱藏信息
            通過列出推薦內(nèi)容的特征,可以解釋為什么推薦這些產(chǎn)品,使用戶在使用時具有更好的用戶體驗(yàn)
            3)缺點(diǎn):
            受到信息獲取技術(shù)的約束,例如自動提取多媒體數(shù)據(jù)(圖形、視頻流、聲音流等)的內(nèi)容特征具有技術(shù)上的困難
            如果兩個不同的產(chǎn)品恰好用相同的特征詞表示,這兩個產(chǎn)品就無法區(qū)分
            如果一個系統(tǒng)只推薦與用戶的配置文件高度相關(guān)的產(chǎn)品,那么推薦的只能是與用戶之前購買過的產(chǎn)品非常相似的產(chǎn)品,無法保證推薦的多樣性
            3. 基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法
            僅僅把用戶和產(chǎn)品的內(nèi)容特征看成抽象的節(jié)點(diǎn),所有算法利用的信息都藏在用戶和產(chǎn)品的選擇關(guān)系中。
            1)核心思想:建立用戶—產(chǎn)品二部圖關(guān)聯(lián)網(wǎng)絡(luò)
            對于任意目標(biāo)用戶i,假設(shè)i選擇過所有的產(chǎn)品,每種產(chǎn)品都具有向i推薦其他產(chǎn)品的能力,把所有i沒有選擇過的產(chǎn)品按照他喜歡的程度進(jìn)行排序,把排名靠前的推薦給i。
            在同樣的用戶喜好程度下,推薦冷門的產(chǎn)品要比推薦熱門的產(chǎn)品意義更大。在同樣精確度下,推薦的產(chǎn)品數(shù)量越少越好。
            提高精確度的方法還有:
            去除重復(fù)性
            通過引入耦合閾值(即只考慮相似性大于或等于給定閾值的用戶以及和這些用戶連接的產(chǎn)品)
            2)優(yōu)點(diǎn):開辟了推薦算法研究的新方向
            3)缺點(diǎn):
            同樣面臨著新用戶新產(chǎn)品的問題。新用戶或新產(chǎn)品剛進(jìn)入系統(tǒng)時沒有任何選擇或被選信息,系統(tǒng)無法與其他用戶或產(chǎn)品建立關(guān)聯(lián)網(wǎng)絡(luò)
            受到用戶選擇關(guān)系建立時間的影響,如果把用戶與產(chǎn)品的所有關(guān)聯(lián)關(guān)系都考慮在內(nèi),無法區(qū)分出長期興趣和短期興趣點(diǎn),過多地考慮長期興趣點(diǎn)會使系統(tǒng)無法給出滿足用戶短期興趣的產(chǎn)品,大大降低推薦準(zhǔn)確度
            4. 混合推薦
            將上述幾種推薦方法有機(jī)結(jié)合,實(shí)際的推薦系統(tǒng)中最常見的是基于協(xié)同過濾和基于內(nèi)容的。
            1)獨(dú)立系統(tǒng)相互結(jié)合
            獨(dú)立的應(yīng)用協(xié)同過濾,基于內(nèi)容和基于網(wǎng)絡(luò)結(jié)構(gòu)的算法進(jìn)行推薦,然后將兩種或多種系統(tǒng)的推薦結(jié)果結(jié)合,利用預(yù)測打分的線性組合進(jìn)行推薦。或者,只推薦某一時刻在某一評價指標(biāo)下表現(xiàn)更好的算法的結(jié)果。
            2)在協(xié)同過濾系統(tǒng)中加入基于內(nèi)容的算法
            利用用戶的配置文件進(jìn)行傳統(tǒng)的協(xié)同過濾計(jì)算,用戶的相似度通過基于內(nèi)容的配置文件計(jì)算得出,而非共同打過分的產(chǎn)品的信息。這樣可以克服協(xié)同過濾系統(tǒng)中的稀疏性問題,另外,不僅僅是當(dāng)產(chǎn)品被配置文件相似的用戶打了分才能被推薦,如果產(chǎn)品與用戶的配置文件很相似也會被直接推薦。
            5. 其他方法
            1)關(guān)聯(lián)規(guī)則分析:關(guān)注用戶行為的關(guān)聯(lián)模式。如買了香煙的人大多會購買打火機(jī),因此可以在香煙和打火機(jī)間建立關(guān)聯(lián)關(guān)系,通過這種關(guān)系推薦其他產(chǎn)品。
            2)基于社會網(wǎng)絡(luò)分析的推薦算法:如利用用戶的購買行為建立他對產(chǎn)品的偏好相似性,依此向用戶推薦產(chǎn)品并預(yù)測產(chǎn)品的銷售情況,從而加強(qiáng)用戶黏性。
            主站蜘蛛池模板: 色猫咪av在线网址| 国产乱人伦精品一区二区在线观看| 国产精品成人网| 国产成人A∨激情视频厨房| 国产一区二区三区手机在线观看 | 18禁男女爽爽爽午夜网站免费 | 国产美女一级视频| 国产在线视精品麻豆| 午夜男女爽爽影院网站| 亚洲欧美国产视频| 久久久久久亚洲精品成人| av成人免费电影| 91九色视频在线观看| 福利一区二区三区视频午夜观看| 欧美区在线播放| 情人伊人久久综合亚洲| 国产精品久久国产精品99盘| 又粗又黑又大的吊av| 亚洲国产精品成人精品无码区在线| 久久久久久久久久国产精品免费| aaaaa级少妇高潮大片| 韩国午夜理伦三级2020韩| 狂野欧美性猛交xxxx| 日本欧美视频在线| 国产黄色毛片视频| 国产v亚洲v天堂a无| 亚洲另类视频在线观看| 一级毛片视频播放| 成人午夜性视频欧美成人| 特级毛片A级毛片免费播放| 日本wwwxxxxx| 国产精品成人亚洲| 全部免费a级毛片| 久久成人国产精品| 4408私人影院| 秋霞免费一级毛片| 日本三级免费看| 国产的一级毛片完整| 亚洲精品理论电影在线观看| 中文字幕在线观看你懂的| 很污很黄的网站|