多角度、真實用戶標(biāo)注,人大 & 華為推出可解釋推薦數(shù)據(jù)集 REASONER
機(jī)器之心專欄
機(jī)器之心編輯部
推薦算法的可解釋性近年來受到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。盡管人們提出了很多模型,但如何合理地評價算法產(chǎn)生的推薦解釋一直是人們討論的焦點。
(資料圖片僅供參考)
目前可解釋推薦算法的評價有諸多限制,如解釋的真值不是由真實用戶標(biāo)注,通常只基于單一的某個方面評估解釋質(zhì)量,評估策略難以統(tǒng)一等。
為了進(jìn)一步推動可解釋推薦領(lǐng)域的發(fā)展,來自中國人民大學(xué)和華為的研究者聯(lián)合構(gòu)建了一個新的可解釋推薦數(shù)據(jù)集—— REASONER ( Real Users Labeled Multi-aspect Explanations for Explainable Recommendation ) 。
論文地址:https://arxiv.org/pdf/2303.00168.pdf項目主頁:https://reasoner2023.github.io/
GitHub 地址:https://github.com/REASONER2023/reasoner2023.github.io
聯(lián)系郵箱:reasonerdataset@gmail.com
該數(shù)據(jù)集構(gòu)建于視頻推薦場景,包含了多種推薦解釋目的的真值,例如,增強(qiáng)推薦說服力、解釋信息量以及用戶滿意度等。可廣泛應(yīng)用于可解釋推薦、推薦系統(tǒng)糾偏以及基于心理學(xué)的推薦等領(lǐng)域。同時,該研究也開發(fā)了一個可解釋推薦工具包,包含了十個知名的可解釋推薦模型方便大家使用。
可解釋推薦數(shù)據(jù)集
亮點介紹
REASONER 數(shù)據(jù)集具有以下幾個亮點:
多模態(tài)的候選解釋:用戶可以根據(jù)自身偏好為每個推薦的視頻選擇文本解釋或視覺解釋。
多方面的解釋真值:從推薦說服力、解釋信息量和用戶滿意度三個方面提供推薦解釋真值。
真實用戶標(biāo)注:數(shù)據(jù)集中的解釋真值的標(biāo)注者正是產(chǎn)生交互記錄的人。
豐富的用戶特征:該研究收集了參與用戶的多方面的特征信息(已脫敏)。
數(shù)據(jù)集構(gòu)建
數(shù)據(jù)集的構(gòu)建主要有以下三步:
1. 搭建視頻推薦平臺,設(shè)計有關(guān)推薦可解釋性的關(guān)鍵問題
推薦平臺的元素
由于視頻內(nèi)容豐富,可以提供充足的解釋候選項,該研究選擇視頻作為平臺的推薦項目。考慮到較長的標(biāo)注時間會降低用戶的注意力,因此該研究將視頻時長控制在三分鐘以內(nèi)。
該研究挑選了一些視頻特征作為推薦解釋的候選項,其中最重要的特征是標(biāo)簽和預(yù)覽。標(biāo)簽提取于視頻作者所附原始標(biāo)簽、觀看者實時評論和看后評論,屬于文本特征;預(yù)覽是從視頻中提取出最具代表性的五個畫面,屬于視覺特征。
為獲得多方面的解釋真值,該研究為標(biāo)注者設(shè)計了一系列的問題:
Q1: 哪些特征是您想觀看該視頻的原因?(推薦說服力)
Q2: 哪些特征最能體現(xiàn)該視頻的信息?(解釋信息量)
Q3: 哪些特征您最感興趣?(用戶滿意度)
Q4: 請根據(jù)您的喜好進(jìn)行評分(范圍 1~5)
Q5: 您怎樣評價該視頻?(對視頻的詳細(xì)觀點)
2. 招募標(biāo)注者使用上述平臺,收集他們的行為和回答
數(shù)據(jù)集的完整標(biāo)注過程如圖所示:
Step1: 用戶注冊用戶提供個人基礎(chǔ)信息進(jìn)行平臺注冊,并完成大五人格測試題。
Step2: 平臺推薦
用戶登錄平臺,系統(tǒng)為其隨機(jī)推薦三個短視頻。
Step3: 用戶選擇和觀看之前問題回答
用戶查看推薦視頻的特征并選擇是否想要觀看該視頻,若決定觀看,則需回答讓其選擇觀看該視頻的特征(Q1),否則用戶需要選擇令其不想觀看該視頻的特征。
Step4: 觀看視頻
用戶觀看完整視頻。
Step5: 觀看之后問題回答
用戶觀看過視頻后,進(jìn)行評分和評價(Q4 和 Q5), 回答最能體現(xiàn)視頻內(nèi)容的特征(Q2)和最能反應(yīng)用戶興趣的特征(Q3)。
每個用戶需完成 Step1 一次,并重復(fù) Step2~Step5 六次,因此,在完整的標(biāo)注過程中,每位用戶會接收到 18 個推薦視頻并對其進(jìn)行標(biāo)注。
3. 數(shù)據(jù)質(zhì)量控制
相比于圖像識別、實體標(biāo)注等傳統(tǒng)標(biāo)注任務(wù)中真值都是客觀的,REASONER 數(shù)據(jù)集旨在收集用戶主觀的個性化的偏好,無嚴(yán)格對錯之分,這給質(zhì)量控制增添了難度。
為此,該研究精心設(shè)置了一系列的規(guī)則判斷標(biāo)注結(jié)果的合理性,并移除不合理的樣本。規(guī)則的設(shè)計主要依據(jù)標(biāo)注時間、不同問題的一致回答、同一問題的矛盾回答和不同問題的矛盾回答等方面。
數(shù)據(jù)集內(nèi)容
REASONER 數(shù)據(jù)集包含了 2997 個用戶,4672 個視頻,6115 個標(biāo)簽以及 58000 多條用戶與視頻的交互記錄,這些信息存儲在下列文件中:
REASONER-Dataset │── dataset │ ├── interaction.csv │ ├── user.csv │ ├── video.csv │ ├── bigfive.csv │ ├── tag_map.csv │ ├── video_map.csv │── preview │── README.md
1. Interaction.csv 字段說明
2. user.csv 字段說明3. video.csv 字段說明4. bigfive.csv 說明標(biāo)注人員需完成大五人格測試 ( Big Five Personality Test ) ,bigfive.csv 包含標(biāo)注者對 15 個問題的回答,其中 [ 0, 1, 2, 3, 4, 5 ] 分別對應(yīng)于 [ 完全不符合,大部分不符合,有點不符合,有點符合,大部分符合,完全符合 ] 。
5. tag_map.csv 字段說明
6. video_map.csv 字段說明7. preview 說明包含了每個視頻的五個圖片預(yù)覽。
可解釋推薦工具包
連同 REASONER 數(shù)據(jù)集,該研究還開發(fā)了一個可解釋推薦算法工具包方便大家使用。該代碼庫提供了兩類廣泛研究的可解釋推薦模型,分別是基于特征的可解釋推薦模型和基于自然語言解釋的推薦模型。
現(xiàn)有模型
1. 基于特征的模型
EFM from Yongfeng Zhang et al.: Explicit Factor Models for Explainable Recommendation based on Phrase-level Sentiment Analysis ( SIGIR 2014 ) .
TriRank from Xiangnan He et al.: TriRank: Review-aware Explainable Recommendation by Modeling Aspects ( CIKM 2015 ) .
LRPPM from Xu Chen et al.: Learning to Rank Features for Recommendation over Multiple Categories ( SIGIR 2016 ) .
SULM from Konstantin Bauman et al.: Aspect Based Recommendations: Recommending Items with the Most Valuable Aspects Based on User Reviews. ( KDD 2017 ) .
MTER from Nan Wang et al.: Explainable Recommendation via Multi-Task Learning in Opinionated Text Data ( SIGIR 2018 ) .
AMF from Yunfeng Hou et al.: Explainable recommendation with fusion of aspect information ( WWW 2019 ) .
DERM: 區(qū)別于以上基于矩陣分解的淺層模型,該研究實現(xiàn)了不同形式的深度可解釋推薦模型 ( Deep Explainable Recommendation Models ) .
2. 基于自然語言解釋的模型
Att2Seq from Li Dong et al.: Learning to Generate Product Reviews from Attributes ( ACL 2017 ) .
NRT from Piji Li et al.: Neural Rating Regression with Abstractive Tips Generation for Recommendation ( SIGIR 2017 ) .
PETER from Lei Li et al.: Personalized Transformer for Explainable Recommendation ( ACL 2021 ) .
快速使用
1. 下載源代碼
git clone https://github.com/REASONER2023/reasoner2023.github.io.git
2. 快速運行
運行基于特征的模型:
python tag_predict.py --model= [ model_name ] --dataset= [ dataset ] --config= [ config_files ]
運行基于自然語言解釋的模型:
python review_generate.py --model= [ model_name ] --dataset= [ dataset ] --config= [ config_files ]
適配 RecBole
RecBole ( 伯樂 ) 是一個基于 PyTorch 開發(fā)的統(tǒng)一、全面和高效的推薦算法框架,目前已有 2.6k star。REASONER 數(shù)據(jù)集已經(jīng)有適配 RecBole 數(shù)據(jù)格式的版本,接下來該研究會將目前的可解釋推薦算法工具包遷移到 RecBole 上,方便大家使用 RecBole 中豐富、便捷的各項功能。
展望
研究團(tuán)隊相信 REAONER 數(shù)據(jù)集將為可解釋推薦領(lǐng)域帶來以下新機(jī)會:
多方面的可解釋推薦:通過 REASONER 數(shù)據(jù)集,人們可以同時考慮不同的解釋方面,并學(xué)習(xí)更全面的可解釋模型來為線上用戶服務(wù)。
多模態(tài)的可解釋推薦:在現(xiàn)實場景中,用戶總是需要感知多模態(tài)信息。借助 REASONER 數(shù)據(jù)集,人們可以圍繞多模態(tài)解釋展開研究。
具有全面人物信息的可解釋推薦:通過 REASONER 數(shù)據(jù)集,人們可以獲取脫敏的用戶信息,有助于很多方向的研究。例如,解釋的公平性,以及利用用戶特征增強(qiáng)解釋預(yù)測的準(zhǔn)確性。
推薦系統(tǒng)其他方向:推薦系統(tǒng)糾偏、基于心理學(xué)的推薦算法等。
Reference
[ 1 ] Xu Chen, Jingsen Zhang, Lei Wang, Quanyu Dai, Zhenhua Dong, Ruiming Tang, Rui Zhang, Li Chen and Ji-Rong Wen. REASONER: An Explainable Recommendation Dataset with Multi-aspect Real User Labeled Ground Truths Towards more Measurable Explainable Recommendation. arXiv preprint arXiv:2303.00168 ( 2023 ) .
[ 2 ] Zhao W X, Mu S, Hou Y, et al. Recbole: Towards a unified, comprehensive and efficient framework for recommendation algorithms [ C ] //Proceedings of the 30th ACM International Conference on Information & nowledge Management. 2021: 4653-4664.
THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com
責(zé)任編輯:hnmd003
相關(guān)閱讀
-
多角度、真實用戶標(biāo)注,人大 & 華為推出可解釋推薦數(shù)據(jù)集 REASONER
機(jī)器之心專欄機(jī)器之心編輯部推薦算法的可解釋性近年來受到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。盡管人們提出了很多模
2023-05-16 -
大模型迎來「開源季」,盤點過去一個月那些開源的 LLM 和數(shù)據(jù)集
選自AheadofAI機(jī)器之心編譯編譯:杜偉、澤南開源的力量正在源源不斷地影響著整個AI社區(qū),無論是LLM還是數(shù)據(jù)
2023-05-16 -
微軟和 ChatGPT 之父下注核聚變:2028 年用上核聚變商業(yè)發(fā)電
鈦媒體App5月16日消息,微軟日前表示已與核聚變初創(chuàng)公司HelionEnergy簽訂電力采購協(xié)議,將在2028年采購由該
2023-05-16 -
樂歌股份:將盡快進(jìn)軍學(xué)校學(xué)生桌椅,正研究智慧屏接入 ChatGPT 觀點
多知網(wǎng)5月16日消息,智能升降家居品牌樂歌人體工學(xué)科技股份有限公司(以下簡稱樂歌股份)近日舉行了投資者活
2023-05-16 -
你信嗎?谷歌 AI 公司創(chuàng)始人稱傳統(tǒng)搜索引擎十年內(nèi)將消亡
【CNMO新聞】近日,據(jù)CNMO了解,谷歌旗下人工智能子公司DeepMind聯(lián)合創(chuàng)始人穆斯塔法·蘇萊曼(MustafaSuley
2023-05-16 -
蘋果 iPhone 15 系列初期備貨量“不容樂觀”,供應(yīng)鏈普遍信心不足
蘋果將會在今年秋天帶來新一代iPhone15系列手機(jī),目前相關(guān)準(zhǔn)備工作正在進(jìn)行當(dāng)中。今年智能手機(jī)市場形勢嚴(yán)峻
2023-05-16
相關(guān)閱讀
-
多角度、真實用戶標(biāo)注,人大 & 華為推出可解釋推薦數(shù)據(jù)集 REASONER
機(jī)器之心專欄機(jī)器之心編輯部推薦算法的可解釋性近年來受到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。盡管人們提出了很多模
-
大模型迎來「開源季」,盤點過去一個月那些開源的 LLM 和數(shù)據(jù)集
選自AheadofAI機(jī)器之心編譯編譯:杜偉、澤南開源的力量正在源源不斷地影響著整個AI社區(qū),無論是LLM還是數(shù)據(jù)
-
微軟和 ChatGPT 之父下注核聚變:2028 年用上核聚變商業(yè)發(fā)電
鈦媒體App5月16日消息,微軟日前表示已與核聚變初創(chuàng)公司HelionEnergy簽訂電力采購協(xié)議,將在2028年采購由該
-
樂歌股份:將盡快進(jìn)軍學(xué)校學(xué)生桌椅,正研究智慧屏接入 ChatGPT 觀點
多知網(wǎng)5月16日消息,智能升降家居品牌樂歌人體工學(xué)科技股份有限公司(以下簡稱樂歌股份)近日舉行了投資者活
-
全國人大常委會的職權(quán)主要有哪幾個方面?國家立法權(quán)具體包括哪些內(nèi)容?
全國人大常委會的職權(quán),主要有以下幾個方面:(一)、國家立法權(quán)。憲法規(guī)定;全國人民代表大會和全國人民代...
-
世界視訊!WPS AI 再發(fā)布新 AI 能力,覆蓋文字、表格、PPT、PDF 四大辦公組件
作者|鄧詠儀編輯|蘇建勛36氪獲悉,5月16日,金山辦公旗下的WPSAI正式對外展示了文字、表格、PPT、PDF四大辦
-
ofo 創(chuàng)始人戴威在美國創(chuàng)業(yè) 開設(shè) About Time Coffee 咖啡連鎖店
ofo小黃車創(chuàng)始人戴威再次開始創(chuàng)業(yè),這次選在美國。他開了一家名為AboutTimeCoffee的咖啡店,已經(jīng)在紐約市中
-
ofo小黃車創(chuàng)始人赴美創(chuàng)業(yè)!ofo小黃車押金還能退回來嗎?
ofo小黃車創(chuàng)始人赴美創(chuàng)業(yè)!ofo小黃車創(chuàng)始人戴威赴美創(chuàng)業(yè):注冊用戶免費喝咖啡,估值2億美元。5月16日,據(jù)...
-
對公銀行開戶要多久?對公銀行開戶需要帶什么資料?
對公銀行開戶要多久?公司銀行開戶需要7天到15天左右。注冊公司時,必須要開立銀行基本戶,公司的銀行賬...
-
余額寶銀華貨幣基金a保本嗎?余額寶三種基金哪個好?
余額寶銀華貨幣基金a保本嗎?銀華多利寶貨幣a屬于基金類產(chǎn)品。除了保本基金之外,所有基金都是不保本,也...
-
微信備用金怎么開通?微信備用金能提現(xiàn)嗎?
微信備用金怎么開通?1、第一步打開微信,進(jìn)去我的界面之后,點擊支付2、第二步進(jìn)去微信支付之后,點擊微...
-
全球動態(tài):為國家低碳城市賦能: 英威騰光伏助力常州打造多個工商業(yè)光伏電站
常州,你好!這座位于蘇南擁有著3200多年歷史的文化古城,時時在煥發(fā)新的生機(jī)。逆變每一縷陽光英威騰光伏行走
-
天天快消息!北京擬實施算力伙伴計劃
北京商報訊(記者楊月涵)近日,北京出臺《北京市促進(jìn)通用人工智能創(chuàng)新發(fā)展的若干措施(2023-2025年)(征
-
針對彈性算力需求 北京擬建設(shè)統(tǒng)一的多云算力調(diào)度平臺
利用政府統(tǒng)一入口,降低公有云采購成本,普惠中小企業(yè),同時減少企業(yè)分別面對不同云廠商的溝通成本。針對彈
-
焦點消息!北京擬整合現(xiàn)有開源中文預(yù)訓(xùn)練數(shù)據(jù)集和高質(zhì)量互聯(lián)網(wǎng)中文數(shù)據(jù)
同時持續(xù)擴(kuò)展高質(zhì)量多模態(tài)數(shù)據(jù)來源,建設(shè)合規(guī)安全的中文、圖文對、音頻、視頻等大模型預(yù)訓(xùn)練語料庫,通過北
-
世界關(guān)注:我國首臺國產(chǎn)化150兆瓦級大型沖擊式轉(zhuǎn)輪成功下線
中國經(jīng)濟(jì)網(wǎng)北京5月16日訊記者今日從東方電氣集團(tuán)東方電機(jī)有限公司獲悉,東方電氣自主研制的國內(nèi)首臺單機(jī)容
-
IDC:一季度中國平板電腦市場同比下降1.1%
證券時報e公司訊,國際數(shù)據(jù)公司(IDC)最新平板電腦季度跟蹤報告顯示,2023年第一季度,中國平板電腦市場出
-
中國人壽c賬戶怎么樣?可以一次性把錢支出來嗎? 焦點快報
中國人壽c賬戶旨在滿足客戶長期儲蓄和風(fēng)險保障的需要,與傳統(tǒng)的儲蓄方式不同,c賬戶的收益主要來自于固定利
-
中國人壽保險靠譜不?有哪些險種?
靠譜。 作為中國最大的保險公司之一,中國人壽保險具有廣泛的服務(wù)網(wǎng)絡(luò)和全面的保險產(chǎn)品線。截至2021年底,
-
全球簡訊:華夏保險存錢可靠嗎?存錢一年可以取嗎?
可靠。 華夏保險作為中國大陸上市的一家股份制保險公司,具有較高的信譽(yù)度和業(yè)務(wù)水平。其推出的存錢型保險
-
要聞速遞:北京印刷學(xué)院突發(fā)集體食物中毒,學(xué)生多次在食物中吃到蟑螂腿、鐵絲、頭發(fā)等異物
據(jù)國是直通車消息,15日下午,在北京印刷學(xué)院班級群中,多位學(xué)生反應(yīng)在學(xué)校食堂用餐后出現(xiàn)上吐下瀉的情
-
北京市今年將招聘鄉(xiāng)村振興協(xié)理員近500名
北京市將啟動2023年鄉(xiāng)村振興協(xié)理員招聘工作,面向北京生源應(yīng)屆畢業(yè)生,計劃招聘494人。報名時間從2023年5月
-
美財長耶倫:美國政府最早6月1日出現(xiàn)債務(wù)違約|全球熱聞
從過去經(jīng)驗來看,如果等到最后時刻再提高政府債務(wù)上限將對企業(yè)和消費者信心帶來“嚴(yán)重危害”,對美國政...
-
9個項目集中簽約落戶重慶影視城(江津白沙)-世界今亮點
9個項目涉及到了外景拍攝、數(shù)字?jǐn)z影棚、影視道具庫全產(chǎn)業(yè)鏈等諸多領(lǐng)域。這批影視產(chǎn)業(yè)項目將為白沙加快建設(shè)
-
無錫搭建養(yǎng)老"幸福圈" 今年將打造35個鄉(xiāng)村睦鄰點 世界熱推薦
以“睦鄰點”為中心,打造鄉(xiāng)村養(yǎng)老“幸福圈”。據(jù)悉,無錫市今年將打造35個同類鄉(xiāng)村“睦鄰點”。
-
你信嗎?谷歌 AI 公司創(chuàng)始人稱傳統(tǒng)搜索引擎十年內(nèi)將消亡
【CNMO新聞】近日,據(jù)CNMO了解,谷歌旗下人工智能子公司DeepMind聯(lián)合創(chuàng)始人穆斯塔法·蘇萊曼(MustafaSuley
-
蘋果 iPhone 15 系列初期備貨量“不容樂觀”,供應(yīng)鏈普遍信心不足
蘋果將會在今年秋天帶來新一代iPhone15系列手機(jī),目前相關(guān)準(zhǔn)備工作正在進(jìn)行當(dāng)中。今年智能手機(jī)市場形勢嚴(yán)峻
-
拆解報告:飛利浦 DLM3542N 無線麥克風(fēng)
短視頻平臺的興起,人們記錄和分享生活的方式開始以視頻為主,隨之體積輕巧便攜,用于提升視頻音頻質(zhì)量的無
-
SpaceX 公理太空 Ax-2 私人航天任務(wù)將于 5 月 22 日發(fā)射,送四人到國際空間站停留八天 全球聚焦
品玩5月16日訊,據(jù)IT之家報道,NASA、SpaceX和AxiomSpace(公理太空)今天(美國時間5月15日)對Ax-2任務(wù)進(jìn)
-
主板廠商新版 BIOS 或沒有解決 AM5 主板問題,SoC 電壓仍會超過 1.3V
由于芯片電壓提高到不安全的水平,導(dǎo)致Ryzen7000X3D系列處理器可能會出現(xiàn)突然燒壞的情況。各大主板廠商在近
精彩推薦
閱讀排行
精彩推送
- 叫“鶴”的城市房價都低?北京一...
- 平安電工:自我提示虧損,靠收購...
- 世界關(guān)注:熱搜!馬斯克收到法院...
- 全球熱消息:重大發(fā)現(xiàn)!抗阿爾茨...
- 網(wǎng)約車要飽和了,比亞迪與廣汽埃...
- 汽車服務(wù)工程專業(yè)介紹及就業(yè)方向...
- 每日焦點!中國太平人壽保險怎么...
- 焦點短訊!泰康保險可靠嗎?怎么...
- 工地工傷保險賠償標(biāo)準(zhǔn)是多少?多...
- 保險合同終止的原因有哪些?怎么...
- 養(yǎng)老保險跨省轉(zhuǎn)移最新政策是什么...
- 當(dāng)前要聞:復(fù)星聯(lián)合健康增資屢敗...
- 2023新財富500富人:4562億,鐘...
- 馬斯克:荒謬 愛潑斯坦從未向我...
- 用戶價值驅(qū)動的汽車電子電氣架構(gòu)...
- 通過軟件平臺賦能客戶可擴(kuò)展ADAS...
- AITO問界與能鏈智電達(dá)成戰(zhàn)略合作...
- 全球熱資訊!細(xì)節(jié)小幅調(diào)整,阿斯...
- 福祿雙喜是什么保險?福祿雙喜兩...
- 微業(yè)貸貸款需要什么條件?微業(yè)貸...
- 華夏貨幣基金怎么樣?華夏貨幣基...
- 焦點播報:輝瑞宣布全資子公司發(fā)...
- 讓“帶娃”不再難 未來我國每千...
- 多行一起下架“智能通知存款”產(chǎn)品
- 今日熱議:倍諳基宣布完成逾3億...
- 當(dāng)前速遞!華麗家族股價封死漲停...
- 全球資訊:華為 MateBook E ...
- 小冰宣布啟動“ GPT 克隆人計...
- WPS AI 二次亮相 展示類微軟 Copilot 能力
- 當(dāng)前熱文:生態(tài)融合 華為 Mate...

