2022-07-08 分類: 網(wǎng)站建設(shè)
沒有一個時代比今天更重視技術(shù)對于內(nèi)容的價值。
越來越多的人們,尤其是年輕人,更加愿意使用和相信算法生成和推送的內(nèi)容。算法之于文章,扮演的就是一個“星探”的角色。它需要在剛剛見面的幾分鐘內(nèi),就判斷出哪個具有“明日之星”的潛力,以便分配更多的資源幫助它“走花路”,而不是只會在對方走紅之后,才說出“我早就知道”的馬后炮。
不幸的是,大部分基于內(nèi)容特征和協(xié)同過濾算法的推薦系統(tǒng),都無法“識英雄于微時”——在文章發(fā)出早期就判斷出其受歡迎程度。這就導(dǎo)致一些原本質(zhì)量很高的文章,很可能因為初始瀏覽量不夠而被埋沒,“標(biāo)題黨”“咪蒙系”反而有可能得到越來越多的推薦和熱度。
如何在過剩的信息洪流中將用戶最感興趣、最具潛力的資訊率先甄選出來,是建立一個良性內(nèi)容生態(tài)的關(guān)鍵,卻也是困擾各大巨頭、懸而未決的技術(shù)難題。
最近,微信的研究人員就提出了一種新的神經(jīng)網(wǎng)絡(luò)方法DFTC,用來更好地預(yù)測網(wǎng)絡(luò)文章的熱度。由于該模型表現(xiàn)出了良好的性能,已經(jīng)被AAAI 2019 大會接收, 并在大會上作了主題報告。
它在哪些領(lǐng)域進行了創(chuàng)新?又能為現(xiàn)有的爆款內(nèi)容生產(chǎn)機制帶來哪些改變呢?渠道分發(fā)哪家強?熱度預(yù)測又面臨哪些難題?
在介紹新方法之前,有必要先梳理一下,當(dāng)前的推薦算法都是如何進行熱度預(yù)測的?
如何進行熱度預(yù)測一種是基于聚合瀏覽量的時間演進過程,比如:今日頭條的熱門推薦算法,就是優(yōu)先推薦熱門的文章。
這種方式的優(yōu)勢是:已知的歷史熱度會越來越接近整體受歡迎程度,因此,模型的表現(xiàn)也會隨著文章發(fā)布的時間而變得越來越好。
但由于很多外部因素帶來的意外增長,都是不可預(yù)測的,時間熱度模型卻對此卻無能為力。即使引入人工干預(yù),除非像咪蒙系一樣憑借大量經(jīng)驗和策劃,否則也很難確定爆款文章可能出現(xiàn)的時間,以及生命力有多強。
二是通過預(yù)測內(nèi)容特征的受歡迎程度,來推斷整體可能的熱度。
Yahoo Today就曾經(jīng)用新聞的點擊率來進行畫像,并用feature-based learning方法來建模用戶對資訊感興趣的程度。
其中包括靜態(tài)特征,比如:資訊的類目、主題等;以及動態(tài)特征,如某條資訊、某類資訊分時間段的各種統(tǒng)計值等。
通過這種方法,Yahoo發(fā)現(xiàn)在推薦新聞時,娛樂類新聞天然比體育類新聞點擊率高。
由于內(nèi)容特征不會隨著時間而變化,因此很多不那么刺激眼球的內(nèi)容,也可以獲得公平的曝光機會,使得該模型在早期階段效果更為可靠。
但問題也隨之而來,網(wǎng)絡(luò)文章通常是長文本,加上越來越復(fù)雜的元數(shù)據(jù)特征(如標(biāo)題、類別、作者信息等),建模難度也日漸增大,目前還沒有此類模型能夠完全地利用這些數(shù)據(jù)。
不難發(fā)現(xiàn):不論是基于時間演進,還是基于內(nèi)容特征,都不足以支撐內(nèi)容終極價值的判斷標(biāo)準(zhǔn)。只有雙管齊下,才能發(fā)揮出的預(yù)測效果。然而,這對于算法工程師來說是極大的挑戰(zhàn)。
DFTC:改寫熱度預(yù)測的叢林法則為了改變這一現(xiàn)狀,微信的研究人員就此提出了一種將時間過程,與內(nèi)容特征深度地融合到一起的神經(jīng)網(wǎng)絡(luò)方法——Deep Fusion of Temporal process and Content features,簡稱DFTC,來構(gòu)建更合理的熱度預(yù)測系統(tǒng)。
他們收集了2018年5月-7月的6萬篇微信公眾號文章的熱度數(shù)據(jù),將文章熱度分為 3 類:爆款(閱讀量>10000),冷門(閱讀量<100)和普通 (其它)。最終得到一個類別基本平衡的數(shù)據(jù)集用作訓(xùn)練 (training set) 和測試 (balanced test set),并建立了一個2 萬篇文章構(gòu)成的隨機測試集 (random test set)。
DFTC一共包含三個部分:
時間過程建模;內(nèi)容特征建模;注意融合。首先,采用卷積神經(jīng)網(wǎng)絡(luò)(Attention CNN)來提取文章增長和下降的短期波動情況,比如:一篇文章每小時瀏覽量的變化情況。
接著,再利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)得出文章受歡迎程度的長期增長趨勢。
然后,利用分層注意網(wǎng)絡(luò)(HAN)來獲取文本特征,使用嵌入技術(shù)來學(xué)習(xí)各種元數(shù)據(jù)的特征,并進行建模,得到一個內(nèi)容特征模型。
接下來,將建好的時序模型和內(nèi)容模型利用注意力機制,動態(tài)地組合到一起,生成一個能夠體現(xiàn)出文章熱度演變過程多樣性的靈活權(quán)重(popularity level)。
DFTC的創(chuàng)新之處是,解決了三個懸而未決的行業(yè)難題:
如何預(yù)測意外情況帶來的短期波動(Attention CNN自動學(xué)習(xí)短期波動,不做具體假設(shè)或人工設(shè)計);如何解決元數(shù)據(jù)多模態(tài)的識別難題(embedding技術(shù)可以識別短文本描述、標(biāo)題和圖像等多種表現(xiàn)形式);相同內(nèi)容特征與不同生命周期階段的連接(Attention融合機制,生成一個靈活權(quán)重而非線性組合)。至此,一個更優(yōu)秀的熱度預(yù)測模型就誕生了。
實驗數(shù)據(jù)顯示:“兩手抓兩手都要硬”的DFTC,在文章發(fā)布后的前5個小時,其預(yù)測的準(zhǔn)確度相比其他單一性解決方案強出了不少。
不難發(fā)現(xiàn):DFTC正是基于對短期瀏覽量、意外因素、內(nèi)容關(guān)鍵詞等可能,決定最終受歡迎程度的多重因素進行了全面統(tǒng)籌,才能在初始期就做出更精準(zhǔn)的判斷。
因此,一些枯燥無趣的內(nèi)容會被率先過濾掉,有潛力的優(yōu)質(zhì)文章也更容易得到推薦,避免了“酒香也怕巷子深”的命運。
或許不久以后,依靠經(jīng)驗和直覺打造爆款,和依靠大數(shù)據(jù)與關(guān)鍵詞打造爆款,這些技術(shù)蠻荒時代的叢林法則慢慢都會被更好的生態(tài)機制所取代。
熱度預(yù)測照亮的未來,不只屬于文字。
個性化推薦系統(tǒng)既不能完全遵循用戶興趣標(biāo)簽與內(nèi)容特征抽取的匹配,那會導(dǎo)致越來越嚴(yán)重的信息繭房(“喜歡你就多看點”)和回聲室效應(yīng)(“你反對的絕不出現(xiàn)”);也不能單純依靠文章的生命周期來判斷,讓優(yōu)質(zhì)創(chuàng)作者在平臺偏向(“這篇會火都給我看”)之下涼了熱血。
因此單純從數(shù)據(jù)上看,DFTC是成功的。
目前,微信已經(jīng)將該模型作為系統(tǒng)選擇和推薦文章的重要依據(jù),開始在“看一看”等產(chǎn)品場景中進行實踐。
從更廣泛的實用性來說,DFTC所代表的思路,用深度學(xué)習(xí)技術(shù)和思維解決預(yù)測問題,正在成為業(yè)界共識。
“在任意時間預(yù)測網(wǎng)絡(luò)內(nèi)容的最終熱度”,DFTC不僅僅只有資訊平臺的推薦算法,在廣告、搜索等業(yè)務(wù)也能起到很強的推動作用,提高內(nèi)容的分發(fā)效率。
而就在前不久,微軟也提出過一個跨產(chǎn)品的用戶行為模型,將用戶在搜索、新聞、appstore、xbox等多個產(chǎn)品線上的行為(反饋)統(tǒng)一在一起。這樣訓(xùn)練出的深度學(xué)習(xí)網(wǎng)絡(luò),就能很好地優(yōu)化和解決單個產(chǎn)品上(用戶)冷啟動、信息稀疏等問題。
也就是說:可能你搜索了“房價會不會繼續(xù)上漲”,打開新聞App就會收到“房價可能回到三年前”的新聞,是不是有點細(xì)思極恐呢?
這也反映出深度學(xué)習(xí)進行熱點預(yù)測所呈現(xiàn)的新的問題:
平臺對熱點的評估只是一種模仿,好的閱讀體驗究竟應(yīng)該如何量化?
為了更好的閱讀體驗,讀者需要讓渡多少個人隱私?
當(dāng)然,現(xiàn)在想這些還有點為時過早。無論如何,熱度預(yù)測模型能力的升級,正在讓內(nèi)容產(chǎn)業(yè)關(guān)于價值的標(biāo)尺越來越多元,這可能是算法最具人性的一次。
文章題目:微信新的熱文定義促進內(nèi)容價值多元化
分享網(wǎng)址:http://jinyejixie.com/news/175640.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供商城網(wǎng)站、App設(shè)計、定制開發(fā)、域名注冊、網(wǎng)頁設(shè)計公司、虛擬主機
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容