用“斗渣男”的方法,與低質內容做斗爭
編輯導讀:對于內容產品來說,內容審核是必不可少的環節之一,特別是針對低質內容的篩選和刪改更是勞心勞神。如何快速有效識別低質內容,營造平臺良好生態?本文作者以“斗渣男”的例子,對此展開了分析說明,一起來看看~
直擊靈魂一問:你遇到過渣男嗎?
直擊靈魂二問:你被渣過嗎?
直擊靈魂三問:你被渣過后,怎樣反擊?
要是沒有,這篇文章就到這兒結束了?
不!結束不了!
現在沒遇到,可以看看渣男的套路,防患于未然。
反渣男套路四部曲:
- 第一步:發現—透過蛛絲馬跡,發現存疑跡象
- 第二步:分析—尋找證據,證明他的身份
- 第三步:識別—利用確鑿證據,坐實渣男身份
- 第四步:反擊—多種手段齊上陣,絕地反擊
凈化生態,打擊低質內容,同樣適用四部曲:
- 第一步:發現—透過蛛絲馬跡,發現疑似低質
- 第二步:分析—尋找證據,證明它是低質內容
- 第三步:識別—利用模型、人工,精準識別低質
- 第四步:反擊—降權、過濾等手段齊上陣,絕地反擊
一、透過蛛絲馬跡,尋找證據,揪住低質內容
我們都知道,世上渣男千千萬,普遍性中都帶有獨特性,先來看看常見的有哪些?那些不常見的,可以通過什么方法來發現?
最常見的就是徒有外表,沒有內涵,利用精致外表來迷惑人心,讓你放下戒備,徹底淪陷。
另外就是花言巧語,利用人性的弱點,讓你放下戒備,徹底淪陷。
看到這里,也許你會反問!
- 只要外表光鮮,就是渣男嗎?
- 只要花言巧語,就是渣男嗎?
- ……
其實不然,這些只是列舉的存疑跡象,當出現這些跡象后,我們需要小心啦,進一步搜集證據,進行綜合分析。
- 試探他對你的各種表達,是否忽冷忽熱?是否行為異常?
- 看他是否向你坦白過往的歷史,日常所做的事,是否有所隱瞞?
- 看他是否會把你介紹他的朋友,是否允許你進入他的世界,承認你的存在?
- 走訪他的周邊朋友,聽最“真實的反饋”
當然,要是有最直接的證據,就不用費力去做這些了。
比如《三十而已》中,顧佳似乎已經通過許幻山的異常行為發現了端倪,始終沒有直接證據。直到通過林有有身上的飾品,以及閨蜜拍的照片等直接證據,才坐實了許幻山出軌的事實。
……
當把這些渣男特征投射到內容上,分別對應著標題黨與低俗色情內容等,這類內容利用各類吸引眼球的關鍵字,夸大其詞,刺激用戶點擊欲望。利用人性的弱點,刺激荷爾蒙分泌,刺激用戶點擊的欲望。
低質內容特征除了這些之外,還有很多很多,隨著自媒體的發展,自媒體創作者發揮著無窮無盡的“聰明才智”獲取流量。
對于可枚舉低質內容,按照不同內容體裁可有以下枚舉值:
對于不可枚舉低質內容,沒法通過模型或者人工立馬將其干掉,但可通過一些蛛絲馬跡,將其揪出重點監控與分析。
1. 用戶反饋-最真實的聲音
內容類產品都有設置用戶反饋渠道,除了固定反饋選項,用戶也可主動填寫意見建議,那么應該怎樣用好這些資源?
A)搭建數據監控報表,針對每一類負反饋選項,整體負反饋投訴等,監測小時級、天級的用戶反饋趨勢變化,定期進行分析。建立報警機制,當某類投訴超出一定閾值(比如xx小時內投訴內容猛增xxx+),發出報警信息,重點排查監控。
B)定期分析用戶主動填寫的意見反饋,除了人工一條條查閱總結,也可通過python切詞進行詞頻分析,統計用戶負向反饋集中于哪些方向。筆者拉出了所在公司一定時間周期內用戶負反饋數據,用python切詞處理得到如下結果:
通過詞頻統計發現,用戶反饋比較高頻的詞語基本沒什么實際意義,但也不乏“胡說八道”“廢話”等反應用戶情緒的詞語,再聯系情景語境與被反饋的文章內容,也可總結出一批低質內容特征(慢工出細活,這里需要很強的總結歸納能力)。
附上python切詞代碼,墻裂推薦超好用的一款工具-VS code。
import jieba
txt=open(“d:\負反饋內容.txt”,”r”,encoding=’utf-8′).read()
words=jieba.lcut(txt)
counts={}
forwordinwords:
iflen(word)==1:
continue
else:
counts[word]=counts.get(word,0)+1
items=list(counts.items())
items.sort(key=lambdax:x[1],reverse=True)
foriinrange(1000):
word,count=items[i]
print(“{0:<5}{1:>5}”.format(word,count))
2. 審核當好把門關
隨著自媒體時代到來,人人都是發聲者,每日海量內容涌入各大平臺,內容安全變得越來越重要。機器模型無法做到100%準確識別,人工的力量變的愈發重要。
眾所周知,審核同學會在審核時為內容打標(主要針對既有的枚舉低質內容標簽),業界常規做法是利用機器模型輔助人審,提升審核效率。
無法枚舉的低質內容,該怎樣發現,監控爆發增長趨勢?
此刻,搭建一套監控機制體系顯得尤為重要!
第一步:審核工具增加“疑似低質”tag選項,標識沒有被既有低質標簽覆蓋的內容。
注意點:加強審核人員培訓,包括內容審核標準培訓(了解實際工作,提升專業能力)、業務培訓(拓展知識邊界,加深業務理解)等,只有審核同學更了解業務,才能在審核打標時理解更透徹。
第二步:建立監控報表,針對每一類既有低質內容,疑似低質內容等,監測這些標簽內容在不同類目、不同時段的數量變化趨勢,對于一定周期內爆發式增長、某個類目爆發式增長的低質內容,重點監控與排查分析。
第三步:定期分析疑似低質內容,從中總結歸納新的低質內容,建立模型標準,推進樣本標注與模型訓練,輸出滿足上線要求的內容質量模型,輔助人審或者應用線上。
二、精準識別低質內容,絕地反擊
我們透過蛛絲馬跡,發現了渣男的可疑跡象,通過各種方法搜集到證據,怎樣讓他現出原形?
- 當面對質
- 將他說的假話念給他聽
- 將隱瞞的種種事實說給他聽
- 將朋友的真實反饋說給他聽
- 將最直接的證據扔他臉上
- ……
如果
渣男,鑒定無疑,怎么處理?
當然,一腳把它踢開呀!
那么,通過模型、人審精準識別的低質內容,應該怎樣處理?
想要回答這個問題,首先我們來看看推薦系統怎樣運轉。
推薦系統大致分為5個環節:推薦內容候選池(正排)→召回→粗排→精排→機制策略
- 推薦內容候選池:從內容庫中通過一定過濾條件,篩選可用內容。
- 召回:從推薦內容候選池中,通過一定規則(內容特征特征、模型、功能等)找到對應內容。
- 粗排:針對各路召回內容,利用用戶特征、內容特征、環境特征、交叉特征等進行粗粒度排序。
- 精排:再次利用精細化特征信息,利用cyr預估等模型,為內容打分排序,產生一個用戶的待推薦內容列表。
- 機制策略:使用各種機制策略(打散、去重、提權、過濾等)得到用戶最終推薦內容列表。
由此來看,處理低質內容可作用于召回、機制策略等環節。
1. 作用于召回-召回過濾
適用范圍:嚴重影響用戶閱讀體驗的強低質內容,比如視頻無聲音、模糊、音畫不同步等。
實現形式:直接將命中的tag內容過濾掉,不會進入排序環節。
2. 作用于機制策略-推薦降權
適用范圍:不嚴重影響用戶閱讀體驗,比如標題黨、低俗等內容。
實現形式:
1)機制策略側加上降權邏輯,降低此類內容在推薦列表排序,從而減小曝光量。
注意點:對于標題黨、低俗等內容打壓,勢必會對大盤數據造成影響,因此需要AB實驗驗證打壓策略的實際效果。
- AB實驗隨機分桶,進行小流量實驗
- 關注核心數據指標:人均人均點擊、人均閱讀時長、次日留存、3日留存等。
- 若實驗收益負向,觀察核心指標浮動區間是否穩定,找到平衡點,再上報領導層,對于實驗的負向收益區間是否可接受。若可接受,可分階段擴大流量上線。若不可接受,需要調整策略(建立低質內容分檔分級,由嚴重到一般分級打壓,給用戶適應周期)。
2)搭建一套生態凈化平臺工具,靈活管控內容生態
生態凈化工具可大致分為三個模塊:模型內容特征參數配置→凈化過濾任務配置→生效范圍配置
- 模型內容特征參數配置:可實現對不同模型內容特征設定閾值,卡檔分級,根據模型迭代優化效果,靈活調整參數配置??芍С蛛S時增添新模型內容特征配置。
- 凈化過濾任務配置:針對圖文/視頻/小視頻等不同體裁分別配置過濾任務,可從一二級分類、標題關鍵字、內容屬性特征(模型特征+人審標簽)等維度進行配置??芍С蛛S時添加新模型特征與人審標簽。
- 生效范圍配置:針對配置好的凈化過濾任務,再次配置生效范圍,可從用戶性別與年齡,地域、手機型號與系統、bucket(流量分桶)等進行生效用戶圈定??芍С蛛S時添加新的特征字段。
通過生態凈化工具,靈活管控,在重大節日、特殊時期等節點,可實現快速、靈活響應。
渣男千千萬,永遠斗不完。
低質內容萬萬種,永遠打不完。
對待渣男,要擦亮雙眼,不要沉迷!
對待低質內容,要擦亮雙眼,不放過一個!
這場戰役,將是場持久戰!
本文由 @珂然 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
確實是個持久戰,敵進我退,敵駐我擾,敵疲我打,敵退我追。