淺談反垃圾策略:如何營造一個良好的內容環境?
做UGC產品常碰見的難題是什么?那就是如何篩選與過濾垃圾信息,為社區塑造良好的產品調性與氛圍,為用戶提供良好的產品體驗。本文中,筆者也結合了自己的思考,為我們介紹了信息發布的流程以及如何篩選垃圾信息的判斷。
垃圾信息幾乎是每個產品不可避免的問題,尤其是以UGC為主的產品。
如果無法對這群水軍、營銷者加以控制,那么不光產品本身氛圍,甚至可能帶來惡性循環。比如在一個社區里,充斥著大量低劣的廣告,則新用戶也很難提起興致去參與討論。
所以,本文主要來探討在這種敵明我暗的互聯網環境中,該如何反垃圾信息,擁護一個良好的環境,同時避免誤傷到我們的真實用戶。
一、什么是垃圾信息
在探討反垃圾策略之前,我們先將互聯網上的垃圾信息做下簡單的歸類。
1. 廣告
最常見的必然是廣告,只要我們的產品具有一定的用戶量,那么必然像水果吸引蒼蠅一樣,引來不少各類營銷者前來蹭流量。
他們通常會在評論區、彈幕、公屏等能夠和他人交流的地方瘋狂刷屏。
2. 低質內容
因為太過廣泛,所以這類信息其實我也不知該如何定義。
它可以理解為水貼,這類低質量的內容對用戶沒有什么吸引力,甚至泛濫的時候影響到了產品的內容生態、制度的公正性。
比如知乎里大量簡短無意義的回答,豆瓣里被水軍惡意差評過的電影等。
3. 違法信息
這類政治敏感、黃賭毒等信息,不光對用戶有所影響,甚至國家政策也在嚴控。若不能有效控制,則產品本身運營也存在風險,此前有不少APP就因此被關停整改了。
二、發布信息的流程
了解完何為垃圾信息后,我們再來看下這些信息是如何被生產出來的,以便思考該怎么樣制定相應的策略防范它們的產生。
我們以一個最常見的發表評論為例:
如圖所示,我畫了一個相當簡單的流程圖:
第一步:用戶觸發
我們也可以稱之為行為門檻,什么類型的用戶才允許發表評論?
相信大家可能經常遇到這樣的情況,當你看完一篇文章后,興沖沖要發表點想法時,系統會冰冷地彈出一個窗口,讓你先登錄;而在登錄之后,又要求你綁定手機號;綁定完后,還要等待注冊時長滿24小時……
諸如此類,越是成熟活躍的社區,它可能寧愿降低新用戶的體驗,也要保證新內容的質量。
第二步:撰寫評論
可能不同的產品千差萬別,但籠絡地歸納起來,其實就是內容形式和限制條件。
評論內容是純文字還是帶圖片?字數限制多少?圖片最多允許幾張?只有明確了用戶將產生哪些信息,我們才能夠有效地針對處理。
第三步:確認發表
這一步其實是繼準入門檻之后的延伸,我把它稱為內容門檻,可以對發表的評論先做一個簡單的校驗。
比如空內容、純字符、大段重復等明顯垃圾信息,我們可以將它攔截在這里,都無需進入審核。
第四步:評論審核
審核可以分成人工、機器。
在評論量特別大的產品里,如果靠人在審核將是特別大的工作量,也很可能出現遺漏。而機器審核雖然效率高,卻對一些經過包裝粉飾的垃圾信息難以識別。
所以我們通常會選擇兩者結合,下面會進一步探討。
第五步:展示/屏蔽
在經過重重機制之后,我們才最終得出結論:用戶剛發布的這條評論是留是去。
補充一點,現在很多產品即便在判定此條評論為垃圾信息后,也不會簡單粗暴地刪除,而是選擇對外隱藏,但對發布的用戶還顯示。
這樣的做法當然并不是對垃圾信息的寬容,而是為了避免傷害到被誤判的用戶。
額外說明,在這個流程里舉例是先審后發,但也有很多先發后審,或者像直播那種邊審邊播的場景,這里先不贅述。
三、該如何防范垃圾信息的產生
直到這里,我們可以開始探討除了耗時耗力去逐一人工審核外,我們在產品邏輯、算法機制上如何應對這些垃圾信息吧。
我個人將反垃圾策略分為五個維度,如圖所示:
1. 用戶屬性
顧名思義,用戶屬性其實就是我們這款產品對TA的一個身份定義,可以涵蓋的有很多,比如:
- 注冊時長
- 有無頭像
- 是否綁定了手機號
- 是否充值消費過
- ……
這些屬性代表了這個用戶在產品上的價值,也可以從側面觀測出TA是否真的在使用這款產品。
想也知道,那些為發廣告而來的人肯定不會愿意投入太多精力在這些瑣碎的過程上,所以,我們就可以在上面大做文章,比如需綁定了手機號的用戶才能發布新內容等等。
同時,我們還可以建立白、黑名單機制,當某個用戶頻繁發垃圾信息或被舉報后,我們可以禁止他再次發布內容。
2. 操作行為
根據數據觀察,正常的用戶和濫發垃圾信息的用戶他們的操作行為有很大不同,而且有部分甚至是采用腳本或軟件進行群發。
像那些發廣告的人為追求效率,他們總是頻繁地復制黏貼重復一個流程,每次發布新內容的時間間隔都很短,我們自然也可以在上面做相應限制。
比如,同一個設備號/IP/賬號ID的用戶在3分鐘內最多發1條新的內容。
該如何制定這項相關的策略,其實在于我們對真、假用戶的行為判定,你去想想哪些行為真的用戶不屑于做,而假的用戶又在頻繁操作那么很快就會明白了。
像大家都知道,微信的安全策略特別高,經常封號,因為它會經常檢測出那些具有頻繁添加好友、地理位置不變/變動異常、時常群發等行為特質的違規用戶進行處理。
3. 內容信息
通過檢查內容本身來判定這條信息是否符合要求,是反垃圾中的一個最常見策略,也是機器算法不斷在深入研究的一個方向,只可惜這項技術本身看著不錯,但在實際應用時往往不盡如人意。
如果你曾做過防垃圾相關的工作,那么你會發現“上有政策、下有對策”。
中華漢字的文化博大精深,比如我們不希望內容信息里出現“公眾號”這類帶有引流特性的詞語,那么很快就會衍生出“gongzhonghao”“厷眾號”“gong眾呺”這類夾雜著拼音、火星體的來替代。
而且這些垃圾信息在不斷地被屏蔽、被封號中也在進化,廣告越來越軟,暗示越來越隱晦。
像淘寶在微信圈的分享文案一直是行業內的一個笑話,如果你作為微信的PM,讓你去堵住這種信息,是不是也很頭疼?
不過潑完冷水,我們還是要繼續探討下該用什么規則去判斷這條內容信息能否過審?
我個人覺得主意有以下這兩個維度:
(1)違禁詞庫
其實就是將所有不希望用戶發布的內容窮舉出來,比如“加微信”“招兼職”這類詞語,當用戶的內容中包括了這些詞語,并達到了某個頻率,我們可以將這條內容判定為垃圾信息。
(2)重復率
絕大多數情況中,垃圾信息并非偶例,而是成批出現;且因為那個用戶的目的通常為一個,所以TA產生的內容會有所重復。
因為為了宣傳效率,TA不太可能每次發布內容都重新編寫一套話語。
所以我們通??梢詫⒂脩粜掳l的內容將TA的歷史記錄做比較,若重復率極高且頻繁,那TA可能正在制造大量的垃圾信息。
4. 大數據庫
垃圾信息幾乎是所有產品的深受其擾的問題之一,所以現在也有不少可供接入使用的反垃圾系統,它們的價值核心就在于有海量的大數據樣本,且在不斷擴充,對不同領域的垃圾信息都能很好的識別。
利用大數據的最大好處就是,全網共享信息,比如某個微信用戶在平臺A被禁了,那么平臺B也能夠知曉這個消息,對這個用戶嚴防以待。
5. 抬高成本
因為垃圾信息是由人產生的,我們在看到表象的同時,也可以換個角度去思考這些人的動機。
比如說廣告,一個微商為了賣出TA的產品,就希望引來客流關注,TA的動機是為了賺錢,而在發布廣告信息時,TA其實也存在成本,精力和金錢。
我們規定必須綁定過手機號的用戶才可以發內容,TA就需要多花兩分鐘去綁定;我們規定必須消費過的用戶才可以點評,那TA就需要花一定的金額才能點評……
這些規定其實都是在提升濫發垃圾信息的人的成本,當TA在我們產品上發布成本大于所能獲得的回報時,那么TA也沒理由再繼續這個行為了。
有一項應用在反垃圾郵件中比較有效的策略就是,當用戶發送一封新郵件時,需要消耗TA的設備資源進行一些計算,這對于個人來說微不可察。但對于頻繁發送垃圾郵件的人來說,將是不少負擔。
當然,規定絕非越嚴越好,因為我們還得考慮正常用戶,如果要求太嚴苛,將大多數用戶拒之門外,也不是件好事。
四、舉個實例
講完枯燥的理論,最后舉個例子吧。
以《QQ閱讀》產品為例,根據書籍的評論區這一功能,我們該如何防止垃圾評論的產生?
首先,還是基于原來畫的那個簡單的流程圖,然后運用上述策略做擴展。
1. 首先是用戶觸發的門檻。為了保證多數用戶的體驗,可以先做個用戶分群,因為垃圾信息通常是由新用戶產生,所以在發布評論上,新用戶的要求將比老用戶更高,比如:
2. 其次,在撰寫評論時,我們可以對用戶做一些基本的約束,比如:
3. 然后,在確認發表時,我們需判斷下是否讓用戶發表,進入下一流程,在這個流程上其實也可以寬松一些,比如只判斷正文內容是否為空。
4. 接下來,可以調下原流程圖的順序,將原來的先審后發改為先發后審。
因為這樣能夠讓用戶發表完成后,即時看到TA的內容,體驗更佳。但為了防止垃圾信息對別的用戶造成影響,所以可以在此之間加入一條規則——用戶發表后的內容在初次審核之前,暫時只對TA自己可見。
也就是說,當用戶寫了一條書評后,當TA點下“發表”,就立刻能在信息流里看到;但這個書評在未審核完成前,除TA之外的人是看不到的。
這種做法兩邊兼顧,既給了用戶良好的反饋又防止了垃圾信息帶來的影響。
5. 而審核方面,可以同時接入人工和機器審核。其實第4步所說的初審核,也是機器審核,只要初略判斷用戶發布的評論沒大問題,就可以對外開放給其他人。機器審核的耗時較短,可能用戶都不會察覺到。
6. 同時,因為考慮到人工審核是件極費人力的事情,可以再加入舉報機制、黑名單機制,來幫助運營人員更快的去處理垃圾信息。
最后,附上一個完整的流程圖,以便更好的理解。
關于反垃圾策略,暫時就只探討這么多,畢竟個人經驗有限,還希望對大家能有所幫助。
另外,其實上文中很多內容其實針對都是廣告類的垃圾信息,并不適用于低質內容。
而在一個產品中如何提升UGC的內容質量,應該是另一套策略了。比如,定下產品調性、引入核心用戶、激勵政策、內容再傳播等,希望有機會再一起探討。
本文由 @貓丸 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議
想請教一下,如果是先發后審,那么審核通過后的時間流怎么處理呢?是依然按照用戶發布時間排序嘛?
看看微博 就知道了,除非注重時效性,不然用戶對時間的感知度制度不太重要。
頗有收獲
總感覺缺點什么…沒有形成閉環?只有自己單方作戰?用戶體系好像也沒有搭建
某寶的宣傳文案也可以從結構上匹配下