“標簽體系”建設的復盤與思考(上),以“城市治理 | 輿情監測分析業務”為例詳解~
許多業務都需要涉及到標簽體系的建設,尤其伴隨著業務的擴大,標簽體系需要趨向精細化,以支撐最終的精細化運營。那么,標簽體系該如何建設并應用至業務場景中?本文作者結合案例做了梳理和解讀,一起來看。
寫在前面
近來想要成體系地復盤一下自己做過的“標簽體系”相關的內容,于是便有了本篇文章。
文章導讀:
- 標簽體系的必要性?
- 標簽及標簽體系,到底是什么?
- 標簽體系的建設步驟和依據原則。
- 以“城市治理”業務下的 “輿情監測分析”業務場景為例,介紹和分享輿情監測分析場景下,輿情業務標簽體系的設計方法和成果。
一、標簽體系建設的必要性
各行各業在實現其自身業務目標時,都逃不脫的一個工作環節就是:標簽體系的建設和優化迭代。在業務開展初期,標簽體系往往無需過于龐大,滿足業務使用即可;但隨著業務的發展壯大,標簽體系勢必會持續迭代、甚至越來越精細化,以支撐精細化運營,而精細化運營的最終目的是提高營收,即讓更多的消費者/客戶,持續性的選擇你的商品/你的服務(更多的用戶、更多的消費頻次)。
所以,我們看:不論是賣商品的電商平臺,賣酒店服務的O2O平臺,賣房子/租房子的鏈家平臺,賣火鍋的海底撈餐飲店,還是家門口的物美超市,還是提供內容服務的平臺(如音樂App、小說(網絡文學)平臺(七貓、微信讀書)、今日頭條等新聞咨訊類平臺,小紅書),其產品邏輯內部,一定會有一個模塊是【標簽體系/標簽管理】。
比如,在【人人都是PM】平臺上,輸入“標簽體系”關鍵詞搜一搜,就可以得到如下結果:
- 醫療健康行業:http://www.aharts.cn/pd/5639033.html
- 網絡文學平臺:http://www.aharts.cn/pd/4381688.html
- 海底撈都在給用戶打標簽:http://www.aharts.cn/operate/5335968.html
- 大促場景的標簽體系與目標客群:http://www.aharts.cn/marketing/4175204.html
- 提高90%轉化率,從0-1打造私域標簽:http://www.aharts.cn/operate/5934106.html
那“標簽體系”,到底如何建設?又應用在哪些業務場景和業務功能中呢?
首先我們要清楚,什么是標簽,什么是標簽體系?
——標簽,是用來給你所分析的業務對象分類、打標簽用的,需要包含標簽名稱、標簽別名(可能需要有)、標簽定義、標簽數據樣例。比如你對你未來另一半的期待,你可以用標簽化的形式來提需求,比如“身高要大于180cm”、“學歷不能低于本科”、“性別男”、“年收入50萬以上”等等,這里面的身高、學歷、年收入、性別,都是人(未來男朋友)這個對象的基本屬性標簽;
此外還可以有行為習慣、興趣愛好的一些標簽,比如“喜愛攝影”、“喜歡讀書”等等;我們個人簡歷中的每一項內容,實際也都是基于“標簽體系”來展開的。
再放大來看,我們對世界的認知,也是基于先人給世界(宇宙)中的萬事萬物定了義、分了類、打了標簽。
- 對于零售/商超/電商場景:需要打標的對象有:人、貨、場;
- 對于內容提供平臺:需要打標的對象有:提供的內容本身(如提供的是音樂內容,音樂分為哪些維度?按國家、按音樂風格、按歌手、按流行度…?),以及潛在用戶和老用戶;
- 對于賣火鍋的海底撈:需要打標的對象有:火鍋本身的治理(包括:火鍋底料:是番茄味的還是菌菇味的?火鍋套餐有哪幾種?(單人餐、雙人餐、三-四人餐?)不同選擇下,火鍋價格如何定價?),以及其消費者標簽又如何。
——而標簽體系,顧名思義就是“形成體系的一個標簽集合”,比如“知識體系”、“課程體系”,不是隨便的一個集合就能稱之為體系,這個集合(體系)要科學、合理,即遵循MECE原則,且要便于管理維護和迭代。
——也就是說建設標簽體系,第一步是找到需要貼標簽的業務對象;第二步在建立標簽體系時,要滿足科學合理(滿足MECE原則)、可管理維護和可持續迭代,這幾點要求。
好了,讀到這可以了解到:
- 標簽體系為何存在?(為何必要?)
- 什么是標簽?
- 什么標簽體系?標簽體系有哪些建設步驟和要求。
在后續章節中,我會結合個人自身實際工作內容以及學習調研成果,以“【城市治理業務】中的標簽體系建設”為命題任務,試圖探討如何設計【城市治理】這個復雜場景下的標簽體系,包括如下兩部分內容:
- “輿情分析”單點業務場景的標簽體系設計;
- 多點業務場景融合的數據中臺(數據融合治理平臺)的產品設計及其核心功能(含標簽體系)設計思路。
由于篇幅過長,上述【數據融合治理平臺】部分內容,將在另一篇文章中進行詳述。本篇文章,以“輿情分析”單點業務場景為例,介紹城市治理業務中/輿情分析細分業務場景的標簽體系建設案例。
以下是一些“題外話”…
先設計標簽體系,再建立產品?還是先有產品,再從產品中收集標簽需求?
——這個“雞生蛋、蛋生雞”的問題,我舉幾個例子,讀者便自有體會。
比如在公安業務中,公安體系下有不同的警種,包括:刑偵、技偵、經偵、禁毒、治安維穩、網安等等,不同警種其負責的業務側重點不同,刑偵側重于刑事案件類線索發現、刑事案件處置等;而網安部門,屬于公安體系的支撐部門,即他們負責境內外網絡上全部涉政類和違法犯罪線索類的收集、發現與上報(報給刑偵、經偵、禁毒..等具體的業務部門);
那對于廠商來說,要想設計一套可以解決全公安警種業務問題(網絡涉政類和違法犯罪類線索發現和偵查研判)的產品來說,勢必需要對客戶的類型、業務進行分類,也要對系統生產出的數據進行分類,以使得禁毒的客戶能夠享用到禁毒相關的線索,而不是治安維穩相關的線索;
——你看,這是不是 與電商等領域的【推薦系統】的邏輯是一樣的?
——給你的商品/服務打標簽,給你的用戶打標簽,讓你的商品和用戶能夠建立密切且準確的鏈接。
所以,這個案例就是【先設計客戶標簽體系】,然后設計產品,產品中提供的數據服務也要進行分類。
那從產品中收集標簽需求,通常見于什么情形中呢?
上述公安業務-產品解決方案的案例中,給系統生產的服務(商品)分類打標,就屬于從產品中收集標簽需求,需要打哪些維度的標簽,每個標簽下需要幾個層級,如何給服務(商品)(數據)打標?(機器打標還是人工打標?)打標周期如何?標簽是不是要升級迭代?。
還一個情形就是:數據中臺。
——數據中臺,一般發生于有著非常龐雜業務的大公司內部,該公司內部由于服務的業務方眾多,全部由每個業務方去單獨搞一套系統(從數據生產獲取->數據處理->數據查詢應用),與建設數據中臺相比,大公司都會在業務發展中后期,選擇后者。一來可以節省重復造輪子的成本,二來可以更大的發揮數據價值。
——而建設數據中臺,數據中臺的產品經理,就勢必需要向各個業務方收集/調研 標簽相關的、數據治理相關的需求了。
二、輿情監測分析產品實戰
1. 輿情業務需求分析
傳統輿情系統,一般需要解決的是網上已經發酵的且積累到一定熱度的且存在社會輿情風險的熱點話題或熱點事件的自動識別發現;以及潛在風險的發現(現階段還沒爆發為熱點,但存在引發社會輿論風險的可能),并標記好分類,然后預警推送給相關客戶(如網信辦、高校、企業),以輔助客戶能基于推送的輿情數據,分文別類的查看和進行輿情處置、多維分析和決策。
對于安全生產類的輿情事件/風險,政府部門重視程度非常高;
對于娛樂領域的一些日常的瓜,政府/高校并不關注;如果是文化娛樂經濟公司,可能會關注其競對公司的一些明星的瓜;
政府客戶關注的更多的是:容易引起社會輿論風險和動蕩的一些輿情話題或輿情事件或敏感有害內容的傳播——境內全網治理、境外側重在“涉我”的敏感/有害內容的發現及阻斷;
而高校、企業客戶輿情需求關注更多的是:與其組織相關的正負面輿情,包括其組織內部以及競對或所處行業的網絡信息的監測與分析與告警報送。
不論是政府客戶,還是企業客戶,其對廠商輿情系統的指標要求就是:快、準、全。
2. 輿情產品功能提煉 & 產品方案設計
通過分析不同客戶的業務需求,以及對競品(智慧星光-輿情產品、百分點-輿情產品等)產品功能進行調研分析,我們可以抽象提煉出【輿情產品】應該具備如下功能:
產品整體的業務邏輯為:
其核心底座模塊:輿情數據采集、輿情數據處理與加工。
——這兩部分,直接決定了輿情系統能否滿足業務上的“快、準、全”指標要求。
上層的一些核心輿情業務應用模塊:輿情監測、預警及分析。其中輿情自動監測分析及預警功能,是最重要的業務功能,也是考驗各個輿情供應商能力的地方,數據采集和數據加工治理的成果基本就在【輿情預警】模塊得以展現。
——快不快、準不準、全不全,夠不夠智能,使用你的【輿情預警】模塊功能一段時間便知。
輿情監測分析,業務功能又包括:輿情事件與多維分析、人物監測與多維分析、話題監測與多維分析、賬號監測與多維分析等,以及基于這些分析維度-提供報告編寫和導出功能等等。
輿情事件分析功能包括:輿情事件概覽、輿情事件脈絡分析、事件傳播分析、事件熱度趨勢分析、輿情事件下貼文/報道、網民和媒體關于該事件的觀點及印象分析、網民地域分布等;
人物輿情監測分析-產品邏輯:
人物輿情監測分析-產品功能:
1)輿情產品-標簽需求分析
在前面介紹到了,一個輿情產品的競爭力,在于:夠不夠快、夠不夠準、夠不夠全。也就是在輿情采集和輿情數據加工治理層面,各個廠商到底是騾子還是馬。
市場上有這么幾類廠商:
第一類:有強大的輿情運營團隊,運營團隊對標簽拆的足夠科學,且積攢了非常多的關鍵詞詞包,和一系列的規則策略經驗配置——這往往是 沒有什么AI技術實力的廠商的常見做法?!灾腔坌枪鉃榇?,且在輿情領域,智慧星光品牌算是比較知名;
第一類,是沒有那么多運營人員,但有非常強的算法和數據處理能力,以百度為代表,百度輿情SaaS產品為代表。
還有一類,既沒有很強的AI算法,也沒有人,這些廠商可能因為某種客戶關系也會做一些輿情產品,但其終局無疑是被kick off。
決定你的輿情產品,夠不夠全、夠不夠快、夠不夠準,需要幾個必備的資源支撐:
① 數據資源(跟錢、技術儲備、法務掛鉤)。
——開源的輿情數據,你能不能采,你能采多少?只能做境內的,還是境內外都能做?數據模態上,只能采文本分析文本的,還是文本+圖片+視頻都能采集、都能處理分析?
這里面要考慮和解決的因素:
- 成本和技術儲備。視頻存儲的成本是巨大的,以及視頻分析能力不是隨便一家小廠商就能做到的——首先這家公司要具備視覺AI能力,或是可以用一些開源的視覺AI能力。
- 法務風險。開源數據采集,涉不涉及風控,會不會被告?明顯的競對,比如百度,其采抖音數據,基本上若被發現,就會是要狠狠告你的地步。因此一般的做法通常都是:通過采買或租用第三方廠商采集的抖、快、B站等平臺的數據(小廠商采集數據去應用,雖然也會觸發風控,但是可能沒大廠之前那么嚴重)。
上述因素都考慮,且都能解決的話,在數據采集和簡單的加工處理這一關是過了的。
② 業務資源(跟業務積累、業務經驗掛鉤)。
——你的輿情產品業務功能易不易用,你的標簽夠不夠業務使用,還是需要輿情人員自己配置一大堆關鍵詞和策略?你的產品出廠時,帶不帶預置標簽,帶不帶自動監測預警功能?
如果這個問題,也能解決。那么你的【輿情產品】在市場上才是牛的。
但現實往往是,要么缺乏業務經驗,要么缺乏AI能力。如果輿情系統都能又快、又準、又全,就不會有那么多領導黑料、各類負面輿情事件被扒出來了不是?
2)輿情產品-標簽體系設計
進入正題:輿情產品-標簽體系設計。
輿情-標簽體系設計的是否科學合理,以及是否可持續管理和迭代,正是輿情廠商-在業務層面優劣勢的體現。
一個好的輿情標簽體系,一般標簽分類較全(因為現在輿情市場幾近紅海),且積累了非常多的關鍵詞詞包和語料數據,且有配套的標簽管理工具供標簽可管理、可迭代。
——這些標簽、關鍵詞的積累,一般來自于客戶和運營團隊。
下面,我給大家詳細介紹一下,我是如何建立【輿情產品/標簽體系】的:
p.s.不一定對,但可以參考,后續若學到了新的方法,我再回來補充:)
大體分為三個階段:
① 首先明確需要貼標簽的業務對象有:人、地、事、物、組織。并明確每個業務對象,其建立輿情標簽體系建設的必要性和優先級,以及建好后預期帶來的業務收益;——建立時,按優先級順序:事>人>組織>地>物逐步建立。
② 在建設具體每個業務對象的標簽體系時,遵循標簽體系的建設原則:科學合理(MECE原則)、可管理、可持續迭代。
A. 輿情事件分類體系構建
輿情事件涉及的范疇非常廣,文化領域的娛樂明星的瓜,政法領域的領導班子的瓜,典型社會人物的一些行為,均有可能成為網絡上的輿情熱點。
為了使輿情事件(話題)分類科學,我采用如下分類綱領來進行設計參照,即政治、經濟、文化、社會、生態五大一級分類,可保證標簽完全窮盡。
在政治一級類目下,運用MECE原則,盡可能根據歷史輿情案例情況,列舉出政治領域的相關輿情風險。比如“國家安全”、“國際關系”、“執政形象”;在國家安全問題下,又包含:“意識形態”、“領土安全”、“恐怖活動”、“民族宗教”等典型問題,同時為滿足MECE原則,每個標簽下補以“其它”,使得標簽完全窮盡。
其它一級分類向下拓展標簽仍如此,需要對業務深刻理解(調研客戶需求+調研競品+搜集書籍相關資料),才能據此拆分出相互獨立、又完全窮盡,又滿足業務使用需要的標簽體系。
——一個輔助人工定義標簽的好用方法是“關鍵詞法”(這篇文本內容中反復出現的詞語,思考是否可以直接作為標簽?)。
最終按上述方法,我構建了一套具有四個層級,共600+標簽的輿情事件分類體系,這里列出部分:
在建好了這套標簽體系后,為了使得標簽可維護、可管理、可迭代,輔以【標簽管理】工具/平臺。系統AI算法和運營人員,均可以參照標簽體系中對標簽的定義(標簽名稱、標簽數據樣例、標簽別名等)對業務對象打標。此外運營人員,還可以管理標簽,修改標簽別名、刪除/編輯/添加標簽語料等操作。
上述標簽體系,運用在給系統的采集到的單條消息、熱點話題、輿情事件(多條具有語義相似的消息組成的消息簇)打分類標簽。
B. 人物多維標簽體系構建
人物標簽(畫像)的構建思路:可以從“基本屬性”、“行為習慣”兩個維度來拆分;而關于人的基本屬性標簽和行為習慣標簽,還均可以按事實標簽(即真實情況)、機器預測標簽來拆分;根據數據的獲取渠道,還可以按“現實空間”和“網絡空間”來構建。
人的姓名、性別、出生日期、車牌號、身份證號、社交賬號、電話號等均可以看作是人的基本屬性;
行為習慣,一般則由動態統計標簽來構成,比如“最近3個月訪問xx網站次數”這樣來定義,也可以定義一個標簽:“活躍”,其含義代表:最近x時間網絡有發言且發言量大于n條(x,n支持配置);
C. 標簽體系應用與迭代
- 目標多維檢索場景【搜】:如通過人臉、人物聲音、步態視頻、社交賬號、某個輿情事件,均可以檢索到一個人;通過人/事件名稱/地點/圖片等,均可檢索到輿情事件;
- 監測分析場景【推】:如系統發現某布控區域中,出現了 車牌號為xxx的紅色跑車,便可進行車輛預警推送;如發現網絡上及線下均有關于某一人物的投訴內容/投訴事件,則系統自動推送該人物告警;
通過標簽的實際運用情況來進行迭代:
- 分別統計每個標簽的業務使用頻次,對一些低頻的標簽,進行分析,是實際業務屬于長尾確實用不到該標簽,還是標簽本身不合理,從而進行優化(補充更多的語料數據,更明確的標簽定義,讓算法能夠使用該標簽)或“下架”處理;
- 有新的數據進來,發現原標簽體系無法覆蓋時,分析該數據出現的頻次,若是高頻且重要符合產品規劃,則考慮在標簽體系中增加該標簽。
三、全文總結
本文回顧,本文主要介紹了如下內容:
- 標簽及標簽體系是什么?
- 標簽體系的必要性?
- 標簽體系的建設步驟和依據/原則:MECE、科學合理、可迭代。
- 以“城市治理”業務下的 “輿情監測分析”業務場景為例,介紹輿情監測分析場景下,輿情業務需求、產品的功能架構,以及輿情業務重點監測分析對象(事件和人物)的標簽體系設計方法和成果。
期望我的復盤方法、產品方案設計思路,以及我分享的具體產品案例,能夠對你有所幫助~如有任何意見和建議,歡迎評論區指出,我們一同探討~共同成長~
本文由 @南方碟道 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
關于輿情系統中的一些AI需求,也會作相應補充~
注:文章中有些結構,小編調整的非我想要的~另標簽體系不是越細越全、越大越好~相關內容明天補充~
寫的不錯!很干貨