通過文本挖掘,我們發現了國家公務員考試的這些秘密

0 評論 8159 瀏覽 18 收藏 13 分鐘

筆者以一個旁觀者的視角,通過一些語義分析技術去發現近八年(2011~2018)國考行政職業能力測驗(以下簡稱“行測”)考了哪些內容,看能否有一些規律性的發現。

據中國新聞網報道,2020年度中央機關及其直屬機構公務員招考筆試有超143萬人報名,涉及中央和國家機關86個單位、23個直屬機構,而計劃招錄2.4萬人,通過資格審查人數與錄用計劃數之比約為60:1,在報名期間出現多個競爭超“千里挑一”的職位也就不足為奇了。

雖然筆者沒參加過國家公務員考試(以下簡稱“國考”),但本著“內行看門道,外行看熱鬧”的心態,筆者想一個旁觀者的視角,通過一些語義分析技術去發現近八年(2011~2018)國考行政職業能力測驗(以下簡稱“行測”)考了哪些內容,看能否有一些規律性的發現。

數據來源

為保證分析的時效性,筆者僅搜集了2011-2018這八年的國考行測試題(將地市級和副省級試題進行合并),僅提取文本中的題干部分,不包含選項。

為了能直觀的了解這8年的考題講了啥,筆者首先從整體上提取其中的關鍵詞。

“行程計算”類考題是重軸戲

以下是經過關鍵詞提取得到的TOP150關鍵詞的詞云分布圖,其中詞匯大小反映的是詞匯的重要性程度。

從上圖中可以直觀的看到,“速度”一詞在近8年的國考試題中出現頻率較高,說明“行程問題”在國考的試題類型中占較高比重,從如下示例中可以看出:

  • 小王步行的速度比跑步慢50%,跑步的速度比騎車慢50%。如果他…問小王跑步從A城到B城需要多少分鐘
  • 甲、乙兩人計劃從A地步行去B地,乙早上7︰00出發,勻速步行前往,…,為了追上乙,甲決定跑步前進,跑步的速度是乙步行速度的2.5倍,但每跑半小時都需要休息半小時,那么甲什么時候才能追上乙
  • 如右圖所示,甲乙兩人從A、B兩點同時出發,朝不同方向沿小路散步,已知甲的速度是乙的2倍。問以下哪個坐標圖能準確描述兩人之間的直線距離與時間的關系

權重較高的還有“數量”、“里程”、“價格”等關鍵詞,也都反映出國考行測中的計算類型考題較多,國考行測中的數學運算部分,整體難度不大,通常用普通方法都是可以得到答案的。但相對而言,速度比較慢,而借用一些良好的技巧,則可以快速的得到答案。

此外,近些年公務員考試中計算問題考側重考查考生對常見方法技巧的理解、掌握與靈活運用。常用的方法有湊整法、尾數法、分組或消去法公式法和估算法。

小貼士:

上述關鍵詞的提取主要考慮以下4個重要因素:

  1. 詞頻:一般詞匯出現的次數越多,它的重要程度越高;
  2. 位置:句首、句中還是句末,一般來說,句中的詞匯權重會高一些;
  3. 詞性:名詞、動詞);
  4. 詞長:詞匯的長度,一般來說,詞匯的長度越長,好漢的語義信息越豐富,給的權重也更高一些。

盡管上面的關鍵詞云圖能抓住主要詞匯,但是各詞匯之間的關聯性被忽略了,孤立的對某些關鍵詞進行解讀有時很難發現一些有意義的洞察。

那么,有沒有一種方法能夠既捕捉到關鍵信息(即發掘關鍵詞),又能直觀的反映出詞匯之間的關聯性?

答案是有的。

通過詞匯關聯圖挖掘試題側重點

詞匯關聯圖是上述關鍵詞云圖的拓展和延伸 ,增加了語境這一維度,也就是將經常出現在同一個上下文的詞匯的關聯性表達出來。

基于自動聚類形成的詞匯關聯圖,能自然的反映試題題干文本中的語義特征和潛在結構,由此能準確且清晰的知曉近八年國考行測的出題側重點。

對于生成的可視化結果,可以這樣解讀:字體大小表示詞匯的權重值大小,原理同上,能反映詞匯在評論中的重要性,不同的顏色代表不同的話題。

詞匯之間距離越近,說明它們在同一語境中出現的頻率較高,越具有語義相關性,比如“速度”、“執法船”、“行駛”、“小時”和“騎車”等詞匯挨得很近,我們能迅速聯想這些關鍵詞跟試題中的“行程問題”有關,而不是跟政治、物理或者汽車有關。

下圖是自動聚類出來的結果,自動聚為8個主題(點擊下方圖片可查看高清大圖):

上圖中,按照詞匯及其簇群的重要性程度(字體大小、主題詞數量)甄選出有意義的主題,根據其中的關鍵詞可以推測這八年國考行測的4個熱門考點,依次是:

  1. 行程類:這類題一般涉及到路程、速度、時間三者的變化關系,主要反映在紫色系的詞匯簇群中,從“速度”、“行駛”、“距離”、“騎車”等詞匯可以看出;
  2. 生物醫學常識類:這類題主要考察應試者對于生物和醫學相關常識的知識覆蓋面,主要反映在深藍色的詞匯簇群中,從“抽搐”、“浮游植物”、“懸浮質”、“海水”等詞匯可以看出;
  3. 財政學類:這類題主要考察應試者在宏觀經濟相關指標的簡單計算能力,主要反映在土黃色的詞匯簇群中,從“交易規?!?、“總額”、“水產品”、“同比增長”等詞匯可以看出;
  4. 場景計算類:這類題從應試者的生活、工作場景出發,考察應試者的基本計算能力,主要反映在青綠色和寶石藍兩個詞匯簇群中,從“培訓”、“部門”、“單位”、“平均年齡”、“概率”、“定價”和“余額”等詞匯可以看出。

以上4類是筆者能夠直觀看出來的,其他的類別可能有過國考經歷的小伙伴能識別出來,歡迎大家在留言區發言告訴我~

小貼士:

此處的詞匯關聯圖基于HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)實現。相較于傳統的聚類算法(K-means、Spectral clustering、Agglomerative clustering、DBSCAN等),它有如下3大優良特性:

  1. 不需要設定聚類數,有算法自動算出來簇群數
  2. 可以較好的處理數據中的噪音
  3. 可以找到基于不同密度的簇(與DBSCAN不同),并且對參數的選擇更加魯棒(Robust,模型更加健壯)

最后,筆者還想看看歷年的國考行測考題是否存在較大變動,可以將其抽象為一個文本挖掘任務——度量歷年國考行測試題之間的相似度,這可以通過對應分析實現。

近八年各年份試題的相似度度量

按照上述提取關鍵詞的方法,分別提取近八年的國考行測試題題干中的TOP200關鍵詞,這些關鍵信息足以代表該年份國考行測試題了,有了這些數據就可以進行對應分析。

最終得到下圖(點擊下方圖片可查看高清大圖):

對于上圖的可視化結果,可以這樣解讀:夾角越小的國考試題,代表試題內容相似度越高;其次,每個年份考題附近的關鍵詞匯,離得越近,說明關鍵詞在該年份試題中的重要性程度越高,也就越能代表試題的特征。

由此,我們可以得到兩個分析角度:

  1. 從歷年的考題內容相似度來看,2011年和2012年、2017年和2018年的試題內容相關度較高,也就意味著出題結構的連續性較好,以此類推,2013年度、2014年度、2015年度和2016年度的試題連續性也較好。與之相反的是,2012年度、2013年度的出題內容相似度較低,出題內容有一定的跳躍性。總體上來看,國考試題在出題內容上的連續性較好,只是偶爾出現變動。
  2. 從歷年試題的特征來看,2011年的人文特征較為明顯,2018年的經濟方面的試題較多,2018年的邏輯測試較突出,2015年的語言學方面出題較多,2016年的偏計算,其他年份的特征不甚突出。

小貼士:

對應分析法可以揭示同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應關系。比如不同年份的試題是不同類別,關鍵詞匯是變量。對應分析圖譜可以將這8年的試題相關度情況通過視覺上可以接受的定位圖展現出來。

以上就是作為國考“外行”的筆者做的一些分析,由于僅提取出題干文本,文本數據量較少,難免會出現一些紕漏,而且對于有過國考經歷的小伙伴來說,分析的結果可能還顯得粗輪廓。

在這里,筆者想要對參加“中華第一考”、努力奮斗的中國考生們表達一下敬佩之情,特以“金榜題名”為主題(不是藏頭詩)讓機器賦詩4首,聊表敬意:

#專欄作家

蘇格蘭折耳喵(微信公眾號:Social Listening與文本挖掘),人人都是產品經理專欄作家,數據PM一只,擅長數據分析和可視化表達,熱衷于用數據發現洞察,指導實踐。

本文原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!