人生,就是一個數據挖掘
世界是連續的,人們試圖用離散的視角來解釋它。
世界在時空上都有它的連續性,當我們抽出一個個時間點作參考分析,拿一個個事物分門別類,這是我們認識世界最便捷的方式,但就因為這樣,世界是我們永遠不可能窮舉的。為什么做數據挖掘和醫生看病一樣,永遠沒有止境,那就是因為數據就是病癥,這個世界上有無數接連不斷的、變異的病癥涌現,數據亦如此。
熊輝老師認為,數據挖掘有三層境界:“第一層,看山是山,看水是水;第二層,看山不是山,看水不是水;第三層,看山還是山,看水還是水?!?/strong>這參考的是宋代禪宗大師青原行思提出參禪的三重境界:“參禪之初,看山是山,看水是水;禪有悟時,看山不是山,看水不是水;禪中徹悟,看山仍然山,看水仍然是水?!?/p>
初學之時,面對茫茫數據卻不知如何看穿。行進有時,漸悟一二,能從數據中抽取其未間接表達的信息。而歷經無數后,回歸本原,飛花摘葉,只一二法,變能斬獲至寶。此吾之理解數據挖掘三重進階。 北美發達的商業交易市場,已不再是傳統股票經紀人每天看財報,分析股指,買賣兩三支股票就能高枕無憂的年頭了。T+0的交易模式允許交易方在同一天買入和賣出,于是就產生了自動交易機,每秒鐘執行上百萬次的買賣交易,而這些交易的決策,完全是由機器智能實現的。因為交易筆數的增多,每筆交易的利潤并不需要很大,整體也能產生巨大的盈利。甚至有公司利用紐約證交所到太平洋對岸的結算中心2ms的信息傳輸延遲,賺取了大量收入,這些高頻交易,跟傳統的金融分析已經間隔漸遠,大數據技術成為重中之重。當美國一大批商學院在向信息界尋求力量,而中國的商學院尚處于學習美國以往模式,學生只懂現象不懂技術,此番培養的金融人才,必將很難適應市場,這是熊老師提出對國內“金融熱”的大大擔憂。而計算機行業,若有數據挖掘背景,將會有巨大的發展空間,不僅僅在金融界。 首先,要會看這個導師以前的學生畢業后的發展情況,這些是訓練集(Training data)。而后去老師主頁看看他/她文章的署名,全是第一作者的,就不要報了,否則會很慘。第三要懂得觸類旁通,多去問問現在在他門下的師兄師姐,了解實際情況。 所謂人才過剩,說的是一致化的人才一大把。熊老師用自己學生為什么被名校錄取做教職的例子,告訴我們,可以經常用“異常診斷”(Outliers detection)來評估自己,在哪些維度上,自己是獨特又有價值的。注意一個定義,Outlier和Noise不一樣,Outlier是真實存在的,但與一般實例有不一樣的表現,而Noise是錯誤的數據,可能是采集、存儲、運輸中發生的問題,做數據清理的時候需要除去。 講到數據清理,它主要包括兩個方面,一是Feature Selection,這是機器學習經常要做的問題,除去無關或者影響甚微的性質Feature,不僅提高了算法的準確率,還減少了計算復雜度。二是Instance selection,這就是要消除那些跟我們研究目的無關的例子,比如我們要研究所有男性患高血壓的概率問題,就不應混入女性的數據。 那些沒有做過大數據實踐的統計學家經常鼓吹,他們通過采樣,只需千分之一的數據,就能得出數據的模式(Pattern)。其實,這在很多情況下都是扯淡,采樣有至少三個危險區。第一,采樣可能導致異常消失,如果我們要做的就是異常診斷(Outliers detection),異常本來就稀少,如果用隨機采樣,絕對變白癡。第二,采樣會導致關聯減弱。第三,采樣可能會忽略小型聚類,舉個例子,要是社交網絡中的小聚類正好是VIP客戶群,這樣的忽略麻煩就大了。 將數據投射到另一個空間或者維度,是數據挖掘中很高級的一中方法。熊老師舉莊子“識人九征”作為例子:“遠使之而觀其忠,近使之而觀其敬,煩使之而觀其能,卒然問焉而觀其知,急與之期而觀其信,委之以財而觀其仁,告之以危而觀其節,醉之以酒而觀其側,雜之以處而觀其色?!保ā厩f子·雜篇·列御寇】)以上九種情況,都是把要考察的人放在一個特定的場景下,觀察其反應,此即Mapping Space. 數據挖掘跟機器學習不同,它是一個自底向上的技術。它關注數據的密度、維度、噪聲、分布以及數據點之間的相似性,它的終極目的就是在一個大表(行為實例,列為性質)中填補那些缺失的、錯誤的數據。從數據的密度上,有稀疏性的算法可研究,如矩陣分解。在數據維度上,常常需要用到降維(dimension reduction)技術,如SVD, PCA等等。對噪聲和Outlier的處理,與聚類算法息息相關。衡量數據點間的相似性,對應的也就是研究兩點之間的距離,距離函數面對不同的數據類型又是不一樣的選擇,可有講究了。 譬如歐幾里德距離適合衡量低維的數據,因為理論可以證明,高維下,任意兩點的歐式距離將十分相似!這時候角度是不會改變的,于是Cosine distance就有了好的表現,但它的弱點是不能衡量長度。有時候,統計相關性(correlation)也會作為距離的函數,不過它只能衡量線性關系,你拿Y=X^2的數據給它,得出來X,Y的相關性居然是0,為什么?因為他們是二次相關。 在做多Feature的數據挖掘任務時,標準化(Normalization)是必不可少的工作。可以很容易想象,如果不做標準化,值域大的因素容易統治預測結果,尤其是在相同的權值影響下。 via:中科大·龍星計劃《數據挖掘》小記 ?作者:范深,電子科大,計算機科學與工程學院,碩士在讀未來的金融是大數據技術的天下
選導師也是一次數據挖掘課題
數據挖掘四大分支:分類、聚類、關聯、異常診斷
采樣是很危險的
莊子“識人九征”
數據挖掘做科研的切入點
- 目前還沒評論,等你發揮!