安全領域中的大數據分析

0 評論 13329 瀏覽 3 收藏 13 分鐘

企業定期收集幾TB與安全相關的數據(比如網絡事件、軟件應用程序事件,以及人員活動事件), 用來作合規性和事后取證分析。據估計,不同規模的大型企業每天發生的事件在上百億到上千億之間。隨著企業啟用的事件記錄源越來越多,雇用的員工越來越多,部署的設備越來越多,運行的軟件越來越多,這些數值還會繼續增長。不幸的是,這種數據量和多樣性會迅速變成駱駝背上的稻草?,F有分析技術無法應對大規模數據,通常都會產生很多誤報,因此功效被削弱了。隨著企業向云架構遷移,并且收集的數據越來越多,這個問題進一步惡化了。

大數據分析—信息的大規模分析和處理—在幾個領域用的熱火朝天,并且最近這些年,因其承諾以前所未有的規模高效地分析和關聯與安全相關的數據,也引起了安全社區的興趣。然而,對安全而言,傳統數據分析和大數據分析之間的差異并不是那么直觀。畢竟信息安全社區十多年來一直在利用網絡流量、系統日志和其它信息源的分析甄別威脅,檢測惡意活動,而這些傳統方式跟大數據有何不同還不清楚。

為了解決這個問題,還有其它問題,云安全聯盟(CSA)在2012年成立了大數據工作組。這個工作組由來自業內的和院校的志愿者組成,共同確定這一領域內的原則、綱領及所面臨的挑戰。它最新的報告, “安全智能中的大數據分析”,重點探討了大數據在安全領域中的作用。在這份報告中,詳細闡述了利用大量結構化和非結構化數據的新工具的介入及廣泛使用如何改變了安全分析領域。它還羅列了一些跟傳統分析的基本差異,并指出了一些可能的研究方向。我們對這份報告中的一些關鍵點做了匯總。

 

大數據分析的進展

數據驅動的信息安全數據可以支撐銀行的欺詐檢測和基于異常的入侵監測系統(IDSs)。盡管為了取證和入侵檢測,對日志、網絡流和系統事件進行分析已經是信息安全社區面對了十多年的問題了,然而出于幾個原因,傳統技術有時候對長期的、大規模的分析支持力度不夠:首先是以前保留大量的數據在經濟上不可行。因此在傳統的基礎設施中,大多數事件日志和其他記錄的計算機活動在一個固定的保留期(比如60天)后就被刪除了。其次,在那種不完整,還很嘈雜的大型、非結構化數據集上執行分析和復雜查詢的效率很低下。比如說,幾個流行的信息安全和事件管理(SIEM)工具都不支持對非結構化數據的分析和管理,被嚴格限定在預定義的數據方案上。然而,因為大數據應用程序可以有效地清理、準備、查詢那些異構的、不完整的、嘈雜格式的數據,所以它們也開始成為信息安全管理軟件的一部分。最后,大型數據倉庫的管理傳統上都很昂貴,并且它們的部署通常需要很強的業務案例。而Hadoop 框架和其它大數據工具現在將大規模的、可靠的集群部署商品化了,因此在數據處理和分析上出現了新的機會。

欺詐檢測是大數據分析中最顯眼的應用:信用卡和電話公司開展欺詐檢測的歷史已經有幾十年了;然而從經濟角度來看,必須用定制的基礎設置來挖掘大數據做欺詐檢測并不適于大規模采用。大數據技術的一個主要影響是它們讓很多行業的企業能夠承擔構建基礎設施來做安全監測的開支。

特別是新的大數據技術,比如Hadoop生態圈 (包括 Pig、Hive、 Mahout 和RHadoop)、流挖掘、復雜事件處理和NoSQL數據庫—能夠以前所未有的規模和速度分析大規模的異構數據集。這些技術通過促進安全信息的存儲、維護和分析改變著安全分析。比如說,WINE平臺1和Bot-Cloud2 允許使用MapReduce高效地處理數據做安全分析。通過觀察過去十年安全工具的反應發生了什么樣的變化,我們可以找出其中的一些趨勢。當IDS探測器的市場增長時,網絡監測探測器和日志工具被部署到了企業網絡中;然而,管理這些分散的數據源發過來的警告變成了一個很有挑戰性的任務。結果安全廠商開始開發SIEMs ,致力于把警告信息和其它網絡統計數據整合并關聯起來,通過一個儀表板把所有信息呈現給安全分析人員。現在,大數據工具將更加分散數據源,時間范圍更長的數據關聯、整合和歸納整理起來交給安全分析人員,改進了安全分析人員可獲取的信息。

Zions Bancorporation最近給出的一個案例研究可以讓我們見到大數據工具的具體收益。它的研究發現,它所處理的數據質量和分析的事件數量比傳統的SIEM(在一個月的數據負載中搜索要花20分鐘到一個小時的時間)多出很多。在它用Hive運行查詢的新Hadoop 系統中,相同的結果大概在一分鐘左右就出來了。3 采用驅動這一實現的安全數據倉庫,用戶不僅可以從防火墻和安全設備中挖掘有意義的安全信息,還能從網站流、業務流程和其他日常事務中挖掘。將非結構化的數據和多種不同的數據集納入一個分析框架中是大數據的特性之一。大數據工具還特別適合用作高級持續性威脅(APT)的檢測和取證的基礎工具。4,5 APT的運行模式又低又慢(即執行時不引人注意,而時間又很長);因此,它們可能會持續很長時間,而受害者卻對入侵毫無所知。為了檢測這些攻擊,我們需要收集并關聯大量分散的數據(包括來自內部數據源的數據和外部共享的智能數據),并執行長期的歷史相關性風險,以便納入網絡歷史上發生過的攻擊的后驗信息。

 

挑戰

盡管在處理安全問題上,大數據分析應用程序的希望很顯著,但我們必須提出幾項挑戰,從而去認識到它真正的潛力。在行業中分享數據,隱私特別重要,并且要避免違背數據重用的隱私原則法規,也就是說只能將數據用于收集它的目的。直到最近,隱私在很大程度上還取決于www.computer.org/security 75在抽取、分析和關聯潛在敏感數據集能力上的技術局限性上。然而,大數據分析的發展為我們提供了抽取和關聯這種數據的工具,讓破壞隱私更容易了。因此,我們必須在了解隱私法規及推薦實踐的情況下開發大數據應用程序。盡管在某些存在隱私法規的領域—比如說,在美國,美國聯邦通信委員跟電信公司的合作,健康保險隱私及責任法案指出的醫療數據,幾個州的公用事業委員會限制智能電網數據的使用,以及聯邦貿易委員會正在制定Web活動的指導方針—所有這些活動都擴大了系統的覆蓋范圍,并且在很多情況下都會有不同的解讀。即便有隱私法規在,我們也要懂得,那樣大規模的數據收集和存儲會吸引社會各界的關注,包括產業界(將我們的信息用在營銷和廣告上),政府(會強調這些數據對國家安全或法律執行很有必要)和罪犯(喜歡盜取我們的身份)。因此,作為大數據應用程序的架構師和設計者,我們要積極主動地創造出保障措施,防止對這些大數據庫存的濫用。

另外一個挑戰是數據出處的問題。因為大數據讓我們可以擴充用于處理的數據源,所以很難判斷出哪個數據源符合我們的分析算法所要求的可信賴度,以便能生產出準確的結果。因此,我們需要反思工具中所用數據的真實性和完整性。我們可以研究源自對抗性機器學習和穩健統計的思路,找出并減輕惡意插入數據的影響。

這個特別的CSA報告聚焦于大數據分析在安全方面的應用,但另一方面是用安全技術保護大數據。隨著大數據工具不斷被部署到企業系統中,我們不僅要利用傳統的安全機制(比如在Hadoop內部集成傳輸層安全協議),還要引入新工具,比如Apache的Accumulo,來處理大數據管理中獨有的安全問題。

最后,這個報告中還有一個沒有覆蓋到,但還需要進一步開發的領域,即人機交互,特別是可視化分析如何幫助安全分析人員解讀查詢結果。可視化分析是通過交互式可視化界面促進推理分析能力的科學。跟為了高效計算和存儲而開發的技術機制相比,大數據中的人機交互受到的關注比較少,但它也是大數據分析達成“承諾”必不可少的基礎工具,因為它的目標是通過最有效的展示方式將信息傳達給人類。大數據正在改變著用于網絡監測、SIEM和取證的安全技術景觀。然而,在進攻和防守永遠不會停歇的軍備競賽中,大數據不是萬能的,安全研究人員必須不斷探索新的方式來遏制老練的攻擊者。大數據還會讓維持控制個人信息的泄漏變成持續不斷的挑戰。因此,我們需要付出更多的努力,用保護隱私的價值觀培育新一代的計算機科學家和工程師,并跟他們一起開發出設計大數據系統的工具,從而讓大數據系統能遵循普遍認可的隱私準則。

來源:鈦媒體

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!