亚洲真人无码永久在线观看,欧美牲交a欧美牲交aⅴ免费

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

從數據到大數據，數據技術&工具的演變

叮當

2020-09-24

0 評論 7716 瀏覽 38 收藏

22 分鐘

編輯導語：大數據近些年來是一個十分火熱的話題，關于大數據的文章也是數不勝數。本文作者通過梳理自己看過的大數據相關的資料和書籍，為我們介紹了從“小數據”演化為“大數據”的過程是怎樣的？并且分享了一些數據技術以及工具。

對于大數據，叮當一直都很感興趣，最近正好在看數據相關的書和資料，就把這些東西梳理了一下。本文將用4張邏輯圖為主線，簡單介紹一個產品從“小數據”演化為“大數據”的過程，及可能用到的工具。

本文核心邏輯：

一、一個簡陋版互聯技術架構

假設我們要搭建一個小網站，在不使用成熟SaaS產品的前提下，我們的產品里面最少要有以下兩個部分：

1. 客戶端

可以是APP，小程序，甚至是一個Web網站，作為入口給我們的用戶訪問。

2. 服務端

服務端包括應用服務器和數據庫，應用服務器用來部署應用端程序，處理前端請求，并進行服務響應；數據庫用來存儲數據，服務器通過專門與數據庫交互的程序對數據庫進行讀寫操作（如：SQL）。

1. 我們是如何與技術系統交互的？

假設一個場景：張三打開了一個小網站，打開后出現了登錄界面，張三輸入自己的賬號和密碼之后點擊“登錄”，這時客戶端會發送給服務端一個請求，查詢一下數據庫里有沒有張三的賬號信息。

如果數據庫有的話張三就能登錄成功，可以使用小網站了；如果數據庫沒有張三的賬號信息，可能就會引導張三先進行注冊，注冊成功后數據庫中的用戶表中就會新增一條張三的信息，張三就能愉快的使用小網站了。

我們通過客戶端入口與這個系統交互，我們通過操作客戶端界面，對服務端進行請求拉取服務器&數據庫中的信息，給予我們反饋。

2. 服務器與數據庫有什么區別？

一般我們常稱為“服務器”的全稱叫“應用服務器”，數據庫全稱叫“數據庫服務器”，它們都是服務器，只是由于應用環境的不同，需要的性能不同做了區分。

數據庫服務器的處理器性能要求比較高，因為其要進行頻繁的操作，內存要求大，加快數據存取速度，應用服務器相對而言要求低一些。

3. 常用數據庫有哪些？

常用數據庫主要有“關系型數據庫”和“非關系型數據庫”：

1）關系型數據庫

折射現實中的實體關系，將現實中的實體關系拆分維度，通過關系模型表達出來（表及表與表之間的關系），常用的有MySQL(開源數據庫）、SQL Server（微軟家的）、Oracle（甲骨文家的，有完善的數據管理功能可以實現數據倉庫操作）。

2）非關系型數據庫

一種相對松散且可以不按嚴格結構規范進行存儲的數據庫，一邊叫NoSQL（常用的有mongoDB、 CouchDB，在MongoDB中使用鍵值對的方式表示和存儲數據，鍵值類似關系型數據庫表中的字段名對應的值，在MngoDB中，使用JSON格式的數據進行數據表示和存儲）。

二、隨著用戶增長技術架構的升級

小網站的用戶逐漸越來越多，小網站變成了大網站，單個服務器的負載很快就到了極限，這時就需要增加多臺服務器，組成服務器組，同時引入負載均衡服務器，對流量進行動態分配。

由于數據是互聯網產品的核心資產，為了保證系統數據的安全性，還需要增加數據備份服務器，多臺數據庫服務器同時運行，這樣哪怕一個數據庫出問題了，也不會影響業務正常運轉。

三、數據倉庫的誕生

隨著產品用戶量越來越大，市場競爭也更加激烈，迫切需要更加準確的戰略決策信息，數據庫中的數據雖然對于產品的運營非常有用，但由于結構復雜，數據臟亂，難以理解，缺少歷史，大規模查詢等問題對商業決策和目標制定的作用甚微。

在更好的發揮數據價值，1990數據倉庫之父比爾·恩門（Bill Inmon）提出了“數據倉庫”的概念，構建一種對歷史數據進行存儲和分析的數據系統，支撐企業的商業分析與戰略決策。

1. 數據倉庫的實現原理是什么？

數據倉庫的數據來源通常是歷史業務數據（訂單數據、商品數據、用戶數據、操作日志、行為數據……），這些數據統一匯總存儲至企業數據倉庫，通過對倉庫里的綜合數據進行有目的的分析支撐業務決策。

2. 數據庫與數據倉庫有什么區別？

數據庫是對實時數據進行存儲和事務性處理的系統，而數據倉庫則是為了分析而設計。

3. 數據倉庫與大數據倉庫有什么區別？

數據倉庫與大數據倉庫的區別：大數據=海量數據+處理技術+平臺工具+場景應用，數據倉庫是一個數據開發過程，其區別主要體現在：商業價值、處理對象、生產工具三個方面。

1）商業價值

都是業務驅動的，有明確的業務場景需求，通過海量數據分析為業務提供決策依據，“傳統數倉”出現更早，場景單一保守（報表，BI）；而大數據技術更成熟成本更低，應用場景更多（用戶畫像、推薦、風控、搜索……）

2）處理對象

都是對數據進行獲取、加工、管理、治理、應用處理，但大數據處理數據類型更多樣化，傳統數倉基本只擅長處理結構化和半結構化的數據。

3）生產工具

“傳統數倉”一般采購國外知名廠商成熟方案，價格昂貴可拓展性差，“大數據”則有成套的開源技術。

建設方法：大數據技術沿用了“傳統數倉的數據建設理論，但由于在處理技術上新增了非結構化數據，生產工具上新增了流式計算（比實時計算要稍微遲鈍些，但比離線計算又實時的多）。

四、大數據技術架構

1. 什么是大數據？

一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合，具有海量的數據規模（一般以TB為起始單位）、快速的數據流轉、多樣的數據類型和價值密度低四大特征——麥肯錫全球研究

根據“海量的數據規?！?、“快速的數據流轉”、“多樣的數據類型”、“價值密度低”去看，符合這些特點的大都是平臺型公司，有海量用戶產生內容。

Facebook基礎設施工程副總裁杰·帕里克(Jay Parikh)曾透露，Facebook每天處理的數據量多達500TB（1TB=1000GB）。

2. 什么是分布式計算？

看完上面，你可能會想，像Facebook每天500TB的數據量要用什么樣的技術才能處理呢？

這就要引入“分布式計算”了，既然單個數據庫的計算能力有限，那我們就把大量的數據分割成多個小塊，由多臺計算機分工完成，然后將結果匯總，這些執行分布式計算的計算機叫做集群。

如果還不理解的話我們舉個栗子：假期要結束了張三還有有10份作業沒寫，他找了5個同學，每個同學寫2份，最后匯總給張三。

大數據時代存儲計算的經典模型，Apache基金會名下的Hadhoop系統，核心就是采用的分布式計算架構，也是Yahoo、IBM、Facebook、亞馬遜、阿里巴巴、華為、百度、騰訊等公司，都采用技術架構（下方邏輯圖中黃框部分都是Hadoop生態的成員）。

3. 大數據架構與模塊主要有哪些？

大數據架構主要可以分為：數據采集，數據存儲，計算查詢，數據服務，數據應用5個環節。

1）數據采集

通過采集工具把結構化數據進行采集、分發、校驗、清洗轉換；非結構化數據通過爬取，分詞，信息抽取，文本分類，存入數據倉庫中。

2）數據存儲

一般分3層，最底層的式ODS（操作數據）層，直接存放業務系統抽取過來的數據，將不同業務系統中的數據匯聚在一起；中間是DW（數據倉庫）層，存放按照主題建立的各種數據模型；最上層是DM（數據集市）層，基于DW層上的基礎數據整合匯總成分析某一個主題域的報表數據。

3）計算查詢

根據具體的需求選擇對應的解決方案：離線、非實時、靜態數據的可以用批處理方案；非離線、實時、動態數據、低延遲的場景可用流處理方案。

4）數據服務

通過API把數倉中海量的數據高效便捷的開放出去支撐業務，發揮數據價值。

5）數據應用

基于數據倉庫中結構清晰的數據高效的構建BI系統支撐業務決策；根據海量的數據構建以標簽樹為核心的用戶畫像系統，為個性化推薦、搜索等業務模塊提供支撐。

4. 大數據采集模塊

一般應用于公司日志平臺，將數據緩存在某個地方，供后續的計算流程進行使用針對不同數據源（APP，服務器，日志，業務表，各種API接口，數據文件……）有各自的采集方式。

目前市面上針對日志采集的有 Flume、Logstash、Kafka……

1）Flume

是一款 Cloudera 開發的實時采集日志引擎，主打高并發、高速度、分布式海量日志采集，支持在日志系統中定制各類數據發送，支持對數據簡單處理并寫給各種數據接受方，主要特點：

側重數據傳輸，有內部機制確保不會丟數據，用于重要日志場景；
由java開發，沒有豐富的插件，主要靠二次開發；
配置繁瑣，對外暴露監控端口有數據。最初定位是把數據傳入HDFS中，跟側重于數據傳輸和安全，需要更多二次開發配置。

2）Logstash

是 Elastic旗下的一個開源數據收集引擎，可動態的統一不同的數據源的數據至目的地，搭配 ElasticSearch 進行分析，Kibana 進行頁面展示，主要特點：

內部沒有一個persist queue（存留隊列），異常情況可能會丟失部分數據；
由ruby編寫，需要ruby環境，插件很多；
配置簡單，偏重數據前期處理，分析方便?側重對日志數據進行預處理為后續解析做鋪墊，搭配ELK技術棧使用簡單。

3）Kafka

最初是由領英開發，2012 年開源由Apache Incubato孵化出站。以為處理實時數據提供一個統一、高吞吐、低延遲的平臺，適合作為企業級基礎設施來處理流式數據?（本質是：按照分布式事務日志架構的大規模發布/訂閱消息隊列）。

4）Sqoop

與上面的日志采集工具不同，Sqoop的主要功能是為 Hadoop 提供了方便的 RDBMS（關系型數據庫）數據導入功能，使得傳統數據庫數據向 HBase 中遷移變的非常方便。

5. 大數據存儲&資源管理模塊

在數據量小的時候一般用單機數據庫（如：MySQL) 但當數據量大到一定程度就必須采用分布式系統了，Apache基金會名下的Hadhoop系統是大數據時代存儲計算的經典模型。

1）HDFS

是 Hadoop里的分布式文件系統，為HBase 和 Hive提供了高可靠性的底層存儲支持。

2）HBase

是Hadoop數據庫，作為基于非關系型數據庫運行在HDFS上，具備HDFS缺乏的隨機讀寫能力，比較適合實時分析。

3）Yarn

是一種新的 Hadoop 資源管理器，它是一個通用資源管理系統，可為上層應用提供統一的資源管理和調度，它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。

6. 大數據計算查詢模塊

這里首先要介紹一下批處理和流處理的區別：

批計算：離線場景、靜態數據、非實時、高延遲（場景：數據分析，離線報表……）
流計算：實時場景，動態數據，實時，低延遲（場景：實時推薦，業務監控……）

大數據常用的計算查詢引擎主要有：Hive、Spark、Presto、Presto、Kylin、Druid……

1）Hive

是基于Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，并提供完整的sql查詢功能，可以將sql語句轉換為MapReduce任務進行運行，其優點是學習成本低。

2）Spark

Spark是加州大學伯克利分校AMP實驗室所開源的專門用于大數據量下的迭代式計算，是為了跟?Hadoop 配合：

批處理模式下的類Hadoop MapReduce的通用并行框架，Spark 與 MapReduce 不同，它將數據處理工作全部在內存中進行，提高計算性能；
流處理模式下，Spark 主要通過 Spark Streaming 實現了一種叫做微批（Micro-batch）的概念可以將數據流視作一系列非常小的“批”，借此即可通過批處理引擎的原生語義進行處理；
Spark適合多樣化工作負載處理任務的場景，在批處理方面適合眾數吞吐率而非延遲的工作負載，SparkSQL兼容可以把Hive作為數據源spark作為計算引擎。

3）Presto

由 Facebook 開源，是一個分布式數據查詢框架，原生集成了 Hive、Hbase 和關系型數據庫。但背后的執行模式跟Spark類似，所有的處理都在內存中完成，大部分場景下要比 Hive 快一個數量級。

4）Kylin

Cube 預計算技術是其核心，基本思路是預先對數據作多維索引，查詢時只掃描索引而不訪問原始數據從而提速。劣勢在于每次增減維度必須對 Cube 進行歷史數據重算追溯，非常消耗時間。

5）Druid

由 MetaMarket 開源，是一個分布式、面向列式存儲的準實時分析數據存儲系統，延遲性最細顆粒度可到 5 分鐘。它能夠在高并發環境下，保證海量數據查詢分析性能，同時又提供海量實時數據的查詢、分析與可視化功能。