谷歌最新機器學習術語表:M-W的定義解釋(下)
谷歌在不久前發布了機器學習術語表,本文主要列出M-W的機器學習術語和TensorFlow 專用術語的定義,與大家一起探討學習。
A-L部分參見谷歌最新機器學習術語表:A-L的定義解釋(上) 1.機器學習 (machine learning) 一種程序或系統,用于根據輸入數據構建(訓練)預測模型。這種系統會利用學到的模型根據從分布(訓練該模型時使用的同一分布)中提取的新數據(以前從未見過的數據)進行實用的預測,機器學習還指與這些程序或系統相關的研究領域。 2.均方誤差 (MSE, Mean Squared Error) 每個樣本的平均平方損失。MSE 的計算方法是平方損失除以樣本數,TensorFlow Playground?顯示的“訓練損失”值和“測試損失”值都是 MSE。 3.指標 (metric) 您關心的一個數值??赡芸梢浴⒁部赡懿豢梢灾苯釉跈C器學習系統中得到優化,您的系統嘗試優化的指標稱為目標。 4.Metrics API (tf.metrics) 一種用于評估模型的 TensorFlow API,例如:tf.metrics.accuracy?用于確定模型的預測與標簽匹配的頻率。 在編寫自定義 Estimator?時,您可以調用 Metrics API 函數來指定應如何評估您的模型。 5.小批次 (mini-batch) 從訓練或推斷過程的一次迭代中一起運行的整批樣本內隨機選擇的一小部分。小批次的規模通常介于 10 到 1000 之間,與基于完整的訓練數據計算損失相比,基于小批次數據計算損失要高效得多。 6.小批次隨機梯度下降法 一種采用小批次樣本的梯度下降法,也就是說:小批次 SGD 會根據一小部分訓練數據來估算梯度。Vanilla SGD?使用的小批次的規模為 1。 7.ML 機器學習的縮寫。 8.模型 (model) 機器學習系統從訓練數據學到的內容的表示形式。多含義術語,可以理解為下列兩種相關含義之一: 9.模型訓練 (model training) 確定最佳模型的過程。 10.動量 (Momentum) 一種先進的梯度下降法,其中學習步長不僅取決于當前步長的導數,還取決于之前一步或多步的步長的導數。 動量涉及計算梯度,隨時間而變化的指數級加權移動平均值,與物理學中的動量類似。動量有時可以防止學習過程被卡在局部最小的情況。 11.多類別分類 (multi-class classification) 區分兩種以上類別的分類問題。 例如:楓樹大約有 128 種,因此,確定楓樹種類的模型就屬于多類別模型。反之,僅將電子郵件分為兩類(“垃圾郵件”和“非垃圾郵件”)的模型屬于二元分類模型。 12.多項分類 (multinomial classification) 是多類別分類的同義詞。 NaN 陷阱 (NaN trap) 模型中的一個數字在訓練期間變成?NaN,這會導致模型中的很多或所有其他數字最終也會變成 NaN。 NaN 是“非數字”的縮寫。 1.負類別 (negative class) 在二元分類中,一種類別稱為正類別,另一種類別稱為負類別。正類別是我們要尋找的類別,負類別則是另一種可能性。 例如:在醫學檢查中,負類別可以是“非腫瘤”。在電子郵件分類器中,負類別可以是“非垃圾郵件”。另請參閱正類別。 2.神經網絡 (neural network) 一種模型,靈感來源于腦部結構,由多個層構成(至少有一個是隱藏層),每個層都包含簡單相連的單元或神經元(具有非線性關系)。 3.神經元 (neuron) 神經網絡中的節點,通常是接收多個輸入值并生成一個輸出值。神經元通過將激活函數(非線性轉換)應用于輸入值的加權和來計算輸出值。 4.節點 (node) 多含義術語,可以理解為下列兩種含義之一: 5.標準化 (normalization) 將實際的值區間轉換為標準的值區間(通常為 -1 到 +1 或 0 到 1)的過程。例如:假設某個特征的自然區間是 800 到 6000,通過減法和除法運算,您可以將這些值標準化為位于 -1 到 +1 區間內。 另請參閱縮放。 6.數值數據 (numerical data) 用整數或實數表示的特征。例如:在房地產模型中,您可能會用數值數據表示房子大?。ㄒ云椒接⒊呋蚱椒矫诪閱挝唬?。 此外,房子面積的平方米數可能與房價存在一定的數學關系。 并非所有整數數據都應表示成數值數據。例如:世界上某些地區的郵政編碼是整數,但在模型中,不應將整數郵政編碼表示成數值數據。 這是因為郵政編碼?20000?在效力上并不是郵政編碼 10000 的兩倍(或一半)。 此外,雖然不同的郵政編碼確實與不同的房地產價值有關,但我們也不能假設郵政編碼為 20000 的房地產在價值上是郵政編碼為 10000 的房地產的兩倍。郵政編碼應表示成分類數據。 數值特征有時稱為連續特征。 7.Numpy 一個開放源代碼數學庫,在 Python 中提供高效的數組操作。Pandas?就建立在 Numpy 之上。 1.目標 (objective) 算法嘗試優化的指標。 2.離線推斷 (offline inference) 生成一組預測,存儲這些預測,然后根據需求檢索這些預測。與在線推斷相對。 3.one-hot 編碼 (one-hot encoding) 一種稀疏向量,其中: one-hot 編碼常用于表示擁有有限個可能值的字符串或標識符。 例如:假設某個指定的植物學數據集記錄了 15000 個不同的物種,其中每個物種都用獨一無二的字符串標識符來表示。在特征工程過程中,您可能需要將這些字符串標識符編碼為 one-hot 向量,向量的大小為 15000。 4.一對多 (one-vs.-all) 假設某個分類問題有 N 種可能的解決方案,一對多解決方案將包含 N 個單獨的二元分類器?– 一個二元分類器對應一種可能的結果。 例如:假設某個模型用于區分樣本屬于動物、蔬菜還是礦物,一對多解決方案將提供下列三個單獨的二元分類器: 5.在線推斷 (online inference) 根據需求生成預測。與離線推斷相對。 6.操作 (op, Operation) TensorFlow 圖中的節點。在 TensorFlow 中,任何創建、操縱或銷毀張量的過程都屬于操作。例如:矩陣相乘就是一種操作,該操作以兩個張量作為輸入,并生成一個張量作為輸出。 7.優化器 (optimizer) 梯度下降法的一種具體實現。TensorFlow 的優化器基類是 ——tf.train.Optimizer,不同的優化器(tf.train.Optimizer?的子類)會考慮如下概念: 甚至還包括?NN 驅動的優化器。 8.離群值 (outlier) 與大多數其他值差別很大的值。在機器學習中,下列所有值都是離群值: 離群值常常會導致模型訓練出現問題。 9.輸出層 (output layer) 神經網絡的“最后”一層,也是包含答案的層。 10.過擬合 (overfitting) 創建的模型與訓練數據過于匹配,以致于模型無法根據新數據做出正確的預測。 1.Pandas 面向列的數據分析 API,很多機器學習框架(包括 TensorFlow)都支持將 Pandas 數據結構作為輸入。請參閱?Pandas 文檔。 2.參數 (parameter) 機器學習系統自行訓練的模型的變量。例如:權重就是一種參數,它們的值是機器學習系統通過連續的訓練迭代逐漸學習到的,與超參數相對。 3.參數服務器 (PS, Parameter Server) 一種作業,負責在分布式設置中跟蹤模型參數。 4.參數更新 (parameter update) 在訓練期間(通常是在梯度下降法的單次迭代中)調整模型參數的操作。 5.偏導數 (partial derivative) 一種導數,除一個變量之外的所有變量都被視為常量。 例如:f(x, y) 對 x 的偏導數就是 f(x) 的導數(即,使 y 保持恒定),f 對 x 的偏導數僅關注 x 如何變化,而忽略公式中的所有其他變量。 6.分區策略 (partitioning strategy) 7.性能 (performance) 多含義術語,具有以下含義: 8.困惑度 (perplexity) 一種衡量指標,用于衡量模型能夠多好地完成任務。 例如:假設任務是讀取用戶使用智能手機鍵盤輸入字詞時,輸入的前幾個字母,然后列出一組可能的完整字詞。此任務的困惑度 (P) 是為了——使列出的字詞中包含用戶嘗試輸入的實際字詞,您需要提供的猜測項的個數。 困惑度與交叉熵的關系如下: P=2?cross entropy 9.流水線 (pipeline) 機器學習算法的基礎架構。流水線包括:收集數據、將數據放入訓練數據文件、訓練一個或多個模型,以及將模型導出到生產環境。 10.正類別 (positive class) 在二元分類中,兩種可能的類別分別被標記為正類別和負類別。正類別結果是我們要測試的對象(不可否認的是,我們會同時測試這兩種結果,但只關注正類別結果。)。 例如:在醫學檢查中,正類別可以是“腫瘤”。在電子郵件分類器中,正類別可以是“垃圾郵件”。 與負類別相對。 11.精確率 (precision) 一種分類模型指標。精確率指模型正確預測正類別的頻率,即: 12.預測 (prediction) 模型在收到輸入的樣本后的輸出。 13.預測偏差 (prediction bias) 一個值,用于表明預測平均值與數據集中標簽的平均值相差有多大。 14.預創建的 Estimator (pre-made Estimator) 其他人已建好的?Estimator。TensorFlow 提供了一些預創建的 Estimator,包括: DNNClassifier、DNNRegressor?和?LinearClassifier。 您可以按照這些說明構建自己預創建的 Estimator。 15.預訓練模型 (pre-trained model) 已經過訓練的模型或模型組件(例如嵌套)。有時,您需要將預訓練的嵌套饋送到神經網絡。在其他時候,您的模型將自行訓練嵌套,而不依賴于預訓練的嵌套。 16.先驗信念 (prior belief) 在開始采用相應數據進行訓練之前,您對這些數據抱有的信念。例如:L2?正則化依賴的先驗信念是權重應該很小且應以 0 為中心呈正態分布。 1.隊列 (queue) 一種 TensorFlow?操作,用于實現隊列數據結構。通常用于 I/O 中。 1.等級 (rank) 機器學習中的一個多含義術語,可以理解為下列含義之一: 2.評分者 (rater) 為樣本提供標簽的人,有時稱為“注釋者”。 3.召回率 (recall) 一種分類模型指標,用于回答以下問題:在所有可能的正類別標簽中,模型正確地識別出了多少個?即: 4.修正線性單元 (ReLU, Rectified Linear Unit) 一種激活函數,其規則如下: 5.回歸模型 (regression model) 一種模型,能夠輸出連續的值(通常為浮點值)。請與分類模型進行比較,分類模型輸出離散值。例如:“黃花菜”或“虎皮百合”。 6.正則化 (regularization) 對模型復雜度的懲罰。正則化有助于防止出現過擬合,包含以下類型: 7.正則化率 (regularization rate) 一種標量值,以 lambda 表示,用于指定正則化函數的相對重要性。從下面簡化的損失公式中可以看出正則化率的影響: minimize(loss function +?λ(regularization function)) 提高正則化率可以減少過擬合,但可能會使模型的準確率降低。 8.表示法 (representation) 將數據映射到實用特征的過程。 9.受試者工作特征曲線(receiver operating characteristic, 簡稱 ROC 曲線) 不同分類閾值下的真正例率和假正例率構成的曲線。另請參閱曲線下面積。 10.根目錄 (root directory) 您指定的目錄,用于托管多個模型的 TensorFlow 檢查點和事件文件的子目錄。 11.均方根誤差 (RMSE, Root Mean Squared Error) 均方誤差的平方根。 1.SavedModel 保存和恢復 TensorFlow 模型時建議使用的格式。SavedModel 是一種獨立于語言且可恢復的序列化格式,使較高級別的系統和工具可以創建、使用和轉換 TensorFlow 模型。 如需完整的詳細信息,請參閱《TensorFlow 編程人員指南》中的保存和恢復。 2.Saver 一種?TensorFlow 對象,負責保存模型檢查點。 3.縮放 (scaling) 特征工程中的一種常用做法,是對某個特征的值區間進行調整,使之與數據集中其他特征的值區間一致。 例如:假設您希望數據集中所有浮點特征的值都位于 0 到 1 區間內,如果某個特征的值位于 0 到 500 區間內,您就可以通過將每個值除以 500 來縮放該特征。 另請參閱標準化。 4.scikit-learn 一個熱門的開放源代碼機器學習平臺。請訪問?www.scikit-learn.org。 5.半監督式學習 (semi-supervised learning) 訓練模型時采用的數據中,某些訓練樣本有標簽,而其他樣本則沒有標簽。 半監督式學習采用的一種技術是推斷無標簽樣本的標簽,然后使用推斷出的標簽進行訓練,以創建新模型。如果獲得有標簽樣本需要高昂的成本,而無標簽樣本則有很多,那么半監督式學習將非常有用。 6.序列模型 (sequence model) 一種模型,其輸入具有序列依賴性。例如:根據之前觀看過的一系列視頻對觀看的下一個視頻進行預測。 7.會話 (session) 維持 TensorFlow 程序中的狀態(例如:變量)。 8.S 型函數 (sigmoid function) 一種函數,可將邏輯回歸輸出或多項回歸輸出(對數幾率)映射到概率,以返回介于 0 到 1 之間的值。S 型函數的公式如下: 在邏輯回歸問題中,σ?非常簡單: 換句話說,S 型函數可將?σ?轉換為介于 0 到 1 之間的概率。 在某些神經網絡中,S 型函數可作為激活函數使用。 9.softmax 一種函數,可提供多類別分類模型中每個可能類別的概率。這些概率的總和正好為 1.0。 例如:softmax 可能會得出某個圖像是狗、貓和馬的概率分別是 :0.9、0.08 和 0.02(也稱為完整 softmax)。 與候選采樣相對。 10.稀疏特征 (sparse feature) 一種特征向量,其中的大多數值都為 0 或為空。 例如:某個向量包含一個為 1 的值和一百萬個為 0 的值,則該向量就屬于稀疏向量。 再舉一個例子,搜索查詢中的單詞也可能屬于稀疏特征 – 在某種指定語言中有很多可能的單詞,但在某個指定的查詢中僅包含其中幾個。 與密集特征相對。 11.平方合頁損失函數 (squared hinge loss) 合頁損失函數的平方。與常規合頁損失函數相比,平方合頁損失函數對離群值的懲罰更嚴厲。 12.平方損失函數 (squared loss) 在線性回歸中使用的損失函數(也稱為?L2?損失函數),該函數可計算模型為有標簽樣本預測的值和標簽的實際值之差的平方。由于取平方值,因此該損失函數會放大不佳預測的影響。 也就是說,與?L1?損失函數相比,平方損失函數對離群值的反應更強烈。 13.靜態模型 (static model) 離線訓練的一種模型。 14.平穩性 (stationarity) 數據集中數據的一種屬性,表示數據分布在一個或多個維度保持不變。這種維度最常見的是時間,即——表明平穩性的數據不隨時間而變化。 例如:從 9 月到 12 月,表明平穩性的數據沒有發生變化。 15.步 (step) 對一個批次的向前和向后評估。 16.步長 (step size) 是學習速率的同義詞。 17.隨機梯度下降法 (SGD, stochastic gradient descent) 批次規模為 1 的一種梯度下降法。換句話說,SGD 依賴于從數據集中隨機均勻選擇的單個樣本來計算每步的梯度估算值。 18.結構風險最小化 (SRM, structural risk minimization) 一種算法,用于平衡以下兩個目標: 例如:旨在將基于訓練集的損失和正則化降至最低的模型函數,就是一種結構風險最小化算法。 如需更多信息,請參閱?http://www.svms.org/srm/。 與經驗風險最小化相對。 19.總結 (summary) 在 TensorFlow 中的某一步計算出的一個值或一組值,通常用于在訓練期間跟蹤模型指標。 20.監督式機器學習 (supervised machine learning) 根據輸入數據及其對應的標簽來訓練模型,監督式機器學習類似于——學生通過研究一系列問題及其對應的答案來學習某個主題,在掌握了問題和答案之間的對應關系后,學生便可以回答關于同一主題的新問題(以前從未見過的問題)。 請與非監督式機器學習進行比較 21.合成特征 (synthetic feature) 一種特征,不在輸入特征之列,而是從一個或多個輸入特征衍生而來。合成特征包括以下類型: 通過標準化或縮放單獨創建的特征不屬于合成特征。 1.目標 (target) 是標簽的同義詞。 2.時態數據 (temporal data) 在不同時間點記錄的數據。例如:記錄的一年中每一天的冬外套銷量就屬于時態數據。 3.張量 (Tensor) TensorFlow 程序中的主要數據結構。張量是 N 維(其中 N 可能非常大)數據結構,最常見的是標量、向量或矩陣。張量的元素可以包含整數值、浮點值或字符串值。 4.張量處理單元 (TPU, Tensor Processing Unit) 一種 ASIC(應用專用集成電路),用于優化 TensorFlow 程序的性能。 5.張量等級 (Tensor rank) 請參閱等級。 6.張量形狀 (Tensor shape) 張量在各種維度中包含的元素數。例如:張量 [5, 10] 在一個維度中的形狀為 5,在另一個維度中的形狀為 10。 7.張量大小 (Tensor size) 張量包含的標量總數。例如:張量 [5, 10] 的大小為 50。 8.TensorBoard 一個信息中心,用于顯示在執行一個或多個 TensorFlow 程序期間保存的摘要信息。 9.TensorFlow 一個大型的分布式機器學習平臺。該術語還指 TensorFlow 堆棧中的基本 API 層,該層支持對數據流圖進行一般計算。 雖然 TensorFlow 主要應用于機器學習領域,但也可用于需要使用數據流圖進行數值計算的非機器學習任務。 10.TensorFlow Playground 一款用于直觀呈現不同的超參數對模型(主要是神經網絡)訓練的影響的程序。要試用 TensorFlow Playground,請前往?http://playground.tensorflow.org。 11.TensorFlow Serving 一個平臺,用于將訓練過的模型部署到生產環境。 12.測試集 (test set) 數據集的子集,用于在模型經由驗證集的初步驗證之后測試模型。 與訓練集和驗證集相對。 13.tf.Example 一種標準的?proto buffer,旨在描述用于機器學習模型訓練或推斷的輸入數據。 14.時間序列分析 (time series analysis) 機器學習和統計學的一個子領域,旨在分析時態數據。很多類型的機器學習問題都需要時間序列分析,其中包括:分類、聚類、預測和異常檢測。 例如:您可以利用時間序列分析、根據歷史銷量數據預測未來每月的冬外套銷量。 15.訓練 (training) 確定構成模型的理想參數的過程。 16.訓練集 (training set) 數據集的子集,用于訓練模型。 與驗證集和測試集相對。 17.轉移學習 (transfer learning) 將信息從一個機器學習任務轉移到另一個機器學習任務。例如: 大多數機器學習系統都只能完成一項任務,轉移學習是邁向人工智能的一小步,在人工智能中,單個程序可以完成多項任務。 18.真負例 (TN, true negative) 被模型正確地預測為負類別的樣本。例如:模型推斷出某封電子郵件不是垃圾郵件,而該電子郵件確實不是垃圾郵件。 真正例 (TP, true positive) 被模型正確地預測為正類別的樣本。例如:模型推斷出某封電子郵件是垃圾郵件,而該電子郵件確實是垃圾郵件。 19.真正例率(true positive rate, 簡稱 TP 率) 是召回率的同義詞,即: 真正例率是?ROC 曲線的 y 軸。 1.無標簽樣本 (unlabeled example) 包含特征但沒有標簽的樣本。無標簽樣本是用于進行推斷的輸入內容,在半監督式和非監督式學習中,無標簽樣本在訓練期間被使用。 2.非監督式機器學習 (unsupervised machine learning) 訓練模型,以找出數據集(通常是無標簽數據集)中的模式。 非監督式機器學習最常見的用途是將數據分為不同的聚類,使相似的樣本位于同一組中。 例如:非監督式機器學習算法可以根據音樂的各種屬性將歌曲分為不同的聚類,所得聚類可以作為其他機器學習算法(例如音樂推薦服務)的輸入。 在很難獲取真標簽的領域,聚類可能會非常有用;在反濫用和反欺詐等領域,聚類有助于人們更好地了解相關數據。 非監督式機器學習的另一個例子是主成分分析 (PCA)。例如:通過對包含數百萬購物車中物品的數據集進行主成分分析,可能會發現有檸檬的購物車中往往也有抗酸藥。 請與監督式機器學習進行比較。 1.驗證集 (validation set) 數據集的一個子集,從訓練集分離而來,用于調整超參數。 與訓練集和測試集相對。 1.權重 (weight) 線性模型中特征的系數,或深度網絡中的邊,訓練線性模型的目標是確定每個特征的理想權重。如果權重為 0,則相應的特征對模型來說沒有任何貢獻。 2.寬度模型 (wide model) 一種線性模型,通常有很多稀疏輸入特征。 我們之所以稱之為“寬度模型”,是因為這是一種特殊類型的神經網絡,其大量輸入均直接與輸出節點相連。與深度模型相比,寬度模型通常更易于調試和檢查。 雖然寬度模型無法通過隱藏層來表示非線性關系,但可以利用特征組合、分桶等轉換以不同的方式為非線性關系建模。 與深度模型相對。 作者:思穎 來源:https://www.leiphone.com/news/201803/nhu19vQoSUkbWGGY.html 本文來源于人人都是產品經理合作媒體@雷鋒網,作者@思穎 題圖來自 Unsplash ,基于 CC0 協議一、M
二、N
三、O
四、P
五、Q
六、R
七、S
八、T
九、U
十、V
十一、W
- 目前還沒評論,等你發揮!