【入門科普】必了解的 20 個 AI 術語解析(上)
AI時代到來,作為職場人的我們,或許可以了解一些AI術語名詞。這篇文章里,作者就介紹了一些概念,不妨來看看。
本文專為非技術背景的AI愛好者設計,旨在深入淺出地介紹AI的基礎概念和關鍵技術,從最基礎的邏輯回歸到復雜的Transformer模型,帶您一步步解鎖AI技術的奧秘。
一、邏輯回歸
如果你想通過人工智能判斷某人是否會患糖尿病,則邏輯回歸可以通過綜合分析用戶的年齡、體重、胰島素水平等等來給出一個0~1的概率值,如果閾值設定為0.7,則高于0.7的我們就歸類為高風險人群,以便更早期的干預和管理風險。
二、線性回歸
邏輯回歸解決的是0到1的概率問題,而很多時候是我們需要具體的值,比如你在擺攤賣冰激凌,你注意到溫度越高,你賣出去的冰激凌越多。
線性回歸就像是你用尺子和鉛筆在歷史銷售數據的散點圖表上畫一條直線,盡量讓這條線貼近所有的銷售點(溫度是x,銷售額是y)。這樣,你就可以用這條線預測,在任何給定溫度下,你大概能賣多少冰激凌。
三、多元多項式回歸
你一定發現了在前文冰激凌案例中,很顯然溫度對收入的影響并不是直線而是一個曲線,并且也不止溫度這一個自變量。多元多項式回歸就是一種可以綜合考慮多個X自變量并且能得出非線性關系的機器學習算法。比如訓練一個評估房價的模型,那么自變量就有:面積、房齡、距離地鐵站距離、樓層數等等,自變量越多,模型越能去模擬真實世界。
四、決策樹
本文前三節都是基于簡單的數學公式的模型,這些模型要求輸入數據是數值型,這意味著在處理性別、城市、疾病類別等非數值型時,需要進行數值轉化的預處理,這增加了算法復雜度,造成過擬合等問題。
決策樹可以直接處理分類特征,比如訓練一個診斷心臟病類型的算法模型,我們搭建有很多決策點比如:患者的胸痛類型、心電圖結果,這些決策點就構成了一個決策樹,每個葉節點代表一個特定的心臟病診斷。需要注意的是決策樹和前三種算法并不是互斥關系,決策樹的葉節點上可以包含獨立的算法模型。
五、隨機森林
就像醫生之間對于同一個癥狀會有不同的疾病診斷一樣,對于同一個問題會無數種決策樹方式,如果醫生用投票的形式來最終決定是哪一個疾病診斷,這種診斷的準確性往往比一個醫生的準確率高很多,這種集成多顆決策樹的模型構建方式,叫做隨機森林。
為什么叫“隨機”森林呢?好比每個醫生都是一個決策樹,就算他們是從一個學校培養出來的,但他們個人接觸到的病例樣本不同,個人性格傾向于保守還是樂觀也不同,這種隨機性讓每一個決策樹結構都不同,所以被稱之為隨機森林。
六、聚類
在機器學習中訓練模型就好比是用“大量已知的y和x”去倒推出在“y=f(x)”中的f,比如訓練一個短視頻推薦算法,x是用戶數據,y是用戶興趣標簽,如果y的顆粒度越精準那么推薦的視頻也就越符合他的胃口。
但在實際中,我們很難去給用戶標注合適的y來準備足夠的訓練集。此時,就常用到聚類算法,他可以自行從大量x中依據數據之間的相似度來劃分成多個類別,聚類常用在機器學習的數據預處理階段。
七、降維
假設你有一個信息超級全的地圖,包含馬路、鐵路、景點、學校、醫院、甚至地形海拔,但是你只是想知道從人民廣場到陸家嘴要坐幾號線而已,那最適合你的就只是地鐵路線圖而已,這種簡化數據但保留重要信息的過程就叫做降維,人工智能對信息的降維可以減少計算成本(省電費、省顯卡),比如,你要訓練一個給臉部顏值打分的模型,那么采集到的照片背景、用戶的衣服顏色等等就是多余的數據。
八、卷積神經網絡
卷積神經網絡(CNN)最典型的運用是圖像識別,它模仿人的思維,自動捕捉典型特征,比如邊緣、角落、紋理等,然后他們的發現會被匯總起來,以幫助整個團隊理解整張圖片的內容。比如我們判斷照片上的動物是不是貓,我們會最先想到的是看它的三角形的耳朵、圓胖的臉蛋、小鼻子,綜合這些特征后判斷是不是貓。
九、循環神經網絡
CNN適合處理圖像或視頻這種網格結構的數據,而循環神經網絡(RNN)適合處理文本、語音、天氣這類有時間順序序列數據,它具有一定的記憶能力能夠理解上下文關系。這個算法的缺點是容易“梯度爆炸”或者“梯度消失”,“梯度爆炸”可以類比為在閱讀小說時,對之前章節非必要的細節過于沉浸無法忘懷,以至于影響了對當前內容的理解。而“梯度消失”則相當于你很快就忘記了之前的內容,使得理解當前內容變得困難。
十、Transformer
Transformer模型通過其獨特的自注意力機制可以解決CNN中常有的“梯度爆炸”和“梯度消失”的問題,并且它不需要像RNN一樣按順序處理數據,而是可以一次性讀取全部數據。就像是在一個巨大的圖書館里尋找信息,RNN是一本一本去讀,而Transformer可以一次性看完,并迅速找到你需要的信息。這種方法特別適合處理語言,因為它需要同時理解句子中的每個詞及其上下文關系。
本文由 @李文杰 原創發布于人人都是產品經理。未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!