機(jī)器學(xué)習(xí)怎麼學(xué)?
文:黃正傑 2020-07-27
發(fā)布時(shí)間: 2020-07-27 15:48:00
機(jī)器學(xué)習(xí) 大數(shù)據(jù) 人工智慧
不論是大數(shù)據(jù)分析、人工智慧、乃至於機(jī)器智慧的發(fā)展,背後的重要核心技術(shù)就是「機(jī)器學(xué)習(xí)」。那麼,機(jī)器要如何學(xué)習(xí)呢? 本文簡(jiǎn)要介紹機(jī)器學(xué)習(xí)的步驟、途徑、方法,並指出機(jī)器學(xué)習(xí)的兩個(gè)挑戰(zhàn)。
機(jī)器學(xué)習(xí)是甚麼?
在之前,我們談到現(xiàn)今大數(shù)據(jù)分析、人工智慧、乃至於機(jī)器智慧的發(fā)展,背後的重要核心技術(shù)就是「機(jī)器學(xué)習(xí)」(machine learning)。顧名思義,「機(jī)器學(xué)習(xí)就是讓機(jī)器/電腦從過(guò)去經(jīng)驗(yàn)(數(shù)據(jù))中,學(xué)習(xí)如何分類(辨認(rèn))或預(yù)測(cè)(數(shù)值)」。例如:從歷史銷售數(shù)據(jù)預(yù)測(cè)下一季銷售額、從大量設(shè)備運(yùn)轉(zhuǎn)狀況,預(yù)測(cè)設(shè)備剩餘壽命等;從大量圖片資料中辨認(rèn)是狗或是貓;從大量手寫數(shù)字中,辨認(rèn)出0-9數(shù)字。
事實(shí)上,前篇所提及的數(shù)據(jù)挖掘KDD就是根基於「機(jī)器學(xué)習(xí)」方法?,F(xiàn)今,「機(jī)器學(xué)習(xí)」方法不但包含了傳統(tǒng)數(shù)據(jù)挖掘的聚類、分類、回歸、依賴模型,更進(jìn)一步涵蓋了分析圖片、文字等非結(jié)構(gòu)化數(shù)據(jù)的分析方法。
機(jī)器學(xué)習(xí)的步驟:訓(xùn)練(歸納學(xué)習(xí))與部署(推論預(yù)測(cè))
機(jī)器學(xué)習(xí)的步驟為何呢? 可以簡(jiǎn)單地分為兩個(gè)階段:
1. 訓(xùn)練模型建立階段: 數(shù)據(jù)科學(xué)家根據(jù)領(lǐng)域場(chǎng)景、工作項(xiàng)目類型,進(jìn)行數(shù)據(jù)蒐集、轉(zhuǎn)換、演算法選擇、乃至於校調(diào)與建立模型。最後,數(shù)據(jù)科學(xué)家評(píng)估訓(xùn)練結(jié)果好壞,選擇最適當(dāng)?shù)挠?xùn)練模型(trained model)。
2. 模型部署推論階段:數(shù)據(jù)科學(xué)家或資訊工程師將訓(xùn)練模型部署為資訊應(yīng)用服務(wù)。之後,當(dāng)新動(dòng)物圖片、新設(shè)備狀況、下季銷售狀況等數(shù)據(jù)餵入訓(xùn)練模型服務(wù),即可進(jìn)行推論(inference),產(chǎn)生分類或預(yù)測(cè)結(jié)果。預(yù)測(cè)的結(jié)果可以利用應(yīng)用程式邏輯產(chǎn)生為數(shù)值、清單或者是動(dòng)態(tài)圖形等展現(xiàn)方式。
圖、機(jī)器學(xué)習(xí)步驟與階段(黃正傑,「大數(shù)據(jù)、AI應(yīng)用趨勢(shì)與R語(yǔ)言案例分析」,2019)
機(jī)器學(xué)習(xí)的途徑: 監(jiān)督與非監(jiān)督
要如何訓(xùn)練機(jī)器從資料中學(xué)習(xí),進(jìn)而產(chǎn)生訓(xùn)練模型呢? 一般來(lái)說(shuō),有兩種途徑,一種稱為監(jiān)督式學(xué)習(xí)(supervised learning)、另一種為非監(jiān)督式學(xué)習(xí)(unsupervised learning)。
1. 監(jiān)督式學(xué)習(xí):
監(jiān)督式學(xué)習(xí)必須給予機(jī)器一系列影響因子的特徵(features)及結(jié)果標(biāo)籤(labels)的數(shù)據(jù)進(jìn)行訓(xùn)練。例如:針對(duì)設(shè)備進(jìn)行剩餘壽命預(yù)估,需要一系列設(shè)備的溫度、馬達(dá)轉(zhuǎn)速、設(shè)備參數(shù)等特徵、及設(shè)備實(shí)際年限結(jié)果的組合數(shù)據(jù)。過(guò)濾垃圾郵件,可能需要被人們標(biāo)籤後,放在「垃圾郵件箱」的許多郵件標(biāo)題文字(文字作為特徵)的組合。之後,我們就根據(jù)大量的「特徵、標(biāo)籤」的配對(duì)組合,選擇適當(dāng)演算法,建立訓(xùn)練模型。
當(dāng)然,如何從雜亂資料中,進(jìn)行特徵、標(biāo)籤的萃取、選擇、轉(zhuǎn)換,仰賴數(shù)據(jù)科學(xué)家,也仰賴各種領(lǐng)域?qū)<?如:某種機(jī)器設(shè)備、某種生產(chǎn)製程專家)協(xié)助進(jìn)行。特別在非結(jié)構(gòu)化的數(shù)據(jù),諸如:圖片、文字、聲音,亦需要花費(fèi)許多工夫進(jìn)行特徵與標(biāo)籤建立,即需要藉由人工方式分解圖片或文字的特徵或標(biāo)籤化圖片或文字代表的意義。
2. 非監(jiān)督式學(xué)習(xí):
非監(jiān)督式學(xué)習(xí)則希望不須設(shè)定標(biāo)籤,即從雜亂資料中學(xué)習(xí)模式。例如:從顧客屬性、購(gòu)買商品紀(jì)錄,區(qū)分不同市場(chǎng)顧客分群;從一群設(shè)備狀況,分析那些是異常設(shè)備。非監(jiān)督式學(xué)習(xí)通常使用在發(fā)現(xiàn)群集或從大量資料中歸納可能特徵值,以做後續(xù)監(jiān)督式學(xué)習(xí)。
此外,另一種新興的學(xué)習(xí)途徑稱為強(qiáng)化學(xué)習(xí)(reinforcement learning)。強(qiáng)化學(xué)習(xí)的標(biāo)籤是動(dòng)態(tài)的,根據(jù)各種回饋狀況而調(diào)整標(biāo)籤值。例如:強(qiáng)化學(xué)習(xí)運(yùn)用在遊戲或下棋,演算法可評(píng)估目前盤勢(shì),找尋最大標(biāo)籤值下個(gè)位置或動(dòng)作(即不同特徵值),以取得勝利。強(qiáng)化學(xué)習(xí)適合運(yùn)用在可動(dòng)態(tài)評(píng)估情勢(shì)以計(jì)算標(biāo)籤值的應(yīng)用情境。
機(jī)器學(xué)習(xí)的方法: 決策樹、分群、類神經(jīng)、深度學(xué)習(xí)
數(shù)據(jù)科學(xué)家在決定機(jī)器學(xué)習(xí)工作類型、訓(xùn)練途徑及建立數(shù)據(jù)特徵/標(biāo)籤組合配對(duì)後,則可以選擇適當(dāng)?shù)难菟惴椒ㄒ越⒂?xùn)練模型。機(jī)器學(xué)習(xí)方法非常多,包含決策樹(decision tree)、分群(clustering)、線性回歸(linear regression)、支援向量機(jī)(SVM)、類神經(jīng)網(wǎng)路(ANN)、深度學(xué)習(xí)(deep learning)等。
當(dāng)然,複雜的人工智慧問(wèn)題,必須結(jié)合各種學(xué)習(xí)途徑、學(xué)習(xí)方法、乃至傳統(tǒng)非機(jī)器學(xué)習(xí)演算法、知識(shí)庫(kù),才能達(dá)到預(yù)期結(jié)果。如:AlphaGo結(jié)合監(jiān)督式深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)及人類棋譜盤勢(shì)知識(shí)等。這些常見機(jī)器學(xué)習(xí)方法已有許多的開源套件(如:R語(yǔ)言、Python)實(shí)現(xiàn),讓數(shù)據(jù)科學(xué)家/工程師運(yùn)用開發(fā),有興趣的朋友可參考相關(guān)書籍或網(wǎng)站。
機(jī)器學(xué)習(xí)的挑戰(zhàn):業(yè)務(wù)理解、數(shù)據(jù)準(zhǔn)備
撇開缺乏適當(dāng)員工、資料治理等企業(yè)層面考量外,實(shí)施一個(gè)大數(shù)據(jù)或機(jī)器學(xué)習(xí)的專案任務(wù)的最大挑戰(zhàn),反而不是建立訓(xùn)練模型或是應(yīng)用服務(wù)部署。根據(jù)Rexer Analytics公司分析,一個(gè)大數(shù)據(jù)或機(jī)器學(xué)習(xí)的專案中,從業(yè)務(wù)需求拆解為數(shù)據(jù)分析問(wèn)題的「業(yè)務(wù)理解」需要20%時(shí)間、根據(jù)數(shù)據(jù)分析問(wèn)題進(jìn)行數(shù)據(jù)蒐集、清洗等「數(shù)據(jù)準(zhǔn)備」工作則需要36%時(shí)間,建立模型、應(yīng)用部署僅分別佔(zhàn)20%、9%時(shí)間。
例如: 在工廠品質(zhì)預(yù)測(cè)中,要根據(jù)業(yè)務(wù)情境決定哪些設(shè)備、物料特性是影響品質(zhì)的要因? 這些特性又如何轉(zhuǎn)換為有效的特徵? 這些數(shù)據(jù)又如何蒐集與清理? 要減少「業(yè)務(wù)理解」、「數(shù)據(jù)準(zhǔn)備」兩個(gè)工作時(shí)間,提高大數(shù)據(jù)、機(jī)器學(xué)習(xí)專案的成功機(jī)率,不能僅僅仰賴外部數(shù)據(jù)科學(xué)家。建議能訓(xùn)練企業(yè)、工廠等具備領(lǐng)域經(jīng)驗(yàn)的經(jīng)理人、工程師及IT人員初步理解大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)概念,以加快與外部公司的數(shù)據(jù)科學(xué)家、分析師合作,更能提高機(jī)器學(xué)習(xí)專案的成功機(jī)率以及大數(shù)據(jù)分析的價(jià)值。
黃正傑
你喜歡挑戰(zhàn)不斷隆起的技術(shù)高原、探索無(wú)限寬廣的創(chuàng)新領(lǐng)域嗎? 那麼我們是同路人。
黃正傑,臺(tái)大資管博士,協(xié)助鼎新進(jìn)行前瞻技術(shù)研究與應(yīng)用發(fā)展。歷經(jīng)IT架構(gòu)技術(shù)顧問(wèn)、供應(yīng)鏈管理顧問(wèn)、軟體產(chǎn)業(yè)分析師等多項(xiàng)職務(wù),並兼任文化大學(xué)助理教授。讓我們一起從創(chuàng)新與變革角度,探索新興技術(shù)!
上一頁(yè):未來(lái)新零售!人工智慧、物聯(lián)網(wǎng)、大數(shù)據(jù)應(yīng)用無(wú)所不在
下一頁(yè):疫情敲響警鐘 企業(yè)如何通過(guò)數(shù)位供應(yīng)鏈提升抗風(fēng)險(xiǎn)能力
返回更多案例