欧美18videos性处,久久国产劲暴∨内射,麻花豆剧天美星空,狂躁美女大bbbbbb,女人下边被舔全过视频软件

你可能不知道的!大數(shù)據(jù)分析方法與實務應用

文:黃正傑 2020-06-16

發(fā)布時間: 2020-06-11 17:11:00

KDD 數(shù)據(jù)挖掘 大數(shù)據(jù) 數(shù)位轉型


數(shù)據(jù)挖掘從數(shù)據(jù)裡挑出金礦


11-14.jpg


大數(shù)據(jù)分析是"舊方法+新數(shù)據(jù)+新運算技術"的融合,大數(shù)據(jù)分析方法類型,製造業(yè)常見的大數(shù)據(jù)分析應用方向。




1980年代,人工智慧許多技術問題無法突破,造成第二次衰退。於是有些學者開始思考將焦點轉至解決企業(yè)特定需求的實用問題。


俄羅斯科學家皮埃特斯基思索從資料庫挖掘有意義的模式(pattern)、知識協(xié)助企業(yè)分析,稱為「資料庫知識發(fā)現(xiàn)」(Knowledge Discovery in Databases;KDD)。


當時,已有一些統(tǒng)計學者運用統(tǒng)計學方法從資料中挖掘有趣的分析,稱為「數(shù)據(jù)挖掘」(Data Mining)。皮埃特斯基認為Data Mining並沒有具體指出其挖掘目的來自於知識發(fā)現(xiàn),因此重新命名為KDD。


1989年,皮埃特斯基與其他學者發(fā)起KDD-89 workshop,召集21國家學者共同研究:專家知識庫系統(tǒng)、模糊規(guī)則、領域知識、結構式關聯(lián)資料學習、文本處理、視覺展現(xiàn)方法等,均以實務主題為導向。


1997年開始舉辦KDD Cup知識發(fā)現(xiàn)與數(shù)據(jù)挖掘競賽,至今聚集20萬以上個專家的龐大社群。2018年,Google 併購KDD Cup所屬經(jīng)營團隊Kaggle。


KDD數(shù)據(jù)挖掘方法

從上述歷史可以理解,KDD或數(shù)據(jù)挖掘其實就是人工智慧實用化的分支之一。1989年,KDD討論的企業(yè)數(shù)據(jù)僅有1MB數(shù)據(jù)量;如今,動輒數(shù)百GB資料儲存及高性能計算能力,使大數(shù)據(jù)挖掘重啟科學界與企業(yè)界信心。


11-6.jpg

圖、KDD資料庫知識發(fā)現(xiàn)過程(Fayyad et. al(1996)


KDD不僅重視知識發(fā)現(xiàn)結果,更重視知識發(fā)現(xiàn)過程。如上圖所示,典型KDD過程包含選擇、預備、轉換、數(shù)據(jù)挖掘、解釋/評估以產(chǎn)生知識。數(shù)據(jù)挖掘方法有許多種,也可說是機器學習一部分,常見類型如下:

1. 聚類 (clustering)

聚類的目的是透過某種規(guī)則計算,將資料歸為數(shù)個不同的群組,使得群組內差異小、組外差異大,例如: 顧客市場區(qū)隔、設備異常聚類等。


2. 分類 (classification)

分類的目的是將資料分為多個類型,並解析影響分類原因。例如: 在金融貸款中,將顧客分為會借貸與不會借貸兩種類型,及可能受到性別、年齡、所得等影響;在良率分析中,將良率訂為95%以上及以下,並分析受到原物料、設備、操作人員等影響。


3. 回歸 (regression)

回歸的目的是建立一個學習函數(shù),進行數(shù)值性預測。例如:銷售金額預測、產(chǎn)品良率預測、設備壽命預測等。一家航空公司即根據(jù)過去數(shù)百個失效引擎當下的飛行時間時的溫度、馬達轉速作為變因、及將後來失效轉速減去當時已運轉次數(shù),作為剩餘壽命應變數(shù),建立學習函數(shù)。新的引擎即可透過此學習函數(shù),預測目前的剩餘壽命還有多少剩餘轉速? 藉此,可以提醒航空公司進行維修。


4. 依賴模型 (dependency modeling)

依賴模型目的在於發(fā)現(xiàn)事務間的關係,包含:結構性關係、數(shù)值性關係等,常用的方式包括:貝氏網(wǎng)路、馬可夫網(wǎng)路、隱馬可夫鏈等。這些依賴模型常用機率推論,並以圖型方式表示,被稱為機率圖型。例如:貝氏網(wǎng)路基於貝氏定理的條件機率,建立依賴關係模型,可以進行推論與預測。如下圖所示,根據(jù)經(jīng)驗建立多雲(yún)天氣、下雨、灑水器及草地濕的條件機率。因此,當觀察到多雲(yún)天氣及草地濕的現(xiàn)象時,可以根據(jù)貝氏網(wǎng)路關係及條件機率計算法,得到是灑水器噴灑造成的機率是0.13。


11-8.png

圖、貝氏網(wǎng)路機率圖型


從KDD到大數(shù)據(jù)分析

到這裡,大家不禁覺得1990年代的KDD舊方法,現(xiàn)在竟然又被重新炒作為大數(shù)據(jù)? 事實上,大數(shù)據(jù)發(fā)展不僅只是新演算方法或模型的發(fā)展,如:深度學習;更是多樣異質數(shù)據(jù)積累,如: 網(wǎng)路上社群意見、數(shù)位影像資訊、物聯(lián)網(wǎng)資料;以及數(shù)據(jù)運算能力提升,如:雲(yún)端運算、NVIDA圖形計算晶片。


這些舊方法+新數(shù)據(jù),運用在企業(yè)實務中的經(jīng)驗與成功案例,使得大數(shù)據(jù)分析不斷受到重視。依據(jù)Rexer Analytics研究,大數(shù)據(jù)分析或被稱為「預測分析」的任務中,建立模型的時間僅有20%,其餘的時間在於業(yè)務理解(20%)、數(shù)據(jù)理解與準備(36%)、撰寫報告與發(fā)表(15%)等,由上述可知企業(yè)實施重點更需要討論如何進行業(yè)務需求理解及數(shù)據(jù)擷取與清理等準備工作。


大數(shù)據(jù)製造業(yè)應用方向

那麼,大數(shù)據(jù)在製造業(yè)有何應用方向呢? 以下列舉幾個常見應用:


1. 預測維修

分析設備剩餘壽命、預測損壞時間以提前維修。例如:高聖帶鋸機提供客戶進行機器設備預測維修服務;勞斯萊斯引擎透過預測維修獲得數(shù)據(jù)分析營收。


2. 良率預測

分析品質不良原因,並預測產(chǎn)出良率。例如:WD硬碟製造商運用大數(shù)據(jù)分析技術,追蹤硬碟機生產(chǎn)過程,即時分析每一批產(chǎn)品良率狀況,以避免不良品賣到顧客手中。


3. 供應規(guī)劃?

供應規(guī)劃包含庫存規(guī)劃、物流運送規(guī)劃等。除了運用傳統(tǒng)規(guī)劃技術外,亦可運用KDD方式協(xié)助。例如: Dow Chemical化學公司運用銷售預測、物料採買時間分析、庫存地點最佳化等,降低庫存成本。Jaypee Group 運輸公司運用KDD技術,進行最佳運輸路徑分析,降低油料、運輸成本。


小結

事實上,現(xiàn)代人工智慧技術常融合KDD方法或其他新興大數(shù)據(jù)分析技術,已經(jīng)很難區(qū)別兩者。但KDD、數(shù)據(jù)挖掘、大數(shù)據(jù)分析等重視數(shù)據(jù)整理、挖掘過程,是企業(yè)實施大數(shù)據(jù)、人工智慧方案時,不可遺忘的重點。




9.jpg

黃正傑

你喜歡挑戰(zhàn)不斷隆起的技術高原、探索無限寬廣的創(chuàng)新領域嗎? 那麼我們是同路人。

黃正傑,臺大資管博士,協(xié)助鼎新進行前瞻技術研究與應用發(fā)展。歷經(jīng)IT架構技術顧問、供應鏈管理顧問、軟體產(chǎn)業(yè)分析師等多項職務,並兼任文化大學助理教授。讓我們一起從創(chuàng)新與變革角度,探索新興技術!


6.jpg


更多案例

x