機器學習的應用(Examples of Machine Learning Applications)－tzanfeng

Linear Associatoin (線性關聯)

購物籃分析(Market-Basket Analysis)是機器學習的應用之一，主要是幫助零售業者瞭解客戶的消費行為，假設發現通常購買x產品的人也會購買y產品，若今天有一客戶只有買x沒有買y，那麼他就是一個y的淺在客戶(Potencial Customer)。當我們找到這些客戶時，我們就可以利用同類產品做聯合推銷(Cross-selling)。為了找出這些關聯規則(Association Rule)，我們使用條件機率(Conditional Probability)的形式P(y|x)，代表購買x產品狀況下，也會順道購買y的機率。假使我們經過統計後，得知P(Chips|Beer)=0.7，則代表：

70 percent of customers who buy beer also buy chips.

另外我們還可以將整個關聯，對於客戶的部份做細分，P(y|x, d)，d代表客戶的屬性，例如年齡、性別與職業等等。

Classification (分類)

信用卡一般利息都會以分期的方式付款，因此預測貸款風險是銀行重要的工作，銀行員根據客戶過去的資料來估測此次申請額度是否有能力繳回，這整個程序又被稱作信用評分(Credit Scoring, Hand 1998)。起初也是透過資料分析找出關聯規則，再利用這些規則做分類(Classification)，看這次的申請額度是屬於高風險/低風險(接受/拒絕)。分類的定義即是將大量資料放進分類器(Classifier)中做篩選，分類器會依據關聯規則與統計，來分類成兩種類別(Class)。如下圖所示：

low-risk(+), high-risk(-)

IF income>θ₁AND savins>θ₂ THEN low-risk ELSE high-risk

為了找到合適的θ₁θ₂，這是一個辨識(Discriment)例子。

在這個範例中，我們用0/1(低風險/高風險)來表示判斷結果，因此我們可以計算機率P(Y|X)，其中X是客戶的屬性，Y是0/1，可以看到分類就像是在學習找出X-Y的關聯，若得到P(Y=1|X=x)=0.8，就代表這個客戶有80%的機率是高風險群，那我們就可以根據這個機率的增減做決策。而樣本偵測，不同於分類在於樣本偵測可以將目標資料分類成多個類別，例如字元判別，其他繁瑣的敘述就免去了。

從資料中學習規則又稱為知識萃取(Knowledge Extraction)，而壓縮(Compression)也是在資料當中尋找規則，另外一個應用在離群值偵測(Outlier Detection)，找出不遵守規則的數據，例如測謊。

Regression (迴歸分析)

若今天我要預測一台車的價值，所得到的參數是廠牌、年份、馬力等相關資訊，對於內行人來說應該不難估算。為什麼他可以做估價的動作?其實人類也是靠過去的經驗學習來的。我想說的是像這一類預測的輸出是一個數值的系統，又稱作迴歸分析。假設X是車子的屬性，Y為車子的價值，參照先前訓練的方式，我們先收集測試資料投入機器學習程式，這個機器學習程式就會從這些資料調整適合的w與w0：

y=wx+w0

線性迴歸也許會限制了系統的吻合度，利用更高次方多項式(Higher-order Polynomial)，使其成為非線性系統，會準確的找到更佳的設定。迴歸分析與分類都屬於監督式學習，透過不斷地學習來修正自己的知識，直到參數誤差到極小為止。

regression

這裡我再補充線性迴歸分析的一些概念，由上圖中的直線又稱為迴歸線，我們從那些點去找出這些資料的關係(價錢-馬力)，使這條線性方程式可以大略符合這些資料。一般在統計方法上，都是採用最小距離總和的方式，來調整線性的參數，有時會去除離群值(雜訊)以維持正常資料的準確度。在工程科學領域通常我們會把系統劃分成線性系統與非線性系統，而非線性系統所探討的是一個比較複雜的系統環境。