close

Linear Associatoin (線性關聯)

購物籃分析(Market-Basket Analysis)是機器學習的應用之一,主要是幫助零售業者瞭解客戶的消費行為,假設發現通常購買x產品的人也會購買y產品,若今天有一客戶只有買x沒有買y,那麼他就是一個y的淺在客戶(Potencial Customer)。當我們找到這些客戶時,我們就可以利用同類產品做聯合推銷(Cross-selling)。為了找出這些關聯規則(Association Rule),我們使用條件機率(Conditional Probability)的形式P(y|x),代表購買x產品狀況下,也會順道購買y的機率。假使我們經過統計後,得知P(Chips|Beer)=0.7,則代表:

70 percent of customers who buy beer also buy chips.

另外我們還可以將整個關聯,對於客戶的部份做細分,P(y|x, d),d代表客戶的屬性,例如年齡、性別與職業等等。

Classification (分類)

信用卡一般利息都會以分期的方式付款,因此預測貸款風險是銀行重要的工作,銀行員根據客戶過去的資料來估測此次申請額度是否有能力繳回,這整個程序又被稱作信用評分(Credit Scoring, Hand 1998)。起初也是透過資料分析找出關聯規則,再利用這些規則做分類(Classification),看這次的申請額度是屬於高風險/低風險(接受/拒絕)。分類的定義即是將大量資料放進分類器(Classifier)中做篩選,分類器會依據關聯規則與統計,來分類成兩種類別(Class)。如下圖所示:

low-risk(+), high-risk(-)

IF income>θ1 AND savins>θ2  THEN low-risk ELSE high-risk

為了找到合適的θ1θ2,這是一個辨識(Discriment)例子。

在這個範例中,我們用0/1(低風險/高風險)來表示判斷結果,因此我們可以計算機率P(Y|X),其中X是客戶的屬性,Y是0/1,可以看到分類就像是在學習找出X-Y的關聯,若得到P(Y=1|X=x)=0.8,就代表這個客戶有80%的機率是高風險群,那我們就可以根據這個機率的增減做決策。而樣本偵測,不同於分類在於樣本偵測可以將目標資料分類成多個類別,例如字元判別,其他繁瑣的敘述就免去了。

從資料中學習規則又稱為知識萃取(Knowledge Extraction),而壓縮(Compression)也是在資料當中尋找規則,另外一個應用在離群值偵測(Outlier Detection),找出不遵守規則的數據,例如測謊。


Regression (迴歸分析)

若今天我要預測一台車的價值,所得到的參數是廠牌、年份、馬力等相關資訊,對於內行人來說應該不難估算。為什麼他可以做估價的動作?其實人類也是靠過去的經驗學習來的。我想說的是像這一類預測的輸出是一個數值的系統,又稱作迴歸分析。假設X是車子的屬性,Y為車子的價值,參照先前訓練的方式,我們先收集測試資料投入機器學習程式,這個機器學習程式就會從這些資料調整適合的w與w0:

y=wx+w0


線性迴歸也許會限制了系統的吻合度,利用更高次方多項式(Higher-order Polynomial),使其成為非線性系統,會準確的找到更佳的設定。迴歸分析與分類都屬於監督式學習,透過不斷地學習來修正自己的知識,直到參數誤差到極小為止。

regression

這裡我再補充線性迴歸分析的一些概念,由上圖中的直線又稱為迴歸線,我們從那些點去找出這些資料的關係(價錢-馬力),使這條線性方程式可以大略符合這些資料。一般在統計方法上,都是採用最小距離總和的方式,來調整線性的參數,有時會去除離群值(雜訊)以維持正常資料的準確度。在工程科學領域通常我們會把系統劃分成線性系統與非線性系統,而非線性系統所探討的是一個比較複雜的系統環境。



arrow
arrow
    全站熱搜

    tzanfeng 發表在 痞客邦 留言(0) 人氣()