當(dāng)前時(shí)代大數(shù)據(jù)炙手可熱,數(shù)據(jù)挖掘也是人人有所耳聞,但是關(guān)于數(shù)據(jù)挖掘更具體的算法,外行人了解的就少之甚少了。
數(shù)據(jù)挖掘主要分為分類算法,聚類算法和關(guān)聯(lián)規(guī)則三大類,這三類基本上涵蓋了目前商業(yè)市場(chǎng)對(duì)算法的所有需求。而這三類里又包含許多經(jīng)典算法。而今天,小編就給大家介紹下數(shù)據(jù)挖掘中最經(jīng)典的十大算法,希望它對(duì)你有所幫助。
?
圖1.jpg?(1.89 MB, 下載次數(shù): 0)
半小時(shí)前?上傳
一、 分類決策樹算法C4.5C4.5,是機(jī)器學(xué)習(xí)算法中的一種分類決策樹算法,它是決策樹(決策樹,就是做決策的節(jié)點(diǎn)間的組織方式像一棵倒栽樹)核心算法ID3的改進(jìn)算法,
C4.5相比于ID3改進(jìn)的地方有:
1、用信息增益率選擇屬性
ID3選擇屬性用的是子樹的信息增益,這里可以用很多方法來定義信息,ID3使用的是熵(shang),一種不純度度量準(zhǔn)則,也就是熵的變化值,而C4.5用的是信息增益率。區(qū)別就在于一個(gè)是信息增益,一個(gè)是信息增益率。
2、 在樹構(gòu)造過程中進(jìn)行剪枝,在構(gòu)造決策樹的時(shí)候,那些掛著幾個(gè)元素的節(jié)點(diǎn),不考慮最好,不然容易導(dǎo)致過擬。
3、能對(duì)非離散數(shù)據(jù)和不完整數(shù)據(jù)進(jìn)行處理。
該算法適用于臨床決策、生產(chǎn)制造、文檔分析、生物信息學(xué)、空間數(shù)據(jù)建模等領(lǐng)域。
二、K平均算法
K平均算法(k-means algorithm)是一個(gè)聚類算法,把n個(gè)分類對(duì)象根據(jù)它們的屬性分為k類(k
從算法的表現(xiàn)上來說,它并不保證一定得到全局最優(yōu)解,最終解的質(zhì)量很大程度上取決于初始化的分組。由于該算法的速度很快,因此常用的一種方法是多次運(yùn)行k平均算法,選擇最優(yōu)解。
k-Means 算法常用于圖片分割、歸類商品和分析客戶。
?三、支持向量機(jī)算法
支持向量機(jī)(Support Vector Machine)算法,簡(jiǎn)記為SVM,是一種監(jiān)督式學(xué)習(xí)的方法,廣泛用于統(tǒng)計(jì)分類以及回歸分析中。
SVM的主要思想可以概括為兩點(diǎn):
(1)它是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分;
(2)它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上,在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。
四、The Apriori algorithm
Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,其核心是基于兩階段“頻繁項(xiàng)集”思想的遞推算法。其涉及到的關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。
該算法的基本思想是:首先找出所有的頻集,這些頻集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推方法。
在消費(fèi)市場(chǎng)價(jià)格分析、入侵檢測(cè)、移動(dòng)通信領(lǐng)域等領(lǐng)域,Apriori 算法都有著廣泛的用武之地。
?
五、最大期望(EM)算法
在統(tǒng)計(jì)計(jì)算中,最大期望(EM,Expectation–Maximization)算法是在概率模型中尋找參數(shù)最大似然估計(jì)的算法,其中概率模型依賴于無法觀測(cè)的隱藏變量。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的數(shù)據(jù)集聚領(lǐng)域。
最大期望算法經(jīng)過兩個(gè)步驟交替進(jìn)行計(jì)算,第一步是計(jì)算期望(E),也就是將隱藏變量象能夠觀測(cè)到的一樣包含在內(nèi)從而計(jì)算最大似然的期望值;第二步是最大化(M),也就是最大化在E步上找到的最大似然的期望值從而計(jì)算參數(shù)的最大似然估計(jì)。M步上找到的參數(shù)然后用于另外一個(gè)E步計(jì)算,這個(gè)過程不斷交替進(jìn)行。
六、Page Rank算法
Page Rank是Google算法的重要內(nèi)容。Page Rank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量,衡量網(wǎng)站的價(jià)值。
Page Rank背后的概念是每個(gè)到頁(yè)面的鏈接都是對(duì)該頁(yè)面的一次投票,被鏈接的越多,就意味著被其他網(wǎng)站投票越多。這就是所謂的“鏈接流行度”——衡量多少人愿意將他們的網(wǎng)站和你的網(wǎng)站掛鉤。
毫無疑問,PageRank 算法是一種相當(dāng)適合爬蟲、頁(yè)面排序、文獻(xiàn)檢索及搜索引擎的算法。
?
七、Ada Boost 迭代算法
Ada boost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。
從原理上說,它本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)計(jì)算的。Adaboost 算法根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個(gè)樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來,作為最后的決策分類器(強(qiáng)分類器)。
它被廣泛應(yīng)用于人臉檢測(cè)、目標(biāo)識(shí)別等領(lǐng)域。
八、kNN 最近鄰分類算法
K最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個(gè)理論上比較成熟的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。
KNN算法不僅可以用于分類,還可以用于回歸。通過找出一個(gè)樣本的k個(gè)最近鄰居,將這些鄰居的屬性的平均值賦給該樣本,就可以得到該樣本的屬性。更有用的方法是將不同距離的鄰居對(duì)該樣本產(chǎn)生的影響給予不同的權(quán)值,如權(quán)值與距離成正比。
該算法適合處理稀有事件的分類問題,例如:
客戶流失預(yù)測(cè)、欺詐偵測(cè)等等。
?
九、Naive Bayes 樸素貝葉斯算法
在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹模型和樸素貝葉斯模型(Naive Bayesian Model,NBC)。
Naive Bayes 算法通過某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,并選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類。樸素貝葉斯模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,其算法也比較簡(jiǎn)單。
其常用于處理垃圾郵件過濾和文本分類。
十、CART: 分類與回歸樹算法
分類與回歸樹算法(CART,Classification and Regression Trees)是分類數(shù)據(jù)挖掘算法的一種,有兩個(gè)關(guān)鍵的思想:第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法;第二個(gè)想法是用驗(yàn)證數(shù)據(jù)進(jìn)行剪枝。
其抽取規(guī)則簡(jiǎn)便且易于理解,而且在計(jì)算時(shí)往往只需要用簡(jiǎn)單的乘法,因此降低了計(jì)算的負(fù)荷,在面對(duì)存在缺失值、變量數(shù)多等問題時(shí)表現(xiàn)非常穩(wěn)健。
CART算法可應(yīng)用于信息失真識(shí)別、潛在客戶識(shí)別、預(yù)測(cè)貸款風(fēng)險(xiǎn)等場(chǎng)景。
?
那么親該專注哪種算法呢,小編覺得每一種算法都是經(jīng)典,每一種算法都值得去學(xué)習(xí)。至于要用哪種算法?還得看實(shí)際的應(yīng)用場(chǎng)景和業(yè)務(wù)需求!
總結(jié)一句話:數(shù)據(jù)挖掘之路漫漫而修遠(yuǎn),潛心修煉方能修成正果!
最后歡迎關(guān)注小編或添加小編微信公眾號(hào)“中移模組”,我們等你一起加入探討的喔!
中移物聯(lián)網(wǎng)有限公司是中國(guó)移動(dòng)通信集團(tuán)公司出資成立的全資子公司。公司按照中國(guó)移動(dòng)整體戰(zhàn)略布局,圍繞“物聯(lián)網(wǎng)業(yè)務(wù)服務(wù)的支撐者、專用模組和芯片的提供者、物聯(lián)網(wǎng)專用產(chǎn)品的推動(dòng)者”的戰(zhàn)略定位, 專業(yè)化運(yùn)營(yíng)物聯(lián)網(wǎng)專用網(wǎng)絡(luò),設(shè)計(jì)生產(chǎn)物聯(lián)網(wǎng)專用模組和芯片,打造車聯(lián)網(wǎng)、智能家居、智能穿戴等特色產(chǎn)品,開發(fā)運(yùn)營(yíng)物聯(lián)網(wǎng)連接管理平臺(tái)OneLink和物聯(lián)網(wǎng)開放平臺(tái)OneNET,推廣物聯(lián)網(wǎng)解決方案,形成了五大方向業(yè)務(wù)布局和物聯(lián)網(wǎng)“云-管-端”全方位的體系架構(gòu)。為向社會(huì)提供更加優(yōu)質(zhì)的物聯(lián)網(wǎng)技術(shù)、產(chǎn)品及服務(wù),推動(dòng)產(chǎn)業(yè)發(fā)展,公司密切協(xié)同中國(guó)移動(dòng)各省公司及專業(yè)公司, 以開放、合作、共享的發(fā)展理念,廣泛開展國(guó)際、國(guó)內(nèi)企業(yè)合作,以市場(chǎng)化機(jī)制獨(dú)立運(yùn)作,力爭(zhēng)成為立足全國(guó),服務(wù)全球的物聯(lián)網(wǎng)領(lǐng)先企業(yè),推動(dòng)物聯(lián)網(wǎng)在各行業(yè)的規(guī)模應(yīng)用。
評(píng)論