數(shù)據(jù)挖掘技術(shù)具有哪些特點(diǎn)?
數(shù)據(jù)挖掘技術(shù)具有哪些特點(diǎn)?
①基于大量數(shù)據(jù)并非說小數(shù)據(jù)量上就不可以進(jìn)行挖掘,實(shí)際上大多數(shù)數(shù)據(jù)挖掘的算法都可以在小數(shù)據(jù)量上運(yùn)行并得到結(jié)果。但是,一方面過小的數(shù)據(jù)量完全可以通過人工分析來(lái)總結(jié)規(guī)律,另一方面來(lái)說,小數(shù)據(jù)量常常無(wú)法反映出真實(shí)世界中的普遍特性。
②非平凡性
所謂非平凡,指的是挖掘出來(lái)的知識(shí)應(yīng)該是不簡(jiǎn)單的,絕不能是類似某****評(píng)論員所說的“經(jīng)過我的計(jì)算,我發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象,到本場(chǎng)比賽結(jié)束為止,這屆百科***的進(jìn)球數(shù)和失球數(shù)是一樣的。
非常的巧合!”那種知識(shí)。這點(diǎn)看起來(lái)勿庸贅言,但是很多不懂業(yè)務(wù)知識(shí)的數(shù)據(jù)挖掘新手卻常常犯這種錯(cuò)誤。
③隱含性
數(shù)據(jù)挖掘是要發(fā)現(xiàn)深藏在數(shù)據(jù)內(nèi)部的知識(shí),而不是那些直接浮現(xiàn)在數(shù)據(jù)表面的信息。常用的BI工具,例如報(bào)表和OLAP,完全可以讓用戶找出這些信息。
④新奇性
挖掘出來(lái)的知識(shí)應(yīng)該是以前未知的,否則只不過是驗(yàn)證了業(yè)務(wù)專家的經(jīng)驗(yàn)而已。只有全新的知識(shí),才可以幫助企業(yè)獲得進(jìn)一步的洞察力。
⑤價(jià)值性
挖掘的結(jié)果必須能給企業(yè)帶來(lái)直接的或間接的效益。
有人說數(shù)據(jù)挖掘只是“屠龍之技”,看起來(lái)神乎其神,卻什么用處也沒有。這只是一種誤解,不可否認(rèn)的是在一些數(shù)據(jù)挖掘項(xiàng)目中,或者因?yàn)槿狈γ鞔_的業(yè)務(wù)目標(biāo),或者因?yàn)閿?shù)據(jù)質(zhì)量的不足,或者因?yàn)槿藗儗?duì)改變業(yè)務(wù)流程的**,或者因?yàn)橥诰蛉藛T的經(jīng)驗(yàn)不足,都會(huì)導(dǎo)致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,數(shù)據(jù)挖掘的確可以變成提升效益的利器。
3.8.3 數(shù)據(jù)挖掘常用技術(shù)
《系統(tǒng)架構(gòu) 設(shè)計(jì)師教程(第4版) 》希賽教育 編著 常用的數(shù)據(jù)挖掘技術(shù)包括關(guān)聯(lián)分析、序列分析、分類、預(yù)測(cè)、聚類分析及時(shí)間序列分析等。 1.關(guān)聯(lián)分析 關(guān)聯(lián)分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一個(gè)事件發(fā)生的同時(shí),另一個(gè)事件也經(jīng)常發(fā)生。
關(guān)聯(lián)分析的重點(diǎn)在于快速發(fā)現(xiàn)那些有實(shí)用價(jià)值的關(guān)聯(lián)發(fā)生的事件。
其主要依據(jù)是事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計(jì)意義。 對(duì)于結(jié)構(gòu)化的數(shù)據(jù),以客戶的購(gòu)買習(xí)慣數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)客戶的關(guān)聯(lián)購(gòu)買需要。例如,一個(gè)開設(shè)儲(chǔ)蓄賬戶的客戶很可能同時(shí)進(jìn)行債券交易和股票交易,購(gòu)買紙尿褲的男顧客經(jīng)常同時(shí)購(gòu)買啤酒等。利用這種知識(shí)可以采取積極的營(yíng)銷策略,擴(kuò)展客戶購(gòu)買的產(chǎn)品范圍,吸引更多的客戶。
通過調(diào)整商品的布局便于顧客買到經(jīng)常同時(shí)購(gòu)買的商品,或者通過降低一種商品的價(jià)格來(lái)促進(jìn)另一種商品的銷售等。 對(duì)于非結(jié)構(gòu)化的數(shù)據(jù),以空間數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)地理位置的關(guān)聯(lián)性。例如,85%的靠近高速公路的大城鎮(zhèn)與水相鄰,或者發(fā)現(xiàn)通常與高爾夫球場(chǎng)相鄰的對(duì)象等。
2.序列分析 序列分析技術(shù)主要用于發(fā)現(xiàn)一定時(shí)間間隔內(nèi)接連發(fā)生的事件。這些事件構(gòu)成一個(gè)序列,發(fā)現(xiàn)的序列應(yīng)該具有普遍意義,其依據(jù)除了統(tǒng)計(jì)上的概率之外,還要加上時(shí)間的約束。 3.分類分析 分類分析通過分析具有類別的樣本的特點(diǎn),得到?jīng)Q定樣本屬于各種類別的規(guī)則或方法。
利用這些規(guī)則和方法對(duì)未知類別的樣本分類時(shí)應(yīng)該具有一定的準(zhǔn)確度。其主要方法有基于統(tǒng)計(jì)學(xué)的貝葉斯方法、神經(jīng)**方法、決策樹方法及支持向量機(jī)(support vector machines)等。 利用分類技術(shù),可以根據(jù)顧客的消費(fèi)水平和基本特征對(duì)顧客進(jìn)行分類,找出對(duì)商家有較大利益貢獻(xiàn)的重要客戶的特征,通過對(duì)其進(jìn)行個(gè)性化服務(wù),提高他們的忠誠(chéng)度。
利用分類技術(shù),可以將大量的半結(jié)構(gòu)化的文本數(shù)據(jù),如WEB頁(yè)面、電子郵件等進(jìn)行分類。可以將圖片進(jìn)行分類,例如,根據(jù)已有圖片的特點(diǎn)和類別,可以判定一幅圖片屬于何種類型的規(guī)則。對(duì)于空間數(shù)據(jù),也可以進(jìn)行分類分析,例如,可以根據(jù)房屋的地理位置決定房屋的檔次。 4.聚類分析 聚類分析是根據(jù)物以類聚的原理,將本身沒有類別的樣本聚集成不同的組,并且對(duì)每一個(gè)這樣的組進(jìn)行描述的過程。
其主要依據(jù)是聚到同一個(gè)組中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。 仍以客戶關(guān)系管理為例,利用聚類技術(shù),根據(jù)客戶的個(gè)人特征及消費(fèi)數(shù)據(jù),可以將客戶群體進(jìn)行細(xì)分。例如,可以得到這樣的一個(gè)消費(fèi)群體:女性占91%,全部無(wú)子女、年齡在31歲到40歲占70%,高消費(fèi)級(jí)別的占64%,買過針織品的占91%,買過廚房用品的占89%,買過園藝用品的占79%。針對(duì)不同的客戶群,可以實(shí)施不同的營(yíng)銷和服務(wù)方式,從而提高客戶的滿意度。
對(duì)于空間數(shù)據(jù),根據(jù)地理位置及障礙物的存在情況可以自動(dòng)進(jìn)行區(qū)域劃分。例如,根據(jù)分布在不同地理位置的 ATM 機(jī)的情況將居民進(jìn)行區(qū)域劃分,根據(jù)這一信息,可以有效地進(jìn)行ATM機(jī)的設(shè)置規(guī)劃,避免浪費(fèi),同時(shí)也避免失掉每一個(gè)商機(jī)。 對(duì)于文本數(shù)據(jù),利用聚類技術(shù)可以根據(jù)文檔的內(nèi)容自動(dòng)劃分類別,從而便于文本的檢索。 5.預(yù)測(cè) 預(yù)測(cè)與分類類似,但預(yù)測(cè)是根據(jù)樣本的已知特征估算某個(gè)連續(xù)類型的變量的取值的過程,而分類則只是用于判別樣本所屬的離散類別而已。
預(yù)測(cè)常用的技術(shù)是回歸分析。 6.時(shí)間序列分析 時(shí)間序列分析的是隨時(shí)間而變化的事件序列,目的是預(yù)測(cè)未來(lái)發(fā)展趨勢(shì),或者尋找相似發(fā)展模式或者是發(fā)現(xiàn)周期性發(fā)展規(guī)律。
數(shù)據(jù)挖掘技術(shù)涉及哪些技術(shù)領(lǐng)域
數(shù)據(jù)挖掘的技術(shù)有很多種,按照不同的分類有不同的分類法,大致有十三種常用的數(shù)據(jù)挖掘的技術(shù)。1、統(tǒng)計(jì)技術(shù)2、關(guān)聯(lián)規(guī)則3、基于歷史的MBR(Memory-based Reasoning)分析4、遺傳算法GA(Genetic Algorithms)5、聚集檢測(cè)6、連接分析7、決策樹8、神經(jīng)**9、粗糙集10、模糊集11、回歸分析12、差別分析13、概念描述由于人們急切需要將存在于數(shù)據(jù)庫(kù)和其他信息庫(kù)中的數(shù)據(jù)轉(zhuǎn)化為有用的知識(shí),因而數(shù)據(jù)挖掘被認(rèn)為是一門新興的、非常重要的、具有廣闊應(yīng)用前景和富有挑戰(zhàn)性的研究領(lǐng)域,并應(yīng)起了眾多學(xué)科(如數(shù)據(jù)庫(kù)、人工智能、統(tǒng)計(jì)學(xué)、數(shù)據(jù)倉(cāng)庫(kù)、**分析處理、專家系統(tǒng)、數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)、信息檢索、神經(jīng)**、模式識(shí)別、高性能計(jì)算機(jī)等)研究者的廣泛注意。
隨著數(shù)據(jù)挖掘的進(jìn)一步發(fā)展,它必然會(huì)帶給用戶更大的利益。
如果對(duì)數(shù)據(jù)挖掘的學(xué)習(xí)有疑問的話,推薦CDA數(shù)據(jù)分析師的課程,它安排了Sklearn/LightGBM、Tensorflow/PyTorch、Transformer等工具的應(yīng)用實(shí)現(xiàn),并根據(jù)輸出的結(jié)果分析業(yè)務(wù)需求,為進(jìn)行合理、有效的策略優(yōu)化提供數(shù)據(jù)支撐。課程培養(yǎng)學(xué)員硬性的數(shù)據(jù)挖掘理論與Python數(shù)據(jù)挖掘算法技能的同時(shí),還兼顧培養(yǎng)學(xué)員軟性數(shù)據(jù)治理思維、商業(yè)策略優(yōu)化思維、挖掘經(jīng)營(yíng)思維、算法思維、預(yù)測(cè)分析思維,全方位提升學(xué)員的數(shù)據(jù)洞察力。點(diǎn)擊預(yù)約免費(fèi)試聽課。
數(shù)據(jù)挖掘技術(shù)可以解決我們學(xué)習(xí)、生活中的什么問題?
數(shù)據(jù)挖掘技術(shù)可以解決牲畜疾病的預(yù)防、改進(jìn)工藝參數(shù)、疾病診斷等問題。
數(shù)據(jù)挖掘技術(shù)可以根據(jù)歷史生產(chǎn)數(shù)據(jù)來(lái),預(yù)測(cè)良品情況,從而改進(jìn)工藝參數(shù)降低不良率;畜牧業(yè)可以使用數(shù)據(jù)挖掘技術(shù)根據(jù)測(cè)量牲畜體溫來(lái)預(yù)測(cè)牲畜是否生病,從而提前防治;醫(yī)院能使用歷史醫(yī)療記錄基于數(shù)據(jù)挖掘技術(shù)找出規(guī)律,有利于醫(yī)生更好地診斷疾病。
以下是數(shù)據(jù)挖掘技術(shù)方法的相關(guān)介紹:
1、神經(jīng)**
神經(jīng)**由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲(chǔ)和高度容錯(cuò)等特性非常適合解決數(shù)據(jù)挖掘的問題,用于分類、預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)**模型。
2、遺傳算法
遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用。
3、決策樹方法
決策樹是一種常用于預(yù)測(cè)模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價(jià)值的,潛在的信息。它的主要優(yōu)點(diǎn)是描述簡(jiǎn)單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。
4、粗集方法
粗集理論是一種研究不**、不確定知識(shí)的數(shù)學(xué)工具。粗集方法有幾個(gè)優(yōu)點(diǎn):不需要給出額外信息;簡(jiǎn)化輸入信息的表達(dá)空間;算法簡(jiǎn)單,易于操作。粗集處理的對(duì)象是類似二維關(guān)系表的信息表。