CRM系統(tǒng):數(shù)據(jù)挖掘在企業(yè)CRM中的研究
數(shù)據(jù)挖掘在企業(yè)CRM中的研究
李忠
( 1 江南大學(xué); 2 常州高等職業(yè)技術(shù)學(xué)校, 江蘇常州213000)
摘要:本文主要介紹了數(shù)據(jù)挖掘的基本概念、功能分類以及數(shù)據(jù)挖掘技術(shù)在CRM中的典型應(yīng)用; 隨后文章選擇C4.5 算法
為本系統(tǒng)增加分析功能; 接著對(duì)C4.5 算法進(jìn)行了深入的研究與分析, 發(fā)現(xiàn)在計(jì)算速度以及生成結(jié)果的復(fù)雜性上有待改進(jìn), 在
此基礎(chǔ)上提出了改進(jìn)優(yōu)化的方法并用程序?qū)崿F(xiàn), 通過(guò)實(shí)驗(yàn)比較證明取得了良好的效果。在文章的最后用改進(jìn)后的C4.5 算法
為本CRM系統(tǒng)實(shí)現(xiàn)了客戶的保持分析功能。
關(guān)鍵詞: CRM; 數(shù)據(jù)挖掘; 改進(jìn)C4.5 算法; 功能; 處理
1 引言
客戶關(guān)系管理(Customer Relationship Management)的指導(dǎo)思
想就是對(duì)客戶進(jìn)行系統(tǒng)化的研究, 以便改進(jìn)對(duì)客戶的服務(wù)水平,
提高客戶的忠誠(chéng)度, 并因此為企業(yè)帶來(lái)更多的利潤(rùn)。這就要求
CRM系統(tǒng)要能夠在有效地獲取客戶的各種信息的同時(shí), 對(duì)客戶
的行為方式進(jìn)行深入地分析, 尋找其中的規(guī)律, 為客戶提供更
好、更個(gè)性化的服務(wù), 為企業(yè)決策提供支持。然而如何管理和分
析大量、龐雜的客戶信息, 從中找出對(duì)企業(yè)管理決策有價(jià)值的知
識(shí)則需要有更先進(jìn)的技術(shù)和工具的支持, 而數(shù)據(jù)挖掘等新興技
術(shù)的出現(xiàn), 為CRM的實(shí)施提供了良好的支持。
數(shù)據(jù)挖掘的功能以及方法有多種, 如關(guān)聯(lián)分析、分類、聚類和時(shí)
序模式等, 關(guān)聯(lián)分析可以用于交叉營(yíng)銷中的連帶銷售; 聚類一般
可以用于數(shù)據(jù)挖掘前數(shù)據(jù)的預(yù)處理; 而分類是CRM中運(yùn)用最為
廣泛的一種方式, 它可以被用于客戶細(xì)分、客戶獲取等方面, 本
文將使用分類方法為CRM系統(tǒng)實(shí)現(xiàn)客戶的保持功能, 在接下來(lái)
將重點(diǎn)討論數(shù)據(jù)挖掘的CMR 中的運(yùn)用。
2 典型算法分類與選擇
目前已經(jīng)出現(xiàn)了好幾種決策樹(shù)分類算法, 如: ID3; C4.5;
CHAID; CHART; SLIQ; SPRINT; PUBLIC 等, 現(xiàn)列出與本課題相
關(guān)的具有代表性的一些算法。
ID3 算法雖然是比較經(jīng)典也是最老的一種算法, 可是它存
在許多的不足: 一是它不能處理連續(xù)屬性值, 對(duì)于連續(xù)值屬性,
它都要把該屬性離散化, 這樣就大大降低了分類的精確度; 二是
算法過(guò)程不靈活, 不能處理有空缺值的樣本集合, 這就對(duì)訓(xùn)練樣
本集合的質(zhì)量提出很高的要求。三是生成的決策樹(shù)太大, 因?yàn)閷?duì)
于每個(gè)離散屬性如果作為分裂屬性, 如果有n 個(gè)屬性值, 那么就
會(huì)長(zhǎng)出n 個(gè)子樹(shù)。
SPRINT 算法是一種比較成熟的決策樹(shù)分類算法, 它幾乎克
服了以往已經(jīng)提出的算法中的一些缺憾, 可是該算法的側(cè)重點(diǎn)
在于處理超大形容量的數(shù)據(jù)。此算法可以不受到機(jī)器主存大小
的限制, 可以把數(shù)據(jù)在主存與輔存之間來(lái)回切換。本人認(rèn)為在本
文所建立的CRM系統(tǒng)中所處理的數(shù)據(jù)是與客戶有關(guān), 而象中小
型企業(yè)這樣的客戶容量遠(yuǎn)沒(méi)有這樣的大, 所以不建議使用該算
法。
C4.5 算法是Quinlan 的ID3 算法的改進(jìn)版本, 該算法克服
了ID3 中的缺憾, 能夠直接處理連續(xù)值屬性, 能夠處理有空缺值
的樣本集合。它從樹(shù)的根結(jié)點(diǎn)處的所有訓(xùn)練樣本開(kāi)始,選取一個(gè)
屬性來(lái)區(qū)分這些樣本。對(duì)屬性的每一個(gè)值產(chǎn)生一個(gè)分支, 分支屬
性值的相應(yīng)樣本子集被移到新生成的子結(jié)點(diǎn)上, 這個(gè)算法遞歸
地應(yīng)用于每個(gè)子結(jié)點(diǎn)上, 直到結(jié)點(diǎn)的所有樣本都分區(qū)到某個(gè)類
中, 到達(dá)決策樹(shù)的葉結(jié)點(diǎn)的每條路徑表示一個(gè)分類規(guī)則。這樣自
頂向下的決策樹(shù)的生成算法的關(guān)鍵性決策是對(duì)結(jié)點(diǎn)屬性值的選
擇。該算法簡(jiǎn)單易懂, 而且效率高, 這也正是我們所追求的目標(biāo)。
所以本文中, 我們選擇該算法為CRM實(shí)現(xiàn)客戶的保持分析功
能。
3 基于C4.5 算法的改進(jìn)
C4.5 算法雖然添加了對(duì)于有連續(xù)值的屬性的處理方法, 可
是在每個(gè)結(jié)點(diǎn)處都要對(duì)連續(xù)值進(jìn)行排序, 浪費(fèi)大量CPU 時(shí)間。
本文在C4.5 算法的基礎(chǔ)上引進(jìn)了SPRINT 算法中對(duì)于連續(xù)值的
處理方法, 采用屬性列表( attribute lists) 的方式對(duì)記錄集一次性
進(jìn)行排序。在表的數(shù)據(jù)集中, 我們?cè)谧x入內(nèi)存的過(guò)程中就將其
分解為兩個(gè)屬性的列表, 然后對(duì)有連續(xù)值的屬性進(jìn)行一次性的
排序。
強(qiáng)力推薦:
天柏客戶關(guān)系管理系統(tǒng)
天柏客戶關(guān)系管理系統(tǒng)(CRM)是一款集專業(yè)性、實(shí)用性、易用性為一體的純B/S架構(gòu)的CRM系統(tǒng),它基于以客戶為中心的協(xié)同管理思想和營(yíng)銷理念,圍繞客戶生命周期的整個(gè)過(guò)程,針對(duì)不同價(jià)值的客戶實(shí)施以客戶滿意為目標(biāo)的營(yíng)銷策略,通過(guò)企業(yè)級(jí)協(xié)同,有效的“發(fā)現(xiàn)、保持和留住客戶”,從而達(dá)到留住客戶、提高銷售,實(shí)現(xiàn)企業(yè)利潤(rùn)最大化的目的。通過(guò)對(duì)客戶進(jìn)行7P的深入分析,即客戶概況分析(Profiling)、客戶忠誠(chéng)度分析(Persistency)、客戶利潤(rùn)分析(Profitability)、客戶性能分析(Performance)、客戶未來(lái)分析(Prospecting)、客戶產(chǎn)品分析(Product)、客戶促銷分析(Promotion)以及改善與管理企業(yè)銷售、營(yíng)銷、客戶服務(wù)和支持等與客戶關(guān)系有關(guān)的業(yè)務(wù)流程并提高各個(gè)環(huán)節(jié)的自動(dòng)化程度,從而幫助企業(yè)達(dá)到縮短銷售周期、降低銷售成本、擴(kuò)大銷售量、增加收入與盈利、搶占更多市場(chǎng)份額、尋求新的市場(chǎng)機(jī)會(huì)和銷售渠道,最終從根本上提升企業(yè)的核心競(jìng)爭(zhēng)力,使得企業(yè)在當(dāng)前激烈的競(jìng)爭(zhēng)環(huán)境中立于不敗之地。