CRM系統(tǒng):基于SAS 數(shù)據(jù)挖掘技術的航空CRM系統(tǒng)分析
基于SAS 數(shù)據(jù)挖掘技術的航空CRM系統(tǒng)分析
奉國和
(華南師范大學經濟管理學院信息管理系 廣州 510006)
摘 要 數(shù)據(jù)挖掘是實施客戶關系管理強有力的手段,而SAS 是一整套有效的數(shù)據(jù)挖掘技術平臺。通過運用SAS 設
計三層客戶關系管理應用系統(tǒng)和與航空業(yè)務緊密相關的幾大數(shù)據(jù)挖掘模塊,幫助公司設計有針對性的服務、銷售與管
理辦法,提高客戶服務水平,大幅度降低客戶維護費用與促銷成本,爭取公司利潤最大化。
關鍵詞 客戶關系管理 SAS 數(shù)據(jù)挖掘 航空系統(tǒng)
航空業(yè)激烈競爭,促使航空公司采用先進技術加大管理力
度,爭取優(yōu)質服務。而實施客戶關系管理系統(tǒng)是公司提高管理
的重要一環(huán),其中數(shù)據(jù)挖掘是實施客戶關系管理系統(tǒng)的核心技
術,尋找成熟的數(shù)據(jù)挖掘技術和平臺快速構建公司的信息分析
應用系統(tǒng)是每個企業(yè)的期望。SAS 系統(tǒng)是大型集成式軟件包,
在數(shù)據(jù)管理、數(shù)據(jù)挖掘、查詢分析等方面具有很強的優(yōu)勢,能非
常方便地構建企業(yè)信息分析應用系統(tǒng)。運用SAS 搭建航空公
司的客戶關系管理系統(tǒng),為航空公司優(yōu)化決策管理必將提供有
力保障。
1 數(shù)據(jù)挖掘理論
數(shù)據(jù)挖掘(Data Mining) 是指從大量的數(shù)據(jù)中提取出可信、
新穎、有效并能被人們所理解的、潛在的模式、規(guī)律或趨勢的高
級處理過程。它融合了數(shù)據(jù)庫、人工智能、機器學習、統(tǒng)計學等
多個領域的理論和技術,在理論研究領域也被稱為數(shù)據(jù)庫中的
知識發(fā)現(xiàn)( Knowledge Discovery in Database ,KDD) 。數(shù)據(jù)挖掘模
式一般分為以下幾種類型:
1. 1 概念或類描述 概念或類描述通過數(shù)據(jù)特征化即匯總
所研究的數(shù)據(jù)、數(shù)據(jù)區(qū)分將目標與一個或多個比較類比較、數(shù)
據(jù)特征化和比較得到。
1. 2 關聯(lián)分析 關聯(lián)分析的目的就是為了挖掘出隱藏在數(shù)
據(jù)間的相互關系。在數(shù)據(jù)挖掘研究領域,對于關聯(lián)分析的研究
開展得比較深入,人們提出了多種關聯(lián)規(guī)則的挖掘算法,如
APRIORI、STEM、AIS、DHP 等算法。
1. 3 序列模式分析 序列模式分析和關聯(lián)分析相似,其目
的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側重點在
于分析數(shù)據(jù)間的前后序列關系。序列模式分析描述的問題是:
在給定交易序列數(shù)據(jù)庫中,每個序列是按照交易時間排列的一
組交易集,挖掘序列函數(shù)作用在這個交易序列數(shù)據(jù)庫上,返回
該數(shù)據(jù)庫中出現(xiàn)的高頻序列。在進行序列模式分析時,同樣也
需要由用戶輸入最小置信度C 和最小支持度S。
1. 4 分類和預測分析 假定記錄集合和一組標記( TAG) ,
所謂標記是指一組具有不同特征的類別。分類分析首先為每
一個記錄賦予一個標記,即按標記分類記錄,然后檢查這些標
記的記錄,描述出這些記錄的特征。這種描述可能是顯式的,
例如一組規(guī)則定義;或者是隱式的,例如一個數(shù)學模型或公式。
目前,已有很多種分類分析模型得到應用,其中的幾種典型模
型為線性回歸模型、決策樹模型、基于規(guī)則模型、神經網(wǎng)絡模型
和支持向量機模型。
1. 5 聚類分析 與分類分析不同,聚類分析輸入的是一組
未分類記錄,并且這些記錄應分成幾類事先也不知道。聚類分
析就是通過分析數(shù)據(jù)庫中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,
合理地劃分記錄集合,確定每個記錄所在類別。它所采用的分
類規(guī)則是由聚類分析工具決定的。聚類分析的方法很多,其中
包括系統(tǒng)聚類法、分解法、加入法、動態(tài)聚類法、模糊聚類法、運
籌方法等。采用不同的聚類方法,對于相同的記錄集合可能有
不同的劃分結果。
1. 6 孤立點分析 孤立點分析是一種發(fā)現(xiàn)異常數(shù)據(jù)的方
法,數(shù)據(jù)庫中往往包含一些數(shù)據(jù)對象,他們與數(shù)據(jù)的一般行為
或模型不一致,這些數(shù)據(jù)對象就是孤立點(Outlier) 。應用中異
常的數(shù)據(jù)點可能比正常數(shù)據(jù)點更有用或者更有趣,比如孤立點
可以發(fā)現(xiàn)信用卡欺騙,也可以發(fā)現(xiàn)黃金客戶。
1. 7 演變分析 演變分析描述行為隨時間變化的對象的規(guī)
律或趨勢,包括時間序列數(shù)據(jù)分析、序列或周期模式匹配等。
數(shù)據(jù)挖掘最吸引人的地方是它能建立預測模型而不是回顧型
的模型,表1 是傳統(tǒng)工具與數(shù)據(jù)挖掘工具比較。
2 SAS 數(shù)據(jù)挖掘工程方法
美國SAS 研究所在多年的數(shù)據(jù)處理研究工作中積累了一
套行之有效的數(shù)據(jù)挖掘方法———SEMMA。
2. 1 Sample :數(shù)據(jù)取樣 當進行數(shù)據(jù)挖掘時,先要從企業(yè)大
量數(shù)據(jù)中取出一個與要探索問題相關的樣板數(shù)據(jù)子集,而不是
動用全部企業(yè)數(shù)據(jù)。通過數(shù)據(jù)取樣,要把好數(shù)據(jù)的質量關,一
定要保證取樣的代表性、真實性、完整性和有效性。這樣才能
通過此后的分析研究得出反映本質規(guī)律性的結果。
2. 2 Explore :數(shù)據(jù)特征探索、分析和予處理 當拿到了一個
樣本數(shù)據(jù)集后,分析它是否達到原來設想的要求,其中有沒有
什么明顯的規(guī)律和趨勢,有沒有出現(xiàn)你所從未設想過的數(shù)據(jù)狀
態(tài),因素之間有什么相關性,它們可區(qū)分成怎樣一些類別,這都
是要首先探索的內容。進行數(shù)據(jù)特征的探索、分析,最好是能
進行可視化的操作,如SAS 的SAS/ INSIGHT 和SAS/ SPEC2
TRAVIEW。這兩個產品提供了可視化數(shù)據(jù)操作的最強有力的
工具、方法和圖形。它們不僅能做各種不同類型的統(tǒng)計分析顯
示,而且可做多維、動態(tài)甚至旋轉的顯示。應用這兩個工具對
樣本數(shù)據(jù)進行預分析,推測主要的數(shù)據(jù)、異常趨勢和規(guī)律性。
2. 3 Modify :問題明確化、數(shù)據(jù)調整和技術選擇 通過Sam2
ple 和Explore 兩步之后,對原來要解決的問題可能會有了進一
步的明確,這時要盡可能對問題解決的要求能進一步量化。在
問題進一步明確化的基礎上,可以按照問題的具體要求來審視
數(shù)據(jù)集,看它是否適應問題的需要。針對問題的需要,可能要
對數(shù)據(jù)進行增刪,也可能按照你對整個數(shù)據(jù)挖掘過程的新認
識,組合或者生成一些新的變量,以體現(xiàn)對狀態(tài)的有效描述。
SAS 對數(shù)據(jù)強有力的存取、管理和操作的能力保證了對數(shù)據(jù)的
調整、修改和變動的可能性。
2. 4 Model :模型的研發(fā)、知識的發(fā)現(xiàn) 數(shù)理統(tǒng)計方法是數(shù)據(jù)
挖掘工作中最常用的主流技術手段。SAS/ STAT 軟件包中就
覆蓋了所有的實用數(shù)理統(tǒng)計方法,提供了十多個過程可進行各
種不同類型模型、不同特點數(shù)據(jù)的回歸分析,如正交回歸、響應
面回歸、Logistic 回歸、非線性回歸等,且有多種形式模型化的方
法選擇。可處理的數(shù)據(jù)有實型數(shù)據(jù)、有序數(shù)據(jù)和屬性數(shù)據(jù),并
能產生各種有用的統(tǒng)計量和診斷信息。在方差分析方面,SAS/
STAT 為多種試驗設計模型提供了方差分析工具,它還有處理
一般線性模型和廣義線性模型的專用過程。在多變量統(tǒng)計分
析方面,SAS/ STAT 為主成分分析、典型相關分析、判別分析和
因子分析提供了許多專用過程。SAS/ STAT 含有多種聚類準
則的聚類分析方法,利用SAS/ STAT 可進行生存分析。
這些工具不僅能揭示企業(yè)已有數(shù)據(jù)間的新關系、隱藏著的
規(guī)律性,而且能反過來預測它的發(fā)展趨勢,或是在一定條件下
將會出現(xiàn)什么結果。另外,SAS 人工神經元網(wǎng)絡和決策樹的方
法結合起來可用于從相關性不強的多變量中選出重要的變量。
2. 5 Assess :模型和知識的綜合解釋和評價 從上述過程中
將會得出一系列的分析結果、模式或模型。若能得出一個直接
的結論當然很好,但更多的時候會得出對目標問題多側面的描
述。這時就要能很好地綜合它們的影響規(guī)律性,提供合理的決
策支持信息。所謂合理,實際上往往是要你在所付出的代價和
達到預期目標的可靠性的平衡上作出選擇。假如在數(shù)據(jù)挖掘
過程中就預見到最后要進行這樣的選擇的話,那么最好把這些
平衡的指標盡可能地量化,以利于綜合抉擇。
決策支持信息適用性如何,是個十分重要的問題。SAS 軟
件除了在數(shù)據(jù)處理過程中提供給許多檢驗參數(shù)外,評價的另一
辦法是直接使用原來建立模型的樣板數(shù)據(jù)來進行檢驗。一般
來說,在這一步得到較好評價,說明確實從這批數(shù)據(jù)樣本中挖
掘出了符合實際的規(guī)律性。
3 基于SAS 的系統(tǒng)構架
整個系統(tǒng)基于B/ S 結構,前端應用基于Java 技術實現(xiàn),系
統(tǒng)分為數(shù)據(jù)服務器、Web 應用服務器、Web 客戶端三個層次。
應用服務器起到封裝業(yè)務邏輯、支持前端應用、隔離用戶和數(shù)
據(jù)等作用。在工作壓力不大的情況下,數(shù)據(jù)服務器和應用服務
器可以部署到同一臺物理服務器上。SAS 平臺的B/ S 系統(tǒng)架
構圖如圖1 所示。
圖1 SAS 平臺的B/ S 系統(tǒng)架構圖
在B/ S 架構下,應用服務器采用SAS/ AppDev Studio 開發(fā)
套件。SAS/ AppDev Studio 套件是SAS 公司的基于Java 中間件
技術的應用服務器組件包。其中包括了Java 開發(fā)環(huán)境、應用/
Web 服務器產品,以及一整套功能全面的SAS 擴展類庫。通過
這套類庫可以支持各種通用的或SAS 專有的訪問接口,借助這
些接口可以實現(xiàn)各種數(shù)據(jù)訪問和統(tǒng)計分析功能。數(shù)據(jù)服務器
底層的通訊服務組件換成了傳統(tǒng)的SAS/ SHARE 和SAS/ CON2
NECT。借助SAS/ AppDev Studio 套件中的接口支持,前臺應用
可以通過JDBC 接口連接SAS/ SHARE 組件獲得數(shù)據(jù)服務,或
通過J - CONNECT 接口連接SAS/ CONNECT 組件獲得計算服
務。
4 系統(tǒng)總體設計目標
4. 1 數(shù)據(jù)通道集中、獨立 建立集中、獨立的數(shù)據(jù)采集通
道,實現(xiàn)相關業(yè)務數(shù)據(jù)的自動獲取和連續(xù)積累,采用數(shù)據(jù)統(tǒng)一
管理的整體構想,通過對業(yè)務系統(tǒng)數(shù)據(jù)的自動抽取、整合、分
析、加工,建立各類業(yè)務管理模型。
4. 2 確保實現(xiàn)資源共享 通過辦公自動化系統(tǒng)已有的內部
網(wǎng)絡結構,可以實時查詢各主題的分析數(shù)據(jù)報表和數(shù)據(jù)分析報
告,利用數(shù)據(jù)集中的優(yōu)勢,實現(xiàn)數(shù)據(jù)統(tǒng)一管理。
4. 3 集中采用元數(shù)據(jù)管理,實現(xiàn)功能參數(shù)化 功能邏輯的
改變不影響到程序,只需修改參數(shù),這樣可以及時響應客戶的
新需求,提高工作效率。
4. 4 安全機制 建立完善的系統(tǒng)安全和數(shù)據(jù)安全控制機
制,對用戶采取集中授權的管理模式,基本實現(xiàn)安全管理的統(tǒng)
一化。
4. 5 數(shù)據(jù)挖掘技術 利用商業(yè)智能技術和數(shù)據(jù)挖掘技術對
業(yè)務數(shù)據(jù)進行及時、科學的匯總、分析和預測,實現(xiàn)分析自動
化,為領導分析決策提供真實、全面和準確的依據(jù)。
4. 6 經濟效益性 分析系統(tǒng)的建設是一項復雜的、長期不
斷發(fā)展的系統(tǒng)工程,因此在規(guī)劃建設過程中必須遵循長遠規(guī)
劃、逐步建設的指導方針。同時,在技術實現(xiàn)上,應采