大數據建模分析培訓 以Weka實作

根據調查顯示,75%的企業在面臨擬定策略時,常常無法獲得即時且有根據的決策資訊。什麼樣的資料、要通過什麼樣的方法,才能快速便捷的提供對決策有價值的資訊,是現代企業所面臨最迫切性的問題。

在建模分析中,數據挖掘(Data Mining)技術無疑是最強有力的核心競爭力。數據挖掘強調與現有資訊系統的整合,以提供決策者做決策時所需的情報,或轉化成經營智慧,以作為調整營運策略方針的輔助工具。以顧客關係管理(CRM)為例,數據挖掘是整個顧客關係管理的核心。其不但可以準確的定位目標市場,進行精準行銷,還可以說明業務人員瞭解客戶深層需求,針對大量客戶進行客制化,也就是所謂的一對一行銷。

本課程的目的就是要針對數據挖掘整套流程,以金融、電信、電商和零售業為案例背景深入講授數據挖掘的主要演算法。並有效的結合WEKA (Open Source)於課程之中,讓學員勝任全方位的數據挖掘運用場景。

課程收益

(1)瞭解什麼是數據挖掘(Data Mining);

(2)掌握數據挖掘技術的功能分類;

(3)掌握數據挖掘技術的績效增益;

(4)瞭解數據挖掘技術的產業標準;

(5)掌握如何利用數據挖掘技術來篩選關鍵變數(Key Attribute);

(6)掌握如何利用數據挖掘技術來進行交叉銷售(Cross-Selling);

(7)掌握如何利用數據挖掘技術來評估客戶的信用風險(Credit Risk);

(8)瞭解如何利用數據挖掘技術來分析顧客行為、產生商業智慧並發展行銷策略。

(9)掌握如何使用數據挖掘工具WEKA(Open Source)來完成上述的各項工作。

(10)掌握商業數據挖掘完整流程並作出邏輯嚴密的資料報告。

招生對象

1)各行業資料分析、數據挖掘從業者
2)金融、電信、零售、醫學等各行業業務資料分析人員
3)政府事業單位大資料及數據挖掘專案人員
4)數據挖掘崗位就業、提拔漲薪、技能優化等從業人員
5)對數據挖掘感興趣的各界人員

課程大綱

  主題 企業使用之範圍 理論介紹

第1天

數據挖掘
基礎

說明企業如何利用數據挖掘來進行行銷活動及信用風險控管

  • 數據挖掘在政府部門及各行業的應用
  • 數據挖掘的起源、定義及目標
  • 數據挖掘的發展歷程
  • 資料庫中的知識發掘步驟(KDD)
  • 數據挖掘技術的產業標準(CRISP DM)
  • 數據挖掘技術的功能分類
  • 數據挖掘相關網站介紹(KDnuggets & Kaggle)

WEKA實作,使用資料集:信用評等資料集、天氣資料集、玻璃製品資料集

第一天
第二天

基礎
數據挖掘
及資料前
處理技術

說明企業如何利用資料前處理技術來進行資料的重整,建置資料倉庫,以作為數據挖掘之輸入

  • 敘述性統計及視覺化技術
  • 案例為本的學習(Case-based Learning): KNN(K Nearest Neighbors)
  • 資料前處理(Data Preprocessing)技術
  • 欄位選擇(Attribute Selection)
    *數據整合(Data Integration)
    *資料探索(Data Explore)
    *數據過濾(Data Filtering)
  • 數據清洗(Data Cleansing):
    *錯誤值(Wrong Value)的偵測及處理
    *離群值(Outlier)的偵測及處理
    *缺失值(Missing Value)的偵測及處理
  • 欄位擴充(Attribute Enrichment):
    *內/外部資料的擴充方法
  • 資料編碼(Data Coding):
    *數據正規化(Data Normalization)
    *數據一般化(Data Generalization)
    *數據連續性指派(Data Arbitrarily Assignment)
    *數據離散化(Data Discretization)
    *資料精簡(Record Reduction)
    *域值精簡(Attribute Value Reduction)
    *欄位精簡(Attribute Reduction)

WEKA實作,使用資料集:新車設計資料集、信用評等資料集、藥物治療資料集、電信客戶流失資料集、鳶尾花資料集、糖尿病資料集、電離層雷達偵測資料集

第二天

進階
數據挖掘
技術1

說明企業如何利用關鍵變數發掘技術來發掘對專案目標有效之關鍵變數,以做為數據挖掘之輸入變數

  • 訓練資料與測試資料的產生方法(隨機取樣切割法&分層抽樣切割法)
  • 無效變數(不相關變數&多餘變數)
  • 統計方式的變數選擇:
    *卡方檢定(Chi-square Test)
    *t檢定及ANOVA檢定(t Test & ANOVA Test)
  • 模型方式的變數選擇:
    *決策樹(Decision Tree)選擇法
    *羅吉斯回歸(Logistic Regression)選擇法
    *包裝法(Wrapper Methods)

WEKA實作,使用資料集:信用評等資料集、玻璃製品資料集

第三天

進階
數據挖掘
技術2

說明企業如何利用分類技術之貝式網路及決策樹來建立交叉銷售(Cross-Selling)模型,以提升公司獲利

  • 分類之簡單貝式網路(Naive Bayes)及貝式網路(Bayes Net)
  • 分類之決策樹(Decision Tree):ID3, C5.0, CART & CHAID
  • 分類模型的評估
    *混亂矩陣(正確率、回應率、捕捉率、F-指標)
    *Gain Chart, Lift Chart, Profit Chart

WEKA實作,使用資料集:銀行客戶行銷資料集、電信產品跨銷售(Cross-Selling)資料集、疾病診斷資料集、壽險推銷資料集、糖尿病預測資料集、乳癌資料集、天氣資料集、影像資料集

第三天

進階
數據挖掘
技術3

說明企業如何利用分類技術之神經網路、羅吉斯回歸來建立信用評分(Credit Scoring)模型,以降低公司損失

  • 分類之神經網路(Neural Network)
  • 分類之羅吉斯回歸(Logistic Regression)
  • 分類模型的評估
    *ROC Curve, AUC
    *GINI Index, KS

WEKA實作,使用資料集:細胞樣本資料集、零售促銷資料集、電信客戶分類(不同套餐選擇)資料集、電信客戶流失資料集、便利超商選點資料集、房價資料集、AISPACE神經網路系統介紹、視覺化工具(Boundary Visualizer)實作

第四天

進階
數據挖掘
技術4

說明企業如何利用預測(Prediction)技術之線性回歸、回歸樹及類神經網路來建立數值預測模型-如預測客戶之年收入,以利公司設計行銷活動

  • 預測之簡單線性回歸(Simple Linear Regression)、複回歸(Multiple Linear Regression)及相關係數(Correlation Coefficient)
  • 預測之回歸樹(Regression Tree)
  • 預測之類神經網路(Neural Network)-非線性回歸
  • 預測模型的效能評估(MAE, MSE, RMSE, R2, Adjusted R2, AIC & BIC)

WEKA實作,使用資料集:汽車油耗資料集、CPU效能資料集

第四天

進階
數據挖掘
技術5

說明企業如何利用聚類技術來建立客群分析模型,使企業針對不同客群,採用不同之行銷策略,讓銀行獲利最大化

  • 相似性的衡量及距離的計算
  • 階層式聚類(Hierarchical Clustering)
  • *單一鏈結法(Single Linkage Method)
    *完全鏈結法(Complete Linkage Method)
    *平均鏈結法(Average Linkage Method)
    *中心法(Centroid Method)
    *Ward’s法(Ward’s Method)
  • 分割式聚類(Partitioning Clustering)
    *K-中心(K-Means)法
    *自我組織映射(Self-Organizing Maps;SOM)法
    *兩步(Two-Steps)法
  • 群數的判斷(R2, Semi-Partial R2)

WEKA實作,使用資料集:銀行客戶資料集、鳶尾花資料集

第四天

進階
數據挖掘
技術6

說明企業如何利用關聯及序列分析技術來建立交叉銷售(Cross-Selling)及提升銷售(Up-Selling)模型,以提升公司獲利

  • 關聯規則的評估指標(支援度、信賴度及提升度)
  • 關聯分析(Association Analysis): Apriori演算法
  • 關聯規則的延伸(虛擬商品、負向關聯規則及相依性網路)
  • 序列分析的評估指標(支持度、信賴度)
  • 序列分析(Sequence Analysis): AprioriAll演算法
    序列分析的延伸(狀態移轉網路)

WEKA實作,使用資料集:零售購物籃資料集

操作案例

主要操作案例:

  1. 銀行客戶行銷案例:某銀行希望通過提供客戶對的行銷活動,在未來實現更多的獲利。此案例的目的是想根據以往的促銷活動,利用數據挖掘找出會對行銷活動有響應的客戶特徵,並根據建模的結果產生要郵寄的促銷客戶名單。
  2. 信用評等案例:某銀行希望根據客戶過去的貸款資料,利用數據挖掘來預測新的貸款者,核貸後會逾期的機率,以做為銀行是否核貸的依據,或提供給客戶其他類型的貸款產品。
  3. 電信客戶分類(不同套餐選擇)案例:某電信服務提供者通過客戶使用服務的方式,將客戶分為四類人。此案例的目的是想根據人口統計資料,利用數據挖掘找出這四類人的特徵,並發掘這四類人的潛在新客戶。
  4. 電信客戶流失案例:某電信服務提供者非常關注是否客戶會流失到競爭對手。假如服務使用的資料可以用來預測哪些客戶有可能被轉移到另一個提供商,則此提供商可提供客制化的優惠,以盡可能留住客戶。此案例的目的是想根據服務使用的資料,利用數據挖掘來預測客戶的流失。
  5. 新車設計案例:某汽車製造商開發兩種新車(汽車及卡車)的原型。在將新車型引入至產品系列之前,該製造商想知道競爭對手已經上市的車輛中,哪些與這兩款產品的原型最為相似,以確定這兩種新車將與哪些車型展開競爭。

次要操作案例:

  1. 天氣(Weather)案例
  2. 玻璃製品(Glass)案例
  3. 電信產品跨銷售(Cross-Selling)案例
  4. 藥物治療(Drag Diagnosis)案例
  5. 糖尿病(Diabetes)案例
  6. 乳癌(Breast Cancer)案例
  7. 臨床路徑選擇(Clinical Path)案例
  8. 電離層雷達偵測(Ionosphere)案例
  9. 壽險推銷(Insurance Promotion)案例
  10. 影像分類(Image)案例
  11. 便利超商選點(Convenient Store)案例
  12. 零售促銷預測(Retail Promotion)案例
  13. 房價(Home Price)預測案例
  14. 汽車油耗(MPG)預測案例
  15. CPU效能(CPU Performance)預測案例
  16. 銀行客戶購買金融商品(Financial Product)之關聯分析(Association Analysis)案例
  17. 文具(Stationery)及健康美容(Health & Beauty)用品之關聯分析(Association Analysis)案例
  18. 銀行客戶購買金融商品(Financial Product)之序列分析(Sequential Analysis)案例

 

時數費用

24小時 / 24000元 ,優惠價 16000元

特別說明

以上課程內容,本中心保留變更及調整的權利

課程洽詢

askhead承辦人:沈小姐 電話:(02)66316583 E-Mail:
地 址:台北市復興南路一段390號2樓 傳真:(02)66316598

課程資訊