主講老師: | 傅一航 | ![]() |
課時安排: | 1天/6小時 | |
學習費用: | 面議 | |
課程預約: | 隋老師 ![]() |
|
課程簡介: | 1、 掌握數據建模的標準流程。 2、 掌握各種分類預測模型的原理,以及算法實現。 3、 掌握各種分類模型類的重要參數,以及應用。 | |
內訓課程分類: | 綜合管理 | 人力資源 | 市場營銷 | 財務稅務 | 基層管理 | 中層管理 | 領導力 | 管理溝通 | 薪酬績效 | 企業文化 | 團隊管理 | 行政辦公 | 公司治理 | 股權激勵 | 生產管理 | 采購物流 | 項目管理 | 安全管理 | 質量管理 | 員工管理 | 班組管理 | 職業技能 | 互聯網+ | 新媒體 | TTT培訓 | 禮儀服務 | 商務談判 | 演講培訓 | 宏觀經濟 | 趨勢發展 | 金融資本 | 商業模式 | 戰略運營 | 法律風險 | 沙盤模擬 | 國企改革 | 鄉村振興 | 黨建培訓 | 保險培訓 | 銀行培訓 | 電信領域 | 房地產 | 國學智慧 | 心理學 | 情緒管理 | 時間管理 | 目標管理 | 客戶管理 | 店長培訓 | 新能源 | 數字化轉型 | 工業4.0 | 電力行業 | | |
更新時間: | 2023-09-01 11:27 |
【課程目標】
本課程主要講解如何利用Python進行時間序列的數據建模。
通過本課程的學習,達到如下目的:
1、 掌握數據建模的標準流程。
2、 掌握各種分類預測模型的原理,以及算法實現。
3、 掌握各種分類模型類的重要參數,以及應用。
4、 掌握模型的評估指標、評估方法,以及過擬合評估。
5、 掌握模型優化的基本方法,學會超參優化。
6、 掌握集成優化思想,掌握高級的分類模型。
7、
【授課時間】
2-5天時間
(要根據學員的實際情況調整重點內容及時間)
【授課對象】
業務支持部、IT系統部、大數據系統開發部、大數據分析中心、網絡運維部等相關技術人員。
【學員要求】
1、 每個學員自備一臺便攜機(必須)。
2、 便攜機中事先安裝好Python 3.9版本及以上。
3、 安裝好Numpy,Pandas,statsmodels,sklearn,scipy等常用庫。
注:講師現場提供分析的數據源。
【授課方式】
建模流程+ 案例演練 + 開發實踐 + 可視化呈現
采用互動式教學,圍繞業務問題,展開數據分析過程,全過程演練操作,讓學員在分析、分享、講授、總結、自我實踐過程中獲得能力提升。
【課程大綱】
1、 數據建模六步法
? 選擇模型:基于業務選擇恰當的數據模型
? 屬性篩選:選擇對目標變量有顯著影響的屬性來建模
? 訓練模型:采用合適的算法,尋找到最合適的模型參數
? 評估模型:進行評估模型的質量,判斷模型是否可用
? 優化模型:如果評估結果不理想,則需要對模型進行優化
? 應用模型:如果評估結果滿足要求,則可應用模型于業務場景
2、 數據挖掘常用的模型
? 數值預測模型:回歸預測、時序預測等
? 分類預測模型:邏輯回歸、決策樹、神經網絡、支持向量機等
? 市場細分:聚類、RFM、PCA等
? 產品推薦:關聯分析、協同過濾等
? 產品優化:回歸、隨機效用等
? 產品定價:定價策略/最優定價等
3、 屬性篩選/特征選擇/變量降維
? 基于變量本身特征
? 基于相關性判斷
? 因子合并(PCA等)
? IV值篩選(評分卡使用)
? 基于信息增益判斷(決策樹使用)
4、 訓練模型及實現算法
? 模型原理
? 算法實現
5、 模型評估
? 評估指標
? 評估方法
? 過擬合評估
6、 模型優化
? 優化模型:選擇新模型/修改模型
? 優化數據:新增顯著自變量
? 優化公式:采用新的計算公式
7、 模型應用
? 模型解讀
? 模型部署
? 模型應用
8、 好模型是優化出來的
1、 三個方面評估:指標、方法、過擬合
2、 兩大矩陣
? 混淆矩陣
? 代價矩陣
3、 六大指標
? 正確率Accuracy
? 查準率Precision
? 查全率Recall
? 特異度Specify
? F度量值(/
)
? 提升指標lift
4、 三條曲線
? ROC曲線和AUC
? PR曲線和BEP
? KS曲線和KS值
5、 多分類模型評估指標
? 宏指標:macro_P, macro_R
? 宏指標:micro_P, micro_R
6、 模型評估方法
? 原始評估法
? 留出法(Hold-Out)
? 交叉驗證法(k-fold cross validation)
? 自助采樣法(Bootstrapping)
7、 其它評估
? 過擬合評估:學習曲線
? 殘差評估:白噪聲評估
問題:如何評估客戶購買產品的可能性?如何預測客戶行為?
如何預測客戶流失?銀行如何實現欠貸風險控制?
1、 邏輯回歸模型簡介
2、 邏輯回歸的種類
? 二項邏輯回歸
? 多項邏輯回歸
3、 邏輯回歸方程解讀
4、 帶分類自變量的邏輯回歸
5、 邏輯回歸的算法實現及優化
? 迭代樣本的隨機選擇
? 變化的學習率
6、 邏輯回歸+正則項
7、 求解算法與懲罰項的互斥關系
8、 多元邏輯回歸處理
? ovo
? ovr
9、 邏輯回歸建模過程
案例:用sklearn庫實現銀行貸款違約預測
案例:訂閱者用戶的典型特征(二元邏輯回歸)
案例:通信套餐的用戶畫像(多元邏輯回歸)
1、 分類決策樹簡介
演練:識別銀行欠貨風險,提取欠貸者的特征
2、 決策樹的三個關鍵問題
? 最優屬性選擇
2 熵、基尼系數
2 信息增益、信息增益率
? 屬性最佳劃分
2 多元劃分與二元劃分
2 連續變量最優劃分
? 決策樹修剪
2 剪枝原則
2 預剪枝與后剪枝
3、 構建決策樹的算法
? C5.0、CHAID、CART、QUEST
? 各種算法的比較
4、 決策樹的超參優化
5、 決策樹的解讀
6、 決策樹建模過程
案例:商場酸奶購買用戶特征提取
案例:客戶流失預警與客戶挽留
案例:識別拖欠銀行貨款者的特征,避免不良貨款
案例:識別電信詐騙者嘴臉,讓通信更安全
案例:電力竊漏用戶自動識別
1、 神經網絡簡介(ANN)
2、 神經元基本原理
? 加法器
? 激活函數
3、 神經網絡的結構
? 隱藏層數量
? 神經元個數
4、 神經網絡的建立步驟
5、 神經網絡的關鍵問題
6、 BP算法實現
7、 MLP多層神經網絡
案例:評估銀行用戶拖欠貨款的概率
案例:神經網絡預測產品銷量
1、 判別分析簡介
? 基本思想
2、 判別分析種類
3、 判別分析算法
? 類間散席
? 類內散席
4、 LDA線性判別模型
5、 多分類判別分析
案例:MBA學生錄取判別分析
案例:上市公司類別評估
1、 KNN的基本原理
2、 K近鄰的關鍵問題
3、 K近鄰的實現算法
? Brute暴力計算
? Kd_tree
? Ball_tre
1、 貝葉斯簡介
2、 貝葉斯分類原理
? 先驗概率和后驗概率
? 條件概率和類概率
3、 常見貝葉斯網絡
4、 計算類別屬性的條件概率
5、 估計連續屬性的條件概率
6、 預測分類概率(計算概率)
7、 拉普拉斯修正
案例:評估銀行用戶拖欠貨款的概率
1、 支持向量機簡介
? 適用場景
2、 支持向量機原理
? 支持向量
? 最大邊界超平面
3、 線性不可分處理
? 松弛系數
4、 非線性SVM分類
5、 常用核函數
? 線性核函數
? 多項式核
? 高斯RBF核
? 核函數的選擇原則
6、 SMO算法
1、 模型的優化思想
2、 集成模型的框架
? Bagging
? Boosting
? Stacking
3、 集成算法的關鍵過程
? 弱分類器如何構建
? 組合策略:多個弱學習器如何形成強學習器
4、 Bagging集成算法
? 數據/屬性重抽樣
? 決策依據:少數服從多數
? 隨機森林RandomForest
5、 Boosting集成算法
? 基于誤分數據建模
? 樣本選擇權重更新
? 決策依據:加權投票
? AdaBoost模型
6、 GBDT模型
7、 XGBoost模型
8、 LightGBM模型
1、 客戶流失預測和客戶挽留模型
2、 銀行欠貸風險預測模型
結束:課程總結與問題答疑。
京公網安備 11011502001314號