書????名 | 統(tǒng)計挖掘與機器學(xué)習(xí)(原書第3版) | 出版社 | 機械工業(yè)出版社 |
---|---|---|---|
出版時間 | 2021年9月 |
第3版前言
第2版前言
致謝
關(guān)于作者
第1章 引論
第2章 數(shù)據(jù)處理相關(guān)學(xué)科:統(tǒng)計學(xué)和數(shù)據(jù)科學(xué)
第3章 變量評估的兩種基本數(shù)據(jù)挖掘方法
第4章 用于評估成對變量的基于CHAID的數(shù)據(jù)挖掘方法
第5章 校直數(shù)據(jù)的簡單性和可取性對建模十分重要
第6章 排序數(shù)據(jù)對稱化:提高數(shù)據(jù)預(yù)測能力的統(tǒng)計數(shù)據(jù)挖掘方法
第7章 主成分分析:多變量評估的統(tǒng)計數(shù)據(jù)挖掘方法
第8章 市場份額估算:一個特殊的數(shù)據(jù)挖掘案例
第9章 相關(guān)系數(shù)在[-1, 1]內(nèi)取值,是這樣嗎
第10章 邏輯斯諦回歸:回應(yīng)建模方法
第11章 無抽樣調(diào)研數(shù)據(jù)預(yù)測錢包份額
第12章 普通回歸:利潤建模的強大工具
第13章 回歸變量選擇方法:可忽略的問題和重要解決方案
第14章 用CHAID解讀邏輯斯諦回歸模型
第15章 回歸系數(shù)的重要性
第16章 相關(guān)系數(shù)均值:評估預(yù)測模型和預(yù)測變量重要性的統(tǒng)計數(shù)據(jù)挖掘指標(biāo)
第17章 交互變量指定CHAID模型
第18章 市場細分:邏輯斯諦回歸建模
第19章 市場細分:時間序列數(shù)據(jù)LCA
第20章 市場細分:理解細分群體的便捷途徑
第21章 統(tǒng)計回歸模型:理解模型的簡單方法
第22章 CHAID:填充缺失值的方法
第23章 大數(shù)據(jù)建模
第24章 藝術(shù)、科學(xué)、數(shù)字和詩歌
第25章 識別最佳客戶:描述性、預(yù)測性和相似性描述
第26章 營銷模型評估
第27章 十分位分析:視角與效果
第28章 T-C凈提升度模型:評估試驗組與對照組的營銷效果
第29章 自助法在營銷中的應(yīng)用:一種新的模型驗證方法
第30章 用自助法驗證邏輯斯諦回歸模型
第31章 營銷模型可視化:用數(shù)據(jù)深度挖掘模型
第32章 預(yù)測貢獻系數(shù):預(yù)測重要性的度量
第33章 建模是藝術(shù)、科學(xué)與詩的結(jié)合
第34章 獻給數(shù)據(jù)狂的數(shù)據(jù)分析12步法
第35章 遺傳回歸模型與統(tǒng)計回歸模型
第36章 數(shù)據(jù)重用:GenIQ模型的強大數(shù)據(jù)挖掘技術(shù)
第37章 數(shù)據(jù)挖掘技術(shù)——離群值的調(diào)整
第38章 過擬合的全新解決方案
第39章 回顧:為何校直數(shù)據(jù)如此重要
第40章 GenIQ模型的定義與應(yīng)用
第41章 如何為營銷模型選擇最佳變量
第42章 解讀無系數(shù)模型
第43章 文本挖掘:入門、示例及TXTDM軟件
第44章 一些我比較喜歡的統(tǒng)計子程序
譯后記 2100433B
本書創(chuàng)造性地匯編了數(shù)據(jù)挖掘技術(shù),將統(tǒng)計數(shù)據(jù)挖掘和機器學(xué)習(xí)數(shù)據(jù)挖掘進行了區(qū)分,對經(jīng)典和現(xiàn)代統(tǒng)計方法框架進行了擴展,以用于預(yù)測建模和大數(shù)據(jù)分析。本書在第2版的基礎(chǔ)上新增了13章,內(nèi)容涵蓋數(shù)據(jù)科學(xué)發(fā)展歷程、市場份額估算、無抽樣調(diào)研數(shù)據(jù)預(yù)測錢包份額、潛在市場細分、利用缺失數(shù)據(jù)構(gòu)建統(tǒng)計回歸模型、十分位分析評估數(shù)據(jù)的預(yù)測能力,以及一個無須精通自然語言處理就能使用的文本挖掘工具。本書適合數(shù)據(jù)挖掘從業(yè)者以及對機器學(xué)習(xí)數(shù)據(jù)挖掘感興趣的人閱讀。
你到啊里巴巴找吧 里面有很多這方面的信息的 投資不是很大
說明書 :隨著社會的發(fā)展,科技的進步,一系列新科技應(yīng)用在人們的日常生活中。上下樓梯自動化的研究也趨于熱門。我們運用了輪式機器人爬樓梯的原理進而設(shè)計了一種新型爬樓機,并在此基礎(chǔ)上...
所有的挖掘機都是液壓挖掘機。。。根據(jù)行走方式可以分為輪式挖掘機和履帶式挖掘機。。。
本書是數(shù)據(jù)挖掘和機器學(xué)習(xí)領(lǐng)域的經(jīng)典暢銷教材,被國內(nèi)外眾多名校選用。第4版新增了關(guān)于深度學(xué)習(xí)和概率方法的重要章節(jié),同時,備受歡迎的機器學(xué)習(xí)軟件Weka也再度升級。書中全面覆蓋了該領(lǐng)域的實用技術(shù),致力于幫助讀者理解不同技術(shù)的工作方式和應(yīng)用方式,從而學(xué)會在工程實踐和商業(yè)項目中解決真實問題。本書適合作為高等院校相關(guān)課程的教材,同時也適合業(yè)內(nèi)技術(shù)人員閱讀參考。
譯者序
前言
致謝
第一部分 數(shù)據(jù)挖掘基礎(chǔ)
第1章 緒論 2
1.1 數(shù)據(jù)挖掘和機器學(xué)習(xí) 2
1.1.1 描述結(jié)構(gòu)模式 3
1.1.2 機器學(xué)習(xí) 5
1.1.3 數(shù)據(jù)挖掘 6
1.2 簡單的例子:天氣問題和其他問題 6
1.2.1 天氣問題 6
1.2.2 隱形眼鏡:一個理想化的問題 8
1.2.3 鳶尾花:一個經(jīng)典的數(shù)值型數(shù)據(jù)集 9
1.2.4 CPU性能:引入數(shù)值預(yù)測 10
1.2.5 勞資協(xié)商:一個更真實的例子 11
1.2.6 大豆分類:一個經(jīng)典的機器學(xué)習(xí)的成功例子 12
1.3 應(yīng)用領(lǐng)域 14
1.3.1 Web挖掘 14
1.3.2 包含判斷的決策 15
1.3.3 圖像篩選 15
1.3.4 負載預(yù)測 16
1.3.5 診斷 17
1.3.6 市場和銷售 17
1.3.7 其他應(yīng)用 18
1.4 數(shù)據(jù)挖掘過程 19
1.5 機器學(xué)習(xí)和統(tǒng)計學(xué) 20
1.6 將泛化看作搜索 21
1.6.1 枚舉概念空間 22
1.6.2 偏差 22
1.7 數(shù)據(jù)挖掘和道德問題 24
1.7.1 再識別 24
1.7.2 使用個人信息 25
1.7.3 其他問題 26
1.8 拓展閱讀及參考文獻 26
第2章 輸入:概念、實例和屬性 29
2.1 概念 29
2.2 實例 31
2.2.1 關(guān)系 31
2.2.2 其他實例類型 34
2.3 屬性 35
2.4 輸入準(zhǔn)備 36
2.4.1 數(shù)據(jù)收集 37
2.4.2 ARFF格式 37
2.4.3 稀疏數(shù)據(jù) 39
2.4.4 屬性類型 40
2.4.5 缺失值 41
2.4.6 不正確的值 42
2.4.7 非均衡數(shù)據(jù) 42
2.4.8 了解數(shù)據(jù) 43
2.5 拓展閱讀及參考文獻 43
第3章 輸出:知識表達 44
3.1 表 44
3.2 線性模型 44
3.3 樹 46
3.4 規(guī)則 49
3.4.1 分類規(guī)則 49
3.4.2 關(guān)聯(lián)規(guī)則 52
3.4.3 包含例外的規(guī)則 53
3.4.4 表達能力更強的規(guī)則 54
3.5 基于實例的表達 56
3.6 聚類 58
3.7 拓展閱讀及參考文獻 59
第4章 算法:基本方法 60
4.1 推斷基本規(guī)則 60
4.2 簡單概率模型 63
4.2.1 缺失值和數(shù)值屬性 65
4.2.2 用于文檔分類的樸素貝葉斯 67
4.2.3 討論 68
4.3 分治法:創(chuàng)建決策樹 69
4.3.1 計算信息量 71
4.3.2 高度分支屬性 73
4.4 覆蓋算法:建立規(guī)則 74
4.4.1 規(guī)則與樹 75
4.4.2 一個簡單的覆蓋算法 76
4.4.3 規(guī)則與決策列表 79
4.5 關(guān)聯(lián)規(guī)則挖掘 79
4.5.1 項集 80
4.5.2 關(guān)聯(lián)規(guī)則 81
4.5.3 高效地生成規(guī)則 84
4.6 線性模型 86
4.6.1 數(shù)值預(yù)測:線性回歸 86
4.6.2 線性分類:logistic回歸 87
4.6.3 使用感知機的線性分類 89
4.6.4 使用Winnow的線性分類 90
4.7 基于實例的學(xué)習(xí) 91
4.7.1 距離函數(shù) 92
4.7.2 高效尋找最近鄰 92
4.7.3 討論 96
4.8 聚類 96
4.8.1 基于距離的迭代聚類 97
4.8.2 更快的距離計算 98
4.8.3 選擇簇的個數(shù) 99
4.8.4 層次聚類 100
4.8.5 層次聚類示例 101
4.8.6 增量聚類 102
4.8.7 分類效用 104
4.8.8 討論 106
4.9 多實例學(xué)習(xí) 107
4.9.1 聚集輸入 107
4.9.2 聚集輸出 107
4.10 拓展閱讀及參考文獻 108
4.11 Weka實現(xiàn) 109
第5章 可信度:評估學(xué)習(xí)結(jié)果 111
5.1 訓(xùn)練和測試 111
5.2 預(yù)測性能 113
5.3 交叉驗證 115
5.4 其他評估方法 116
5.4.1 留一交叉驗證法 116
5.4.2 自助法 116
5.5 超參數(shù)選擇 117
5.6 數(shù)據(jù)挖掘方法比較 118
5.7 預(yù)測概率 121
5.7.1 二次損失函數(shù) 121
5.7.2 信息損失函數(shù) 122
5.7.3 討論 123
5.8 計算成本 123
5.8.1 成本敏感分類 125
5.8.2 成本敏感學(xué)習(xí) 126
5.8.3 提升圖 126
5.8.4 ROC曲線 129
5.8.5 召回率–精確率曲線 130
5.8.6 討論 131
5.8.7 成本曲線 132
5.9 評估數(shù)值預(yù)測 134
5.10 最小描述長度原理 136
5.11 將MDL原理應(yīng)用于聚類 138
5.12 使用驗證集進行模型選擇 138
5.13 拓展閱讀及參考文獻 139
第二部分 高級機器學(xué)習(xí)方案
第6章 樹和規(guī)則 144
6.1 決策樹 144
6.1.1 數(shù)值屬性 144
6.1.2 缺失值 145
6.1.3 剪枝 146
6.1.4 估計誤差率 147
6.1.5 決策樹歸納法的復(fù)雜度 149
6.1.6 從決策樹到規(guī)則 150
6.1.7 C4.5:選擇和選項 150
6.1.8 成本–復(fù)雜度剪枝 151
6.1.9 討論 151
6.2 分類規(guī)則 152
6.2.1 選擇測試的標(biāo)準(zhǔn) 152
6.2.2 缺失值和數(shù)值屬性 153
6.2.3 生成好的規(guī)則 153
6.2.4 使用全局優(yōu)化 155
6.2.5 從局部決策樹中獲得規(guī)則 157
6.2.6 包含例外的規(guī)則 158
6.2.7 討論 160
6.3 關(guān)聯(lián)規(guī)則 161
6.3.1 建立頻繁模式樹 161
6.3.2 尋找大項集 163
6.3.3 討論 166
6.4 Weka 實現(xiàn) 167
第7章 基于實例的學(xué)習(xí)和線性模型的擴展 168
7.1 基于實例的學(xué)習(xí) 168
7.1.1 減少樣本集的數(shù)量 168
7.1.2 對噪聲樣本集剪枝 169
7.1.3 屬性加權(quán) 170
7.1.4 泛化樣本集 170
7.1.5 用于泛化樣本集的距離函數(shù) 171
7.1.6 泛化的距離函數(shù) 172
7.1.7 討論 172
7.2 擴展線性模型 173
7.2.1 最大間隔超平面 173
7.2.2 非線性類邊界 174
7.2.3 支持向量回歸 176
7.2.4 核嶺回歸 177
7.2.5 核感知機 178
7.2.6 多層感知機 179
7.2.7 徑向基函數(shù)網(wǎng)絡(luò) 184
7.2.8 隨機梯度下降 185
7.2.9 討論 186
7.3 局部線性模型用于數(shù)值預(yù)測 187
7.3.1 模型樹 187
7.3.2 構(gòu)建樹 188
7.3.3 對樹剪枝 188
7.3.4 名目屬性 189
7.3.5 缺失值 189
7.3.6 模型樹歸納的偽代碼 190
7.3.7 從模型樹到規(guī)則 192
7.3.8 局部加權(quán)線性回歸 192
7.3.9 討論 193
7.4 Weka實現(xiàn) 194
第8章 數(shù)據(jù)轉(zhuǎn)換 195
8.1 屬性選擇 196
8.1.1 獨立于方案的選擇 197
8.1.2 搜索屬性空間 199
8.1.3 具體方案相關(guān)的選擇 200
8.2 離散化數(shù)值屬性 201
8.2.1 無監(jiān)督離散化 202
8.2.2 基于熵的離散化 203
8.2.3 其他離散化方法 205
8.2.4 基于熵和基于誤差的離散化 205
8.2.5 將離散屬性轉(zhuǎn)換成數(shù)值屬性 206
8.3 投影 207
8.3.1 主成分分析 207
8.3.2 隨機投影 209
8.3.3 偏最小二乘回歸 209
8.3.4 獨立成分分析 210
8.3.5 線性判別分析 211
8.3.6 二次判別分析 211
8.3.7 Fisher線性判別分析 211
8.3.8 從文本到屬性向量 212
8.3.9 時間序列 213
8.4 抽樣 214
8.5 數(shù)據(jù)清洗 215
8.5.1 改進決策樹 215
8.5.2 穩(wěn)健回歸 215
8.5.3 檢測異常 216
8.5.4 一分類學(xué)習(xí) 217
8.5.5 離群點檢測 217
8.5.6 生成人工數(shù)據(jù) 218
8.6 將多分類問題轉(zhuǎn)換成二分類問題 219
8.6.1 簡單方法 219
8.6.2 誤差校正輸出編碼 220
8.6.3 集成嵌套二分法 221
8.7 校準(zhǔn)類概率 223
8.8 拓展閱讀及參考文獻 224
8.9 Weka實現(xiàn) 226
第9章 概率方法 228
9.1 基礎(chǔ) 228
9.1.1 最大似然估計 229
9.1.2 最大后驗參數(shù)估計 230
9.2 貝葉斯網(wǎng)絡(luò) 230
9.2.1 預(yù)測 231
9.2.2 學(xué)習(xí)貝葉斯網(wǎng)絡(luò) 233
9.2.3 具體算法 235
9.2.4 用于快速學(xué)習(xí)的數(shù)據(jù)結(jié)構(gòu) 237
9.3 聚類和概率密度估計 239
9.3.1 用于高斯混合模型的期望最大化算法 239
9.3.2 擴展混合模型 242
9.3.3 使用先驗分布聚類 243
9.3.4 相關(guān)屬性聚類 244
9.3.5 核密度估計 245
9.3.6 比較用于分類的參數(shù)、半?yún)?shù)和無參數(shù)的密度模型 245
9.4 隱藏變量模型 246
9.4.1 對數(shù)似然和梯度的期望 246
9.4.2 期望最大化算法 247
9.4.3 將期望最大化算法應(yīng)用于貝葉斯網(wǎng)絡(luò) 248
9.5 貝葉斯估計與預(yù)測 249
9.6 圖模型和因子圖 251
9.6.1 圖模型和盤子表示法 251
9.6.2 概率主成分分析 252
9.6.3 隱含語義分析 254
9.6.4 使用主成分分析來降維 255
9.6.5 概率LSA 256
9.6.6 隱含狄利克雷分布 257
9.6.7 因子圖 258
9.6.8 馬爾可夫隨機場 260
9.6.9 使用sum-product算法和max-product算法進行計算 261
9.7 條件概率模型 265
9.7.1 概率模型的線性和多項式回歸 265
9.7.2 使用先驗參數(shù) 266
9.7.3 多分類logistic回歸 268
9.7.4 梯度下降和二階方法 271
9.7.5 廣義線性模型 271
9.7.6 有序類的預(yù)測 272
9.7.7 使用核函數(shù)的條件概率模型 273
9.8 時序模型 273
9.8.1 馬爾可夫模型和N元法 273
9.8.2 隱馬爾可夫模型 274
9.8.3 條件隨機場 275
9.9 拓展閱讀及參考文獻 278
9.10 Weka實現(xiàn) 282
第10章 深度學(xué)習(xí) 283
10.1 深度前饋網(wǎng)絡(luò) 284
10.1.1 MNIST評估 284
10.1.2 損失和正則化 285
10.1.3 深層網(wǎng)絡(luò)體系結(jié)構(gòu) 286
10.1.4 激活函數(shù) 287
10.1.5 重新審視反向傳播 288
10.1.6 計算圖以及復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu) 290
10.1.7 驗證反向傳播算法的實現(xiàn) 291
10.2 訓(xùn)練和評估深度網(wǎng)絡(luò) 292
10.2.1 早停 292
10.2.2 驗證、交叉驗證以及超參數(shù)調(diào)整 292
10.2.3 小批量隨機梯度下降 293
10.2.4 小批量隨機梯度下降的偽代碼 294
10.2.5 學(xué)習(xí)率和計劃 294
10.2.6 先驗參數(shù)的正則化 295
10.2.7 丟棄法 295
10.2.8 批規(guī)范化 295
10.2.9 參數(shù)初始化 295
10.2.10 無監(jiān)督的預(yù)訓(xùn)練 296
10.2.11 數(shù)據(jù)擴充和合成轉(zhuǎn)換 296
10.3 卷積神經(jīng)網(wǎng)絡(luò) 296
10.3.1 ImageNet評估和深度卷積神經(jīng)網(wǎng)絡(luò) 297
10.3.2 從圖像濾波到可學(xué)習(xí)的卷積層 297
10.3.3 卷積層和梯度 300
10.3.4 池化層二次抽樣層以及梯度 300
10.3.5 實現(xiàn) 301
10.4 自編碼器 301
10.4.1 使用RBM預(yù)訓(xùn)練深度自編碼器 302
10.4.2 降噪自編碼器和分層訓(xùn)練 304
10.4.3 重構(gòu)和判別式學(xué)習(xí)的結(jié)合 304
10.5 隨機深度網(wǎng)絡(luò) 304
10.5.1 玻爾茲曼機 304
10.5.2 受限玻爾茲曼機 306
10.5.3 對比分歧 306
10.5.4 分類變量和連續(xù)變量 306
10.5.5 深度玻爾茲曼機 307
10.5.6 深度信念網(wǎng)絡(luò) 308
10.6 遞歸神經(jīng)網(wǎng)絡(luò) 309
10.6.1 梯度爆炸與梯度消失 310
10.6.2 其他遞歸網(wǎng)絡(luò)結(jié)構(gòu) 311
10.7 拓展閱讀及參考文獻 312
10.8 深度學(xué)習(xí)軟件以及網(wǎng)絡(luò)實現(xiàn) 315
10.8.1 Theano 315
10.8.2 Tensor Flow 315
10.8.3 Torch 315
10.8.4 CNTK 315
10.8.5 Caffe 315
10.8.6 DeepLearning4j 316
10.8.7 其他包:Lasagne、Keras以及cuDNN 316
10.9 Weka實現(xiàn) 316
第11章 有監(jiān)督和無監(jiān)督學(xué)習(xí) 317
11.1 半監(jiān)督學(xué)習(xí) 317
11.1.1 用以分類的聚類 317
11.1.2 協(xié)同訓(xùn)練 318
11.1.3 EM和協(xié)同訓(xùn)練 319
11.1.4 神經(jīng)網(wǎng)絡(luò)方法 319
11.2 多實例學(xué)習(xí) 320
11.2.1 轉(zhuǎn)換為單實例學(xué)習(xí) 320
11.2.2 升級學(xué)習(xí)算法 321
11.2.3 專用多實例方法 322
11.3 拓展閱讀及參考文獻 323
11.4 Weka實現(xiàn) 323
第12章 集成學(xué)習(xí) 325
12.1 組合多種模型 325
12.2 裝袋 326
12.2.1 偏差–方差分解 326
12.2.2 考慮成本的裝袋 327
12.3 隨機化 328
12.3.1 隨機化與裝袋 328
12.3.2 旋轉(zhuǎn)森林 329
12.4 提升 329
12.4.1 AdaBoost算法 330
12.4.2 提升算法的威力 331
12.5 累加回歸 332
12.5.1 數(shù)值預(yù)測 332
12.5.2 累加logistic回歸 333
12.6 可解釋的集成器 334
12.6.1 選擇樹 334
12.6.2 logistic模型樹 336
12.7 堆棧 336
12.8 拓展閱讀及參考文獻 338
12.9 Weka實現(xiàn) 339
第13章 擴展和應(yīng)用 340
13.1 應(yīng)用機器學(xué)習(xí) 340
13.2 從大型的數(shù)據(jù)集學(xué)習(xí) 342
13.3 數(shù)據(jù)流學(xué)習(xí) 344
13.4 融合領(lǐng)域知識 346
13.5 文本挖掘 347
13.5.1 文檔分類與聚類 348
13.5.2 信息提取 349
13.5.3 自然語言處理 350
13.6 Web挖掘 350
13.6.1 包裝器歸納 351
13.6.2 網(wǎng)頁分級 351
13.7 圖像和語音 353
13.7.1 圖像 353
13.7.2 語音 354
13.8 對抗情形 354
13.9 無處不在的數(shù)據(jù)挖掘 355
13.10 拓展閱讀及參考文獻 357
13.11 Weka實現(xiàn) 359
附錄A 理論基礎(chǔ) 360
附錄B Weka工作平臺 375
索引 388
參考文獻2100433B
本書通過講解監(jiān)督學(xué)習(xí)的兩大支柱——回歸和分類——將機器學(xué)習(xí)納入統(tǒng)一視角展開討論。書中首先討論基礎(chǔ)知識,包括均方、*小二乘和*大似然方法、嶺回歸、貝葉斯決策理論分類、邏輯回歸和決策樹。然后介紹新近的技術(shù),包括稀疏建模方法,再生核希爾伯特空間中的學(xué)習(xí)、支持向量機中的學(xué)習(xí)、關(guān)注EM算法的貝葉斯推理及其近似推理變分版本、蒙特卡羅方法、聚焦于貝葉斯網(wǎng)絡(luò)的概率圖模型、隱馬爾科夫模型和粒子濾波。此外,本書還深入討論了降維和隱藏變量建模。全書以關(guān)于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)架構(gòu)的擴展章節(jié)結(jié)束。此外,書中還討論了統(tǒng)計參數(shù)估計、維納和卡爾曼濾波、凸性和凸優(yōu)化的基礎(chǔ)知識,其中,用一章介紹了隨機逼近和梯度下降族的算法,并提出了分布式優(yōu)化的相關(guān)概念、算法和在線學(xué)習(xí)技術(shù)。