書????名 | 深度學(xué)習(xí)500問——AI工程師面試寶典 | 作????者 | 談繼勇 |
---|---|---|---|
出版社 | 電子工業(yè)出版社 | 出版時(shí)間 | 2020年12月 |
頁(yè)????數(shù) | 484 頁(yè) | 定????價(jià) | 109.00 元 |
開????本 | 16 開 | ISBN | 9787121389375 |
第1章 數(shù)學(xué)基礎(chǔ) 1
1.1 向量和矩陣 1
1.1.1 標(biāo)量、向量、矩陣和張量 1
1.1.2 張量與矩陣的區(qū)別 2
1.1.3 矩陣和向量相乘的結(jié)果 2
1.1.4 向量和矩陣的范數(shù)歸納 2
1.1.5 判斷一個(gè)矩陣是否為正定矩陣 4
1.2 導(dǎo)數(shù)和偏導(dǎo)數(shù) 5
1.2.1 導(dǎo)數(shù)偏導(dǎo)計(jì)算 5
1.2.2 導(dǎo)數(shù)和偏導(dǎo)數(shù)的區(qū)別 6
1.3 特征值和特征向量 6
1.3.1 特征值分解 6
1.3.2 奇異值和特征值的關(guān)系 6
1.4 概率分布與隨機(jī)變量 7
1.4.1 機(jī)器學(xué)習(xí)為什么要使用概率 7
1.4.2 變量與隨機(jī)變量的區(qū)別 7
1.4.3 隨機(jī)變量與概率分布的聯(lián)系 8
1.4.4 離散型隨機(jī)變量和概率質(zhì)量函數(shù) 8
1.4.5 連續(xù)型隨機(jī)變量和概率密度函數(shù) 8
1.4.6 舉例理解條件概率 9
1.4.7 聯(lián)合概率與邊緣概率的區(qū)別和聯(lián)系 9
1.4.8 條件概率的鏈?zhǔn)椒▌t 10
1.4.9 獨(dú)立性和條件獨(dú)立性 10
1.5 常見概率分布 11
1.5.1 伯努利分布 11
1.5.2 高斯分布 11
1.5.3 何時(shí)采用正態(tài)分布 12
1.5.4 指數(shù)分布 12
1.5.5 Laplace分布 13
1.5.6 Dirac分布和經(jīng)驗(yàn)分布 13
1.6 期望、方差、協(xié)方差、相關(guān)系數(shù) 13
1.6.1 期望 13
1.6.2 方差 14
1.6.3 協(xié)方差 14
1.6.4 相關(guān)系數(shù) 15
第2章 機(jī)器學(xué)習(xí)基礎(chǔ) 16
2.1 基本概念 16
2.1.1 大話機(jī)器學(xué)習(xí)本質(zhì) 16
2.1.2 什么是神經(jīng)網(wǎng)絡(luò) 16
2.1.3 各種常見算法圖示 17
2.1.4 計(jì)算圖的導(dǎo)數(shù)計(jì)算 17
2.1.5 理解局部最優(yōu)與全局最優(yōu) 18
2.1.6 大數(shù)據(jù)與深度學(xué)習(xí)之間的關(guān)系 19
2.2 機(jī)器學(xué)習(xí)的學(xué)習(xí)方式 20
2.2.1 監(jiān)督學(xué)習(xí) 20
2.2.2 非監(jiān)督學(xué)習(xí) 20
2.2.3 半監(jiān)督學(xué)習(xí) 20
2.2.4 弱監(jiān)督學(xué)習(xí) 20
2.2.5 監(jiān)督學(xué)習(xí)模型的搭建步驟 21
2.3 分類算法 22
2.3.1 常用分類算法的優(yōu)缺點(diǎn) 22
2.3.2 分類算法的評(píng)估方法 23
2.3.3 正確率能否很好地評(píng)估分類算法 25
2.3.4 什么樣的分類器是最好的 26
2.4 邏輯回歸 26
2.4.1 回歸的種類 26
2.4.2 邏輯回歸適用性 27
2.4.3 邏輯回歸與樸素貝葉斯的區(qū)別 27
2.4.4 線性回歸與邏輯回歸的區(qū)別 27
2.5 代價(jià)函數(shù) 28
2.5.1 為什么需要代價(jià)函數(shù) 28
2.5.2 代價(jià)函數(shù)作用原理 28
2.5.3 常見代價(jià)函數(shù) 30
2.5.4 為什么代價(jià)函數(shù)要非負(fù) 31
2.5.5 為什么用交叉熵代替二次代價(jià)函數(shù) 31
2.6 損失函數(shù) 32
2.6.1 什么是損失函數(shù) 32
2.6.2 常見的損失函數(shù) 32
2.6.3 邏輯回歸為什么使用對(duì)數(shù)損失函數(shù) 34
2.6.4 對(duì)數(shù)損失函數(shù)如何度量損失 34
2.7 梯度下降法 35
2.7.1 梯度下降法的作用 36
2.7.2 梯度下降法的直觀理解 36
2.7.3 梯度下降法算法描述 37
2.7.4 梯度下降法的缺點(diǎn) 38
2.7.5 如何對(duì)梯度下降法進(jìn)行調(diào)優(yōu) 38
2.7.6 隨機(jī)梯度下降和批量梯度下降的區(qū)別 38
2.7.7 各種梯度下降法性能比較 40
2.8 線性判別分析 40
2.8.1 LDA思想總結(jié) 40
2.8.2 圖解LDA核心思想 41
2.8.3 二類LDA算法原理 41
2.8.4 LDA算法流程總結(jié) 42
2.8.5 LDA和PCA的異同 43
2.8.6 LDA的優(yōu)缺點(diǎn) 43
2.9 主成分分析 43
2.9.1 圖解PCA核心思想 43
2.9.2 PCA算法推理 44
2.9.3 PCA算法流程總結(jié) 45
2.9.4 PCA思想總結(jié) 46
2.9.5 PCA算法的優(yōu)缺點(diǎn) 46
2.9.6 降維的必要性及目的 46
2.9.7 KPCA與PCA的區(qū)別 47
2.10 模型評(píng)估 47
2.10.1 模型評(píng)估常用方法 48
2.10.2 誤差、偏差和方差的區(qū)別和聯(lián)系 48
2.10.3 為什么使用標(biāo)準(zhǔn)差 49
2.10.4 經(jīng)驗(yàn)誤差與泛化誤差 50
2.10.5 圖解欠擬合與過擬合 50
2.10.6 如何解決欠擬合與過擬合 52
2.10.7 交叉驗(yàn)證的主要作用 52
2.10.8 理解K折交叉驗(yàn)證 53
2.10.9 理解混淆矩陣 53
2.10.10 理解查準(zhǔn)率與查全率 53
2.10.11 理解ROC與AUC 54
2.10.12 如何繪制ROC曲線 55
2.10.13 如何計(jì)算TPR和FPR 56
2.10.14 如何計(jì)算AUC 58
2.10.15 直觀理解AUC 58
2.10.16 ROC評(píng)估分類器 60
2.10.17 代價(jià)敏感錯(cuò)誤率與代價(jià)曲線 60
2.10.18 比較檢驗(yàn)方法 61
2.11 決策樹 61
2.11.1 決策樹的基本原理 62
2.11.2 決策樹的生成過程 62
2.11.3 決策樹學(xué)習(xí)基本算法步驟 62
2.11.4 決策樹算法的優(yōu)缺點(diǎn) 63
2.11.5 決策樹和熵的聯(lián)系 63
2.11.6 熵的概念及定義 63
2.11.7 理解信息增益 64
2.11.8 決策樹中熵、條件熵和信息增益的聯(lián)系 64
2.11.9 決策樹算法中剪枝的作用及策略 65
2.12 支持向量機(jī)(SVM) 65
2.12.1 什么是SVM 65
2.12.2 SVM能解決的問題 66
2.12.3 核函數(shù)特點(diǎn)及其作用 67
2.12.4 SVM為什么引入對(duì)偶問題 67
2.12.5 如何理解SVM中的對(duì)偶問題 67
2.12.6 常見的核函數(shù) 69
2.12.7 SVM的主要特點(diǎn) 69
2.12.8 SVM的主要缺點(diǎn) 70
2.12.9 邏輯回歸與SVM的異同 70
2.13 貝葉斯分類器 72
2.13.1 貝葉斯分類器的基本原理 72
2.13.2 樸素貝葉斯分類器 72
2.13.3 舉例理解樸素貝葉斯分類器 73
2.13.4 半樸素貝葉斯分類器 75
2.13.5 極大似然估計(jì)和貝葉斯估計(jì)的聯(lián)系與區(qū)別 75
2.13.6 極大似然估計(jì)原理 76
2.13.7 圖解極大似然估計(jì) 76
2.14 EM算法 77
2.14.1 EM算法的基本思想 77
2.14.2 EM算法推導(dǎo) 77
2.14.3 圖解EM算法 78
2.14.4 EM算法流程 79
2.15 降維和聚類 79
2.15.1 圖解為什么會(huì)產(chǎn)生維數(shù)災(zāi)難 79
2.15.2 怎樣避免維數(shù)災(zāi)難 83
2.15.3 聚類和降維 83
2.15.4 聚類算法優(yōu)劣的衡量標(biāo)準(zhǔn) 84
2.15.5 聚類和分類 85
2.15.6 聚類算法的性能比較 85
2.15.7 4種常用聚類方法比較 85
第3章 深度學(xué)習(xí)基礎(chǔ) 89
3.1 基本概念 89
3.1.1 神經(jīng)網(wǎng)絡(luò)的類型 89
3.1.2 神經(jīng)網(wǎng)絡(luò)的常用模型結(jié)構(gòu) 92
3.1.3 深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的區(qū)別與聯(lián)系 93
3.1.4 為什么使用深層表示 93
3.1.5 深度學(xué)習(xí)架構(gòu)分類 94
3.1.6 如何選擇深度學(xué)習(xí)開發(fā)平臺(tái) 94
3.2 神經(jīng)網(wǎng)絡(luò)計(jì)算 95
3.2.1 前向傳播和反向傳播 95
3.2.2 如何計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出 96
3.2.3 如何計(jì)算卷積神經(jīng)網(wǎng)絡(luò)輸出值 97
3.2.4 如何計(jì)算池化層輸出值 100
3.2.5 反向傳播實(shí)例 101
3.2.6 神經(jīng)網(wǎng)絡(luò)更“深”的意義 104
3.3 激活函數(shù) 104
3.3.1 為什么需要激活函數(shù) 104
3.3.2 為什么激活函數(shù)需要非線性函數(shù) 105
3.3.3 常見的激活函數(shù)及其圖像 105
3.3.4 常見激活函數(shù)的導(dǎo)數(shù)計(jì)算 107
3.3.5 激活函數(shù)有哪些性質(zhì) 108
3.3.6 如何選擇激活函數(shù) 108
3.3.7 為什么tanh收斂速度比sigmoid快 109
3.3.8 Relu激活函數(shù)的優(yōu)點(diǎn) 109
3.3.9 理解Relu激活函數(shù)的稀疏激活性 109
3.3.10 什么時(shí)候可以用線性激活函數(shù) 109
3.3.11 softmax函數(shù)的定義及作用 110
3.3.12 softmax函數(shù)如何應(yīng)用于多分類 110
3.4 Batch Size 112
3.4.1 為什么需要Batch Size 112
3.4.2 如何選擇Batch Size值 112
3.4.3 調(diào)節(jié)Batch Size對(duì)訓(xùn)練效果的影響 113
3.4.4 在合理范圍內(nèi)增大Batch Size的好處 113
3.4.5 盲目增大Batch Size的壞處 114
3.5 歸一化 114
3.5.1 理解歸一化含義 114
3.5.2 歸一化和標(biāo)準(zhǔn)化的聯(lián)系與區(qū)別 114
3.5.3 為什么要?dú)w一化或標(biāo)準(zhǔn)化 115
3.5.4 圖解為什么要?dú)w一化 115
3.5.5 為什么歸一化能提高求最優(yōu)解速度 115
3.5.6 歸一化有哪些類型 116
3.5.7 局部響應(yīng)歸一化作用 116
3.5.8 局部響應(yīng)歸一化原理 117
3.5.9 什么是批歸一化 118
3.5.10 批歸一化的優(yōu)點(diǎn) 118
3.5.11 批歸一化算法流程 118
3.5.12 批歸一化和組歸一化比較 119
3.5.13 權(quán)重歸一化和批歸一化比較 119
3.5.14 批歸一化適用范圍 120
3.5.15 BN、LN、IN和GN的對(duì)比 120
3.6 參數(shù)初始化 121
3.6.1 參數(shù)初始化應(yīng)滿足的條件 121
3.6.2 常用的幾種初始化方式 121
3.6.3 全0初始化帶來的問題 121
3.6.4 全都初始化為同樣的值 122
3.6.5 初始化為小的隨機(jī)數(shù) 123
3.6.6 用校準(zhǔn)方差 123
3.7 預(yù)訓(xùn)練與微調(diào) 123
3.7.1 什么是預(yù)訓(xùn)練和微調(diào) 123
3.7.2 預(yù)訓(xùn)練和微調(diào)的作用 124
3.7.3 預(yù)訓(xùn)練模型的復(fù)用 124
3.7.4 預(yù)訓(xùn)練和遷移學(xué)習(xí) 125
3.7.5 微調(diào)時(shí)網(wǎng)絡(luò)參數(shù)是否更新 125
3.7.6 微調(diào)模型的三種狀態(tài) 125
3.7.7 為什么深層神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練 125
3.8 超參數(shù) 127
3.8.1 超參數(shù)有哪些 127
3.8.2 參數(shù)和模型的關(guān)系 127
3.8.3 參數(shù)和超參數(shù)的區(qū)別 127
3.8.4 如何尋找超參數(shù)的最優(yōu)值 128
3.8.5 超參數(shù)搜索的一般過程 128
3.9 學(xué)習(xí)率 129
3.9.1 學(xué)習(xí)率的作用 129
3.9.2 學(xué)習(xí)率衰減的常用參數(shù) 129
3.9.3 常用的學(xué)習(xí)率衰減方法 129
3.10 正則化 133
3.10.1 為什么要正則化 133
3.10.2 常見正則化方法 133
3.10.3 圖解L1和L2正則化 134
3.10.4 Dropout具體工作流程 135
3.10.5 為什么Dropout可以解決過擬合問題 137
3.10.6 Dropout的缺點(diǎn) 137
第4章 卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典網(wǎng)絡(luò) 138
4.1 LeNet-5 138
4.1.1 模型介紹 138
4.1.2 模型結(jié)構(gòu) 138
4.1.3 模型特性 139
4.2 AlexNet 140
4.2.1 模型介紹 140
4.2.2 模型結(jié)構(gòu) 140
4.2.3 模型特性 141
4.3 ZFNet 142
4.3.1 模型介紹 142
4.3.2 模型結(jié)構(gòu) 142
4.3.3 模型特性 143
4.4 NIN 144
4.4.1 模型介紹 144
4.4.2 模型結(jié)構(gòu) 144
4.4.3 模型特點(diǎn) 145
4.5 VGGNet 145
4.5.1 模型介紹 145
4.5.2 模型結(jié)構(gòu) 146
4.5.3 模型特性 147
4.6 GoogLeNet 147
4.6.1 模型介紹 147
4.6.2 模型結(jié)構(gòu) 148
4.6.3 模型特性 152
4.7 ResNet 152
4.7.1 模型介紹 152
4.7.2 模型結(jié)構(gòu) 152
4.7.3 模型特性 154
4.8 DenseNet 155
4.8.1 模型介紹 155
4.8.2 模型結(jié)構(gòu) 156
4.8.3 模型特性 157
4.9 CNN模型在GoogLeNet、VGGNet或AlexNet上調(diào)整的原因 157
第5章 卷積神經(jīng)網(wǎng)絡(luò) 159
5.1 CNN的結(jié)構(gòu) 159
5.1.1 CNN和人類視覺的關(guān)系 159
5.1.2 CNN的結(jié)構(gòu)組成 160
5.2 輸入層 160
5.2.1 輸入層作用 160
5.2.2 數(shù)據(jù)預(yù)處理 160
5.3 卷積層 161
5.3.1 卷積原理 161
5.3.2 卷積在圖像中的作用 162
5.3.3 卷積層的基本參數(shù) 163
5.3.4 卷積核的類型 164
5.3.5 1×1卷積的作用 165
5.3.6 卷積核是否越大越好 166
5.3.7 每層卷積是否只能用一種尺寸的卷積核 167
5.3.8 如何減少卷積層參數(shù)量 167
5.3.9 在標(biāo)準(zhǔn)卷積中同時(shí)考慮通道和區(qū)域的優(yōu)缺點(diǎn) 167
5.3.10 采用寬卷積的好處 169
5.4 激活層 169
5.4.1 激活層的作用 169
5.4.2 BN層和激活層的位置順序選擇 170
5.5 池化層 170
5.5.1 池化層作用 170
5.5.2 池化方法 171
5.5.3 卷積層和池化層的區(qū)別 171
5.5.4 NetVLAD池化 172
5.6 全連接層 172
5.6.1 全連接如何把二維特征圖轉(zhuǎn)化成一個(gè)一維向量 172
5.6.2 全卷積神經(jīng)網(wǎng)絡(luò)取代全連接層 173
5.6.3 圖像分類中全連接層對(duì)卷積神經(jīng)網(wǎng)絡(luò)性能的影響 173
5.7 二維卷積與三維卷積 174
5.7.1 二維卷積與三維卷積的區(qū)別 174
5.7.2 圖解三維卷積 175
5.7.3 RGB圖不使用三維卷積的原因 176
5.8 理解轉(zhuǎn)置卷積與棋盤效應(yīng) 176
5.8.1 標(biāo)準(zhǔn)卷積 176
5.8.2 轉(zhuǎn)置卷積 177
5.8.3 棋盤效應(yīng) 178
5.9 卷積神經(jīng)網(wǎng)絡(luò)凸顯共性的方法 179
5.9.1 局部連接 179
5.9.2 權(quán)重共享 180
5.9.3 池化操作 181
5.10 局部卷積 181
5.10.1 全連接、局部連接、全卷積與局部卷積對(duì)比 182
5.10.2 局部卷積的應(yīng)用 182
5.11 CNN可視化 183
5.11.1 特征層學(xué)到了什么 183
5.11.2 特征層隨訓(xùn)練而演化 184
5.11.3 消融分析 185
5.11.4 常見的網(wǎng)絡(luò)可視化方法 185
5.12 卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化及應(yīng)用 186
5.12.1 卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置 186
5.12.2 如何提高卷積神經(jīng)網(wǎng)絡(luò)的泛化能力 186
5.12.3 卷積神經(jīng)網(wǎng)絡(luò)的區(qū)域不變性和組合性 187
5.12.4 卷積神經(jīng)網(wǎng)絡(luò)在不同領(lǐng)域的應(yīng)用 188
第6章 循環(huán)神經(jīng)網(wǎng)絡(luò) 189
6.1 為什么需要RNN 189
6.2 圖解RNN基本結(jié)構(gòu) 189
6.2.1 基本的單層網(wǎng)絡(luò)結(jié)構(gòu) 189
6.2.2 圖解經(jīng)典RNN結(jié)構(gòu) 190
6.2.3 Vector-to-Sequence結(jié)構(gòu) 191
6.2.4 Sequence-to-Vector結(jié)構(gòu) 192
6.2.5 Encoder-Decoder結(jié)構(gòu) 192
6.2.6 3種基本結(jié)構(gòu)的應(yīng)用場(chǎng)景 193
6.2.7 圖解RNN中的注意機(jī)制 194
6.3 RNN的性質(zhì) 195
6.3.1 RNN的典型特點(diǎn) 195
6.3.2 CNN和RNN的區(qū)別 196
6.3.3 RNN和FNN的異同 196
6.3.4 為什么RNN訓(xùn)練的時(shí)候損失值波動(dòng)很大 197
6.4 RNN的后向傳播 197
6.4.1 BPTT算法推導(dǎo) 197
6.4.2 RNN中為什么會(huì)出現(xiàn)梯度消失 198
6.4.3 如何解決RNN中的梯度消失問題 199
6.5 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM) 199
6.5.1 LSTM的產(chǎn)生原因 199
6.5.2 標(biāo)準(zhǔn)的RNN和LSTM的區(qū)別 199
6.5.3 LSTM核心思想 200
6.5.4 LSTM流行的變體 203
6.5.5 LSTM與GRU的區(qū)別 204
6.6 常見的RNN結(jié)構(gòu)上的擴(kuò)展和改進(jìn) 205
6.6.1 簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò)(SRN) 205
6.6.2 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN) 205
6.6.3 深度循環(huán)神經(jīng)網(wǎng)絡(luò)(Deep RNN) 206
6.6.4 回聲狀態(tài)網(wǎng)絡(luò)(ESN) 206
6.6.5 時(shí)鐘頻率驅(qū)動(dòng) RNN(CW-RNN) 207
6.6.6 包含時(shí)間間隔的RNN 208
6.7 RNN在NLP中的典型應(yīng)用舉例 209
6.8 RNN與圖像領(lǐng)域的結(jié)合舉例 210
6.8.1 卷積循環(huán)神經(jīng)網(wǎng)絡(luò) 210
6.8.2 網(wǎng)格循環(huán)神經(jīng)網(wǎng)絡(luò) 211
6.8.3 像素循環(huán)神經(jīng)網(wǎng)絡(luò) 211
6.9 RNN與條件隨機(jī)場(chǎng)的結(jié)合 212
第7章 生成對(duì)抗網(wǎng)絡(luò) 213
7.1 GAN的基本概念 213
7.1.1 如何通俗地理解GAN 213
7.1.2 GAN的形式化表達(dá) 213
7.1.3 GAN的目標(biāo)函數(shù) 214
7.1.4 GAN的目標(biāo)函數(shù)和交叉熵?fù)p失的聯(lián)系和區(qū)別 214
7.1.5 GAN的損失值為什么降不下去 215
7.1.6 生成式模型和判別式模型的區(qū)別 215
7.1.7 模式崩塌和模式丟棄 216
7.1.8 為什么會(huì)出現(xiàn)模式崩塌 217
7.1.9 如何解決模式崩塌問題 217
7.2 GAN的生成模型評(píng)價(jià) 219
7.2.1 Inception Score 219
7.2.2 Mode Score 220
7.2.3 Kernel MMD 220
7.2.4 Wasserstein Distance 220
7.2.5 Fréchet Inception Distance(FID) 221
7.2.6 1-NN分類器(1-Nearest Neighbor Classifier) 221
7.2.7 其他評(píng)價(jià)方法 221
7.3 其他常見的生成模型 221
7.3.1 自回歸模型:pixelRNN與pixelCNN 221
7.3.2 變分自動(dòng)編碼器(VAE)原理 222
7.4 GAN的改進(jìn)與優(yōu)化 223
7.4.1 如何生成指定類型的圖像(CGAN) 223
7.4.2 CNN與GAN的結(jié)合(DCGAN) 224
7.4.3 GAN為什么容易訓(xùn)練崩潰 224
7.4.4 WGAN如何解決訓(xùn)練崩潰問題 225
7.4.5 帶有梯度正則的WGAN(WGAN-GP) 225
7.4.6 最小二乘GAN(LSGAN) 226
7.4.7 如何盡量避免GAN的訓(xùn)練崩潰問題 227
7.5 GAN的應(yīng)用:圖像翻譯 227
7.5.1 什么是圖像翻譯 227
7.5.2 有監(jiān)督圖像翻譯(pix2pix) 228
7.5.3 有監(jiān)督圖像翻譯的缺點(diǎn) 229
7.5.4 無監(jiān)督圖像翻譯(CycleGAN) 230
7.5.5 多領(lǐng)域的無監(jiān)督圖像翻譯(StarGAN) 231
7.6 GAN的應(yīng)用:文本生成 232
7.6.1 傳統(tǒng)GAN為什么不適合文本任務(wù) 232
7.6.2 SeqGAN用于文本生成 232
7.7 GAN在其他領(lǐng)域的應(yīng)用 233
7.7.1 數(shù)據(jù)增廣 233
7.7.2 圖像超分辨與圖像補(bǔ)全 234
7.7.3 語音領(lǐng)域 234
第8章 目標(biāo)檢測(cè) 235
8.1 基本概念 235
8.1.1 目標(biāo)檢測(cè) 235
8.1.2 目標(biāo)檢測(cè)要解決的核心問題 236
8.1.3 目標(biāo)檢測(cè)的算法分類 236
8.1.4 目標(biāo)檢測(cè)的應(yīng)用領(lǐng)域 237
8.2 two-stage目標(biāo)檢測(cè)算法 237
8.2.1 R-CNN 237
8.2.2 Fast R-CNN 239
8.2.3 Faster R-CNN 242
8.2.4 R-FCN 245
8.2.5 FPN 248
8.2.6 Mask R-CNN 251
8.3 one-stage目標(biāo)檢測(cè)算法 254
8.3.1 YOLO 254
8.3.2 YOLOv2 257
8.3.3 YOLO9000 261
8.3.4 YOLOv3 262
8.3.5 YOLOv4 263
8.3.6 SSD 264
8.3.7 DSSD 267
8.3.8 RetinaNet 269
8.3.9 RFBNet 271
8.3.10 M2Det 273
8.4 目標(biāo)檢測(cè)的常用數(shù)據(jù)集 275
8.4.1 PASCAL VOC 275
8.4.2 Microsoft COCO 275
8.4.3 谷歌Open Image 276
8.4.4 ImageNet 276
8.5 目標(biāo)檢測(cè)常用標(biāo)注工具 276
8.5.1 LabelImg 276
8.5.2 LabelMe 276
8.5.3 Labelbox 277
8.5.4 RectLabel 277
8.5.5 CVAT 277
8.5.6 VIA 277
8.5.7 其他標(biāo)注工具 278
第9章 圖像分割 279
9.1 常見的圖像分割算法 279
9.1.1 基于閾值的分割算法 279
9.1.2 基于邊緣檢測(cè)的分割算法 279
9.1.3 基于區(qū)域的分割算法 280
9.1.4 基于神經(jīng)網(wǎng)絡(luò)技術(shù)的圖像分割算法 280
9.1.5 基于深度學(xué)習(xí)的圖像分割算法分類 280
9.1.6 常見的深度學(xué)習(xí)圖像分割算法 281
9.2 FCN 282
9.2.1 為什么CNN對(duì)像素級(jí)別的分類很難 282
9.2.2 FCN有哪些改變 282
9.2.3 FCN的結(jié)構(gòu) 283
9.2.4 全連接層和卷積層如何相互轉(zhuǎn)化 283
9.2.5 為什么傳統(tǒng)CNN的輸入圖片大小是固定的 284
9.2.6 把全連接層的權(quán)重重塑成卷積層的濾波器的好處 284
9.2.7 FCN如何進(jìn)行逐個(gè)像素點(diǎn)預(yù)測(cè)分類 285
9.2.8 反卷積層理解 286
9.2.9 跳級(jí)(skip)結(jié)構(gòu) 288
9.2.10 模型訓(xùn)練 289
9.2.11 FCN的優(yōu)缺點(diǎn) 292
9.3 U-Net 292
9.4 U-Net 295
9.5 SegNet 296
9.6 LinkNet 297
9.7 RefineNet 299
9.8 PSPNet 300
9.9 DeepLab系列 302
9.9.1 DeepLabv1 303
9.9.2 DeepLabv2 305
9.9.3 DeepLabv3 306
9.9.4 DeepLabv3 307
9.10 Mask R-CNN作為目標(biāo)分割的介紹 310
9.10.1 Mask R-CNN框架 310
9.10.2 Mask R-CNN損失函數(shù) 310
9.10.3 Mask R-CNN 算法步驟 311
9.10.4 RoI池化與RoI Align 311
9.10.5 Mask R-CNN代碼實(shí)現(xiàn)總體框架 311
9.10.6 Mask R-CNN訓(xùn)練和推導(dǎo)過程的區(qū)別 312
9.10.7 Mask R-CNN擴(kuò)展 312
9.11 基于弱監(jiān)督學(xué)習(xí)的圖像分割 313
9.11.1 涂鴉標(biāo)記(ScribbleSup) 314
9.11.2 圖像級(jí)別標(biāo)記(CCNN) 315
9.11.3 期望最大化估計(jì)像素類別 316
9.11.4 圖像、邊框與涂鴉標(biāo)記融合框架 317
第10章 遷移學(xué)習(xí) 318
10.1 遷移學(xué)習(xí)基礎(chǔ)知識(shí) 318
10.1.1 什么是遷移學(xué)習(xí) 318
10.1.2 為什么需要遷移學(xué)習(xí) 319
10.1.3 遷移學(xué)習(xí)與已有學(xué)習(xí)方式的區(qū)別和聯(lián)系 320
10.1.4 負(fù)遷移 321
10.2 遷移學(xué)習(xí)的研究領(lǐng)域 322
10.2.1 按目標(biāo)域標(biāo)簽分類 323
10.2.2 按學(xué)習(xí)方法分類 323
10.2.3 按特征分類 323
10.2.4 按離線與在線形式分類 324
10.3 遷移學(xué)習(xí)的應(yīng)用 324
10.3.1 計(jì)算機(jī)視覺 325
10.3.2 文本分類 325
10.3.3 時(shí)間序列 326
10.3.4 醫(yī)療健康 327
10.4 遷移學(xué)習(xí)的基本方法 327
10.4.1 基于實(shí)例的遷移學(xué)習(xí)方法 328
10.4.2 基于特征的遷移學(xué)習(xí)方法 328
10.4.3 基于模型的遷移學(xué)習(xí)方法 329
10.4.4 基于關(guān)系的遷移學(xué)習(xí)方法 330
10.5 分布對(duì)齊的常用方法 331
10.5.1 數(shù)據(jù)分布自適應(yīng)方法 331
10.5.2 特征選擇方法 333
10.5.3 子空間學(xué)習(xí)方法 334
10.6 深度遷移學(xué)習(xí)方法 338
10.6.1 深度網(wǎng)絡(luò)的可遷移性 338
10.6.2 微調(diào) 342
10.6.3 深度網(wǎng)絡(luò)自適應(yīng) 342
10.6.4 深度對(duì)抗網(wǎng)絡(luò)遷移 347
10.7 遷移學(xué)習(xí)研究前沿 350
10.7.1 機(jī)器智能與人類經(jīng)驗(yàn)結(jié)合的遷移學(xué)習(xí) 350
10.7.2 傳遞遷移學(xué)習(xí) 350
10.7.3 終身遷移學(xué)習(xí) 351
10.7.4 在線遷移學(xué)習(xí) 352
10.7.5 遷移強(qiáng)化學(xué)習(xí) 353
10.7.6 遷移學(xué)習(xí)的可解釋性 353
第11章 網(wǎng)絡(luò)構(gòu)架介紹及訓(xùn)練 354
11.1 TensorFlow 354
11.1.1 TensorFlow的設(shè)計(jì)理念 354
11.1.2 TensorFlow的特點(diǎn) 355
11.1.3 TensorFlow的系統(tǒng)架構(gòu) 356
11.1.4 TensorFlow的編程模型 357
11.1.5 基于TensorFlow搭建VGG16 360
11.2 Caffe 361
11.2.1 Caffe的特性 362
11.2.2 Caffe2的特性 362
11.2.3 Caffe2和PyTorch的區(qū)別 362
11.3 PyTorch 362
11.3.1 為什么選擇PyTorch 363
11.3.2 PyTorch的架構(gòu) 363
11.3.3 PyTorch 1.0三大重要更新 364
11.4 常見的深度學(xué)習(xí)分布式框架 364
11.4.1 PaddlePaddle 365
11.4.2 Deeplearning4j 366
11.4.3 Mahout 367
11.4.4 Spark MLlib 368
11.4.5 Spark Stream 369
11.4.6 Ray 370
11.4.7 Horovod 370
11.4.8 BigDL 371
11.4.9 Petastorm 371
11.4.10 TensorFlowOnSpark 372
11.5 網(wǎng)絡(luò)搭建原則及訓(xùn)練技巧 372
11.5.1 網(wǎng)絡(luò)搭建原則 372
11.5.2 網(wǎng)絡(luò)訓(xùn)練技巧 373
第12章 網(wǎng)絡(luò)優(yōu)化技巧 376
12.1 數(shù)據(jù)集和樣本優(yōu)化 376
12.1.1 如何解決訓(xùn)練樣本少的問題 376
12.1.2 深度學(xué)習(xí)能否勝任所有數(shù)據(jù)集 377
12.1.3 訓(xùn)練集、驗(yàn)證集、測(cè)試集的定義及劃分 377
12.1.4 類別不平衡的產(chǎn)生原因 378
12.1.5 常見的類別不平衡問題的解決方法 378
12.1.6 常用的數(shù)據(jù)增強(qiáng)方法 379
12.2 數(shù)據(jù)不匹配問題 380
12.2.1 如何定位數(shù)據(jù)不匹配問題 380
12.2.2 常見的數(shù)據(jù)不匹配的場(chǎng)景 380
12.2.3 如何解決數(shù)據(jù)不匹配問題 380
12.3 網(wǎng)絡(luò)構(gòu)建和初始化 381
12.3.1 權(quán)重的初始化方法 381
12.3.2 激活函數(shù)的特點(diǎn) 382
12.3.3 卷積核設(shè)計(jì)尺寸都是奇數(shù)的原因 383
12.3.4 在網(wǎng)絡(luò)設(shè)計(jì)中要權(quán)重共享的原因 383
12.4 特征選擇 383
12.4.1 特征的類型 383
12.4.2 如何考慮特征選擇 384
12.4.3 特征選擇方法分類 384
12.4.4 特征選擇的目的 384
12.5 梯度消失和梯度爆炸 384
12.5.1 使用梯度更新規(guī)則的原因 384
12.5.2 梯度消失和梯度爆炸產(chǎn)生的原因 385
12.5.3 如何解決梯度消失和梯度爆炸問題 386
12.5.4 防止梯度下降陷入局部最優(yōu)困境 386
12.6 評(píng)價(jià)指標(biāo) 387
12.6.1 設(shè)置單一數(shù)字評(píng)價(jià)指標(biāo)的原因 387
12.6.2 Top5錯(cuò)誤率 387
12.6.3 理解泛化誤差、方差和偏差 388
12.7 模型和系統(tǒng)優(yōu)化 388
12.7.1 是否存在比已知算法更好的算法 388
12.7.2 判斷和解決共線性問題 389
12.7.3 深度學(xué)習(xí)不用二階優(yōu)化的原因 389
12.7.4 提升模型的穩(wěn)定性 389
12.7.5 改善模型的思路 390
12.7.6 快速構(gòu)建有效初始模型 391
12.7.7 通過模型重新觀察數(shù)據(jù) 391
12.7.8 提高深度學(xué)習(xí)系統(tǒng)的性能 392
第13章 超參數(shù)調(diào)整 393
13.1 超參數(shù)的概念 393
13.1.1 參數(shù)和超參數(shù)的區(qū)別 393
13.1.2 超參數(shù)的類別 393
13.1.3 進(jìn)行超參數(shù)調(diào)優(yōu)的原因 394
13.1.4 超參數(shù)的重要性排序 394
13.1.5 部分超參數(shù)如何影響模型性能 395
13.1.6 部分超參數(shù)的合適范圍 396
13.2 網(wǎng)絡(luò)訓(xùn)練中的超參數(shù)調(diào)整策略 397
13.2.1 超參數(shù)優(yōu)化的一般過程 397
13.2.2 如何調(diào)試模型 397
13.2.3 學(xué)習(xí)率調(diào)整的原因 398
13.2.4 學(xué)習(xí)率調(diào)整的策略 398
13.2.5 在極端批樣本數(shù)量下訓(xùn)練網(wǎng)絡(luò) 402
13.3 合理使用預(yù)訓(xùn)練網(wǎng)絡(luò) 403
13.3.1 什么是微調(diào) 403
13.3.2 微調(diào)的方式 403
13.3.3 微調(diào)先凍結(jié)底層而訓(xùn)練頂層的原因 404
13.3.4 在不同的數(shù)據(jù)集下如何進(jìn)行微調(diào) 404
13.3.5 在目標(biāo)檢測(cè)中使用預(yù)訓(xùn)練模型的優(yōu)劣 404
13.3.6 目標(biāo)檢測(cè)如何從零開始訓(xùn)練 405
13.4 自動(dòng)化超參數(shù)搜索方法 405
13.4.1 網(wǎng)格搜索 405
13.4.2 隨機(jī)搜索 406
13.4.3 基于模型的超參數(shù)優(yōu)化 406
13.5 自動(dòng)機(jī)器學(xué)習(xí)AutoML 406
13.5.1 為什么需要AutoML 406
13.5.2 AutoML的問題構(gòu)成 407
13.5.3 常見的AutoML框架 407
13.5.4 神經(jīng)架構(gòu)搜索(NAS) 408
第14章 模型壓縮、加速和移動(dòng)端部署 410
14.1 模型壓縮 410
14.2 為什么需要模型壓縮和加速 410
14.3 模型壓縮方法 411
14.3.1 前端壓縮和后端壓縮對(duì)比 411
14.3.2 網(wǎng)絡(luò)剪枝 411
14.3.3 典型剪枝方法的對(duì)比 413
14.3.4 網(wǎng)絡(luò)蒸餾 413
14.3.5 前端壓縮 413
14.3.6 后端壓縮 414
14.3.7 低秩分解 416
14.3.8 總體壓縮效果評(píng)價(jià)指標(biāo) 416
14.4 網(wǎng)絡(luò)壓縮的未來研究方向 417
14.5 模型優(yōu)化加速方法 418
14.5.1 模型優(yōu)化加速方法類別 418
14.5.2 TensorRT加速原理 418
14.5.3 TensorRT如何優(yōu)化重構(gòu)模型 420
14.5.4 TensorRT的加速效果 420
14.6 如何選擇壓縮和加速方法 420
14.7 高效CNN網(wǎng)絡(luò)設(shè)計(jì)的準(zhǔn)則 421
14.7.1 分組卷積 421
14.7.2 深度可分離卷積 422
14.7.3 當(dāng)輸入/輸出的通道數(shù)相等時(shí),MAC最小 424
14.7.4 減少分組卷積的數(shù)量 424
14.7.5 降低網(wǎng)絡(luò)碎片化程度(分支數(shù)量) 425
14.7.6 減少元素級(jí)操作 426
14.8 常用的輕量級(jí)網(wǎng)絡(luò) 426
14.8.1 SequeezeNet 426
14.8.2 MobileNet 429
14.8.3 MobileNet-v2 432
14.8.4 MobileNet-v1和MobileNet-v2微結(jié)構(gòu)比較 433
14.8.5 ResNet和MobileNet-v2微結(jié)構(gòu)比較 434
14.8.6 Xception 434
14.8.7 ShuffleNet-v1 436
14.8.8 ShuffleNet-v2 438
14.9 現(xiàn)有的移動(dòng)端開源框架及其特點(diǎn) 440
14.9.1 NCNN 440
14.9.2 QNNPACK 441
14.9.3 Prestissimo 443
14.9.4 MDL 445
14.9.5 Paddle-Mobile 446
14.9.6 MACE 446
14.9.7 FeatherCNN 448
14.9.8 TensorFlow Lite 449
14.9.9 PocketFlow 450
14.9.10 MDL、NCNN和TFLite對(duì)比 452
14.10 移動(dòng)端開源框架部署 453
談繼勇 主編
南方科技大學(xué)和哈爾濱工業(yè)大學(xué)聯(lián)合培養(yǎng)博士(在讀),現(xiàn)任瀚維智能醫(yī)療技術(shù)總監(jiān),深圳工信局專家?guī)鞂<?,兼任南方科技大學(xué)、四川大學(xué)研究生企業(yè)導(dǎo)師,南方科技大學(xué)和瀚維智能醫(yī)療聯(lián)合實(shí)驗(yàn)室副主任,北京探工所特聘技術(shù)專家,曾先后在中科院信工所、香港中文大學(xué)(深圳)、FOXCONN機(jī)器人與人工智能實(shí)驗(yàn)室、順豐科技等單位任職。主要專注于智能感知與控制、實(shí)時(shí)智能與計(jì)算機(jī)視覺方向的研究,主持/主研國(guó)家自然科學(xué)基金、省重點(diǎn)研發(fā)計(jì)劃、深圳戰(zhàn)略性新興產(chǎn)業(yè)計(jì)劃等項(xiàng)目20余項(xiàng),發(fā)表SCI/EI論文20余篇,申請(qǐng)發(fā)明專利40余項(xiàng),獲全國(guó)發(fā)明金獎(jiǎng)。
郭子釗 副主編
四川大學(xué)計(jì)算機(jī)科學(xué)專業(yè)博士,碩士畢業(yè)于四川大學(xué)自動(dòng)化系,主要從事AI芯片、深度學(xué)習(xí)、行為檢測(cè)識(shí)別、人臉檢測(cè)識(shí)別等相關(guān)研究工作。
李劍 副主編
同濟(jì)大學(xué)計(jì)算機(jī)科學(xué)專業(yè)博士,浙江農(nóng)林大學(xué)副教授、碩士生導(dǎo)師,主要從事推薦系統(tǒng)、排序?qū)W習(xí)、凸優(yōu)化等機(jī)器學(xué)習(xí)領(lǐng)域的科研和教學(xué)工作,發(fā)表SCI論文10余篇,曾獲浙江省科技進(jìn)步二等獎(jiǎng)等多項(xiàng)省部級(jí)獎(jiǎng)項(xiàng)。
佃松宜 副主編
日本東北大學(xué)博士,四川大學(xué)電氣工程學(xué)院教授、自動(dòng)化系系主任,四川省信息與自動(dòng)化技術(shù)重點(diǎn)實(shí)驗(yàn)室主任。主要專注于先進(jìn)控制理論與人工智能算法研究、嵌入式計(jì)算與實(shí)時(shí)智能系統(tǒng)的研究與開發(fā)、機(jī)器人與智能裝備的智能感知與控制技術(shù)的研究、工業(yè)測(cè)控與智能物聯(lián)的研究。近5年來主持包括國(guó)家重點(diǎn)研發(fā)計(jì)劃、基金、國(guó)網(wǎng)總部項(xiàng)目等各類科研項(xiàng)目近30項(xiàng),累計(jì)總經(jīng)費(fèi)近2200萬元;發(fā)表論文100多篇,其中SCI/EI檢索近40篇,ESI高引論文1篇。參與編撰專著3部(其中英文專著1部),參編國(guó)家九五規(guī)劃教材1部。
王晉東 特邀編委
中科院計(jì)算所博士,微軟亞洲研究院機(jī)器學(xué)習(xí)研究員,主要從事遷移學(xué)習(xí)和機(jī)器學(xué)習(xí)方向的研究工作,在IJCAI、CVPR、ICDM、UbiComp、ACMMM、PERCOM、IJCNN、PRICAI、IEEE TNNLS、NEUNET、PRL、PMCJ、IMWUT、IJMLC、ICME、ACM TIST等國(guó)際權(quán)威期刊和會(huì)議上發(fā)表論文20余篇,多次獲得“最佳論文”獎(jiǎng)。作品有《遷移學(xué)習(xí)簡(jiǎn)明手冊(cè)》等。
王超鋒
上海大學(xué)碩士,百度計(jì)算機(jī)視覺算法工程師,主研圖像處理,深度學(xué)習(xí)等方向。曾多次在國(guó)內(nèi)外各類知名計(jì)算機(jī)視覺挑戰(zhàn)賽中獲得優(yōu)異成績(jī)。
郭曉鋒
中國(guó)科學(xué)院碩士,愛奇藝算法工程師,主要從事圖像處理、深度學(xué)習(xí)等方向的研究,曾獲“2017華為軟件精英挑戰(zhàn)賽”復(fù)賽第6名。
黃偉
華南理工大學(xué)碩士,順豐科技機(jī)器人算法工程師,主要從事計(jì)算機(jī)視覺和自然語言處理方向的研究。曾在相關(guān)領(lǐng)域國(guó)際期刊、會(huì)議上發(fā)表論文,并在相關(guān)競(jìng)賽中獲得優(yōu)異成績(jī)。
陳方杰(Amusi)
上海大學(xué)碩士,CVer(計(jì)算機(jī)視覺知識(shí)分享和學(xué)習(xí)交流平臺(tái))創(chuàng)始人。
李元偉
國(guó)防科技大學(xué)碩士,深圳瀚維智能醫(yī)療科技公司高級(jí)算法工程師,南方科技大學(xué)和瀚維智能醫(yī)療聯(lián)合實(shí)驗(yàn)室委員,主要從事機(jī)器視覺、圖像處理及深度學(xué)習(xí)方向的研究工作,參編普通高等教育十三五規(guī)劃教材《圖像通信基礎(chǔ)》,在IEEE TCSVT、COGN COMPUT等發(fā)表學(xué)術(shù)論文多篇,曾獲湖南省/全軍優(yōu)秀碩士論文。
陳琳
北京航空航天大學(xué)博士(在讀),研究方向?yàn)闊o人機(jī)智能控制與決策、仿生智能計(jì)算。2100433B
《深度學(xué)習(xí)500問——AI工程師面試寶典》系統(tǒng)地描述了深度學(xué)習(xí)的基本理論算法及應(yīng)用。全書共14章,第1~3章論述了數(shù)學(xué)基礎(chǔ)、機(jī)器學(xué)習(xí)基礎(chǔ)和深度學(xué)習(xí)基礎(chǔ);第4~7章介紹了一些經(jīng)典網(wǎng)絡(luò)及計(jì)算機(jī)視覺領(lǐng)域中常用的CNN、RNN、GAN等網(wǎng)絡(luò)結(jié)構(gòu)技術(shù);第8~9章介紹了深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的目標(biāo)檢測(cè)及圖像分割兩大應(yīng)用;第10~14章介紹了計(jì)算機(jī)視覺領(lǐng)域主要的優(yōu)化方法及思路等,包括遷移學(xué)習(xí)、網(wǎng)絡(luò)架構(gòu)及訓(xùn)練、網(wǎng)絡(luò)優(yōu)化技巧、超參數(shù)調(diào)整及模型的壓縮和加速等。本書凝聚了眾多一線科研人員及工程師的經(jīng)驗(yàn),旨在培養(yǎng)讀者發(fā)現(xiàn)問題、解決問題、擴(kuò)展問題的能力。
本書內(nèi)容取材于編者在日常學(xué)習(xí)過程中總結(jié)的知識(shí)點(diǎn)及各大公司常見的筆試、面試題。本書可為高等院校計(jì)算機(jī)科學(xué)、信息科學(xué)、人工智能、控制科學(xué)與工程、電子科學(xué)與技術(shù)等領(lǐng)域的研究及教學(xué)人員提供參考,也可為相關(guān)專業(yè)本科生及研究生提供思考方向,還可為深度學(xué)習(xí)及計(jì)算機(jī)視覺領(lǐng)域的初、中級(jí)研究人員和工程技術(shù)人員提供參考,尤其適合需要查漏補(bǔ)缺的應(yīng)聘者及提供相關(guān)崗位的面試官閱讀。
比如,如何測(cè)試一個(gè)web的登錄頁(yè)面,如何測(cè)試一個(gè)電話機(jī)等等。
面試java工程師時(shí)面試官通常問什么問題,該如何作答?
面試題和你面試的公司有關(guān),你應(yīng)聘的公司不同,題會(huì)相應(yīng)不同。說說我自己的面試,第一次是家的一般的公司(小公司只考技術(shù)),自己直接帶簡(jiǎn)歷過去的。先是筆試,很基礎(chǔ)的java題。然后面試聊。(基本就能過了)去...
我面的是上海交大,問了微機(jī)原理,數(shù)據(jù)庫(kù)基礎(chǔ),,因?yàn)槲冶究剖菍W(xué)通信工程所以問了學(xué)科交叉的內(nèi)容,就是數(shù)字信號(hào)處理,很基礎(chǔ)的問題,采樣定律。因?yàn)榉潜緦I(yè),所以不會(huì)問的很深。具體就是中斷啊,信號(hào)采樣啊,之類的...
格式:pdf
大?。?span id="y8ecyqs" class="single-tag-height">5KB
頁(yè)數(shù): 2頁(yè)
評(píng)分: 4.3
基于深度學(xué)習(xí)的安全帽檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 現(xiàn)如今 ,生產(chǎn)安全越來越受到企業(yè)的重視 ,然而與企業(yè)高度現(xiàn)代化的生產(chǎn)水 平不同 ,安全防護(hù)措施依然還很落后。比如對(duì)安全帽佩戴的監(jiān)管工作大多都是由 人工完成 ,監(jiān)管成本高且效率低。 近年來 ,深度學(xué)習(xí)技術(shù)有著跨越式的發(fā)展 ,所以一些研究人員開始了基于深 度學(xué)習(xí)的安全帽檢測(cè)研究 ,但大多采用安全帽顏色特征進(jìn)行檢測(cè) ,從而受背景色 干擾較大 ,精度較低。根據(jù)以上問題 ,本文設(shè)計(jì)并實(shí)現(xiàn)了一套基于深度學(xué)習(xí)的智能 安防系統(tǒng)。 該系統(tǒng)的主要功能是對(duì)攝像頭監(jiān)控區(qū)域進(jìn)行實(shí)時(shí)安防預(yù)警 ,實(shí)現(xiàn)了行人檢測(cè)、 安全帽佩戴檢測(cè)、智能報(bào)警和系統(tǒng)管理等功能。本文利用 SSD(Single Shot MultiBox Detector) 模型分別訓(xùn)練了行人檢測(cè)模型和安全帽檢測(cè)模型 ,用來實(shí)現(xiàn) 相關(guān)的檢測(cè)功能 ,本文主要以安全帽檢測(cè)的角度對(duì)該系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行敘述。 由于傳統(tǒng)的安全
格式:pdf
大?。?span id="cuemisg" class="single-tag-height">5KB
頁(yè)數(shù): 8頁(yè)
評(píng)分: 4.5
傳統(tǒng)的圖像識(shí)別方法,不能有效檢測(cè)出電力部件的具體位置,同時(shí)在干擾物較多的場(chǎng)景下識(shí)別準(zhǔn)確率較低。本文針對(duì)以上問題提出一種基于MASK LSTM-CNN模型的電力部件巡檢圖像識(shí)別方法。結(jié)合已有的Mask R-CNN方法,利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),通過絡(luò)融合上下文信息來構(gòu)建MASK LSTM-CNN模型,然后結(jié)合電力部件的具體特征進(jìn)一步利用優(yōu)化算法來優(yōu)化模型的參數(shù),使設(shè)計(jì)的模型能夠在干擾信息較多的現(xiàn)場(chǎng)環(huán)境下依然可以準(zhǔn)確識(shí)別電力部件,成功解決了已有方法中存在的電力部件在被遮擋情況下識(shí)別率較低的問題,大大改善了部件識(shí)別的精度。結(jié)合實(shí)際采集的電力部件巡檢圖像數(shù)據(jù)集對(duì)提出的模型進(jìn)行大量測(cè)試驗(yàn)證,實(shí)驗(yàn)結(jié)果表明提出的MASK LSTM-CNN模型相比于R-FCN、Faster R-CNN等模型檢測(cè)效果更優(yōu),平均識(shí)別準(zhǔn)確率提高9%-12%左右,有效解決了干擾信息較多的電力場(chǎng)景中的部件識(shí)別問題。
每逢畢業(yè)季在校園即將想成為造價(jià)師的學(xué)子們,都要考慮找工作,找工作就意味著要面試,其實(shí)面試也是有很多套路可選的,其實(shí)面試題大多重復(fù)可選,下面是我給大家匯總了一些面試常問的問題。
工程造價(jià)面試常問的專業(yè)問題
1、是否能看懂施工基礎(chǔ)圖紙,對(duì)結(jié)構(gòu)圖集是否可以熟練掌握?
2、是否能夠掌握造價(jià)的工作流程與工作內(nèi)容?
3、是否熟悉造價(jià)員工作必備的清單定額與清單規(guī)范?
4、是否能夠熟練運(yùn)用工程計(jì)價(jià)軟件?
5、是否能夠獨(dú)立編制招投標(biāo)報(bào)價(jià)、控制價(jià),工程結(jié)算等文件?
工程造價(jià)員的工作職責(zé):
1、熟悉施工圖紙、設(shè)計(jì)和施工方案、施工變更、施工文件和施工合同、相關(guān)法律法規(guī),全面掌握工程合同文件的經(jīng)濟(jì)條款和分包合同文件,做好合同交底工作。
2、負(fù)責(zé)編制項(xiàng)目預(yù)算,審核項(xiàng)目月度目標(biāo)成本,根據(jù)現(xiàn)場(chǎng)實(shí)際情況,比較分析實(shí)際成本與目標(biāo)成本的差異。
3、配合公司編制工程計(jì)劃造價(jià),根據(jù)施工方案和現(xiàn)場(chǎng)實(shí)際情況提出合理化建議。
4、熟悉施工現(xiàn)場(chǎng)生產(chǎn)進(jìn)度,每月編制本月施工生產(chǎn)統(tǒng)計(jì)報(bào)表;根據(jù)下月生產(chǎn)進(jìn)度計(jì)劃,提前編制下月施工預(yù)算。
5、參與起草分包工作計(jì)劃,根據(jù)分包合同包含的工作內(nèi)容和單價(jià)編制分包工作計(jì)劃。
6、參與勞務(wù)隊(duì)結(jié)算。
所以學(xué)子們,外出找工作千萬不要慌張,掌握一些常問的面試題在加上對(duì)專業(yè)的理解,你就可以提高百分之20面試成功的幾率,學(xué)子們,面試時(shí)候一定要注意著裝打扮,第一印象是面試官給你的,所以來說第一印象很重要,希望造價(jià)學(xué)子們前程似錦,未來可期。
1 范圍
2 術(shù)語和定義
3 深度學(xué)習(xí)工程師能力評(píng)估要素
4 深度學(xué)習(xí)初級(jí)工程師
4.1基本要求
4.2專業(yè)知識(shí)要求
4.3工程能力要求
4.4業(yè)務(wù)理解與實(shí)踐能力要求
5 深度學(xué)習(xí)中級(jí)工程師
5.1基本要求
5.2專業(yè)知識(shí)要求
5.3工程能力要求
5.4業(yè)務(wù)理解與實(shí)踐能力要求
6 深度學(xué)習(xí)高級(jí)工程師
6.1基本要求
6.2專業(yè)知識(shí)要求
6.3工程能力要求
6.4業(yè)務(wù)理解與實(shí)踐能力要求。 2100433B
第一部分:深度學(xué)習(xí)1、神經(jīng)網(wǎng)絡(luò)基礎(chǔ)問題
(1)Backpropagation(要能推倒)
后向傳播是在求解損失函數(shù)L對(duì)參數(shù)w求導(dǎo)時(shí)候用到的方法,目的是通過鏈?zhǔn)椒▌t對(duì)參數(shù)進(jìn)行一層一層的求導(dǎo)。這里重點(diǎn)強(qiáng)調(diào):要將參數(shù)進(jìn)行隨機(jī)初始化而不是全部置0,否則所有隱層的數(shù)值都會(huì)與輸入相關(guān),這稱為對(duì)稱失效。
大致過程是:
首先前向傳導(dǎo)計(jì)算出所有節(jié)點(diǎn)的激活值和輸出值, 計(jì)算整體損失函數(shù): 然后針對(duì)第L層的每個(gè)節(jié)點(diǎn)計(jì)算出殘差(這里是因?yàn)閁FLDL中說的是殘差,本質(zhì)就是整體損失函數(shù)對(duì)每一層激活值Z的導(dǎo)數(shù)),所以要對(duì)W求導(dǎo)只要再乘上激活函數(shù)對(duì)W的導(dǎo)數(shù)即可(2)梯度消失、梯度爆炸
梯度消失:這本質(zhì)上是由于激活函數(shù)的選擇導(dǎo)致的, 最簡(jiǎn)單的sigmoid函數(shù)為例,在函數(shù)的兩端梯度求導(dǎo)結(jié)果非常?。柡蛥^(qū)),導(dǎo)致后向傳播過程中由于多次用到激活函數(shù)的導(dǎo)數(shù)值使得整體的乘積梯度結(jié)果變得越來越小,也就出現(xiàn)了梯度消失的現(xiàn)象。
梯度爆炸:同理,出現(xiàn)在激活函數(shù)處在激活區(qū),而且權(quán)重W過大的情況下。但是梯度爆炸不如梯度消失出現(xiàn)的機(jī)會(huì)多。
(3)常用的激活函數(shù)
激活函數(shù) | 公式 | 缺點(diǎn) | 優(yōu)點(diǎn) |
---|---|---|---|
Sigmoid | σ(x)=1/(1+e?x)σ ( x ) = 1 / ( 1 + e ? x ) |
1、會(huì)有梯度彌散 2、不是關(guān)于原點(diǎn)對(duì)稱 3、計(jì)算exp比較耗時(shí) |
- |
Tanh | tanh(x)=2σ(2x)?1tanh ? ( x ) = 2 σ ( 2 x ) ? 1 |
梯度彌散沒解決 | 1、解決了原點(diǎn)對(duì)稱問題 2、比sigmoid更快 |
ReLU | f(x)=max(0,x)f ( x ) = max ( 0 , x ) |
梯度彌散沒完全解決,在(-)部分相當(dāng)于神經(jīng)元死亡而且不會(huì)復(fù)活 | 1、解決了部分梯度彌散問題 2、收斂速度更快 |
Leaky ReLU | f(x)=1(x<0)(αx)+1(x>=0)(x)f ( x ) = 1 ( x < 0 ) ( α x ) + 1 ( x >= 0 ) ( x ) | - | 解決了神經(jīng)死亡問題 |
Maxout | max(wT1x+b1,wT2x+b2)max ( w 1 T x + b 1 , w 2 T x + b 2 ) |
參數(shù)比較多,本質(zhì)上是在輸出結(jié)果上又增加了一層 | 克服了ReLU的缺點(diǎn),比較提倡使用 |
(4)參數(shù)更新方法
方法名稱 | 公式 | |
---|---|---|
Vanilla update | x += - learning_rate * dx | |
Momentum update動(dòng)量更新 | v = mu * v - learning_rate * dx # integrate velocity x += v # integrate position |
|
Nesterov Momentum | x_ahead = x + mu * v v = mu * v - learning_rate * dx_ahead x += v |
|
Adagrad (自適應(yīng)的方法,梯度大的方向?qū)W習(xí)率越來越小,由快到慢) |
cache += dx**2 x += - learning_rate * dx / (np.sqrt(cache) + eps) |
|
Adam | m = beta1*m + (1-beta1)dx v = beta2*v + (1-beta2)(dx**2) x += - learning_rate * m / (np.sqrt(v) + eps) |
(5)解決overfitting的方法
dropout, regularization, batch normalizatin,但是要注意dropout只在訓(xùn)練的時(shí)候用,讓一部分神經(jīng)元隨機(jī)失活。
Batch normalization是為了讓輸出都是單位高斯激活,方法是在連接和激活函數(shù)之間加入BatchNorm層,計(jì)算每個(gè)特征的均值和方差進(jìn)行規(guī)則化。
2、CNN問題
(1) 思想
改變?nèi)B接為局部連接,這是由于圖片的特殊性造成的(圖像的一部分的統(tǒng)計(jì)特性與其他部分是一樣的),通過局部連接和參數(shù)共享大范圍的減少參數(shù)值。可以通過使用多個(gè)filter來提取圖片的不同特征(多卷積核)。
(2)filter尺寸的選擇
通常尺寸多為奇數(shù)(1,3,5,7)
(3)輸出尺寸計(jì)算公式
輸出尺寸=(N - F +padding*2)/stride + 1
步長(zhǎng)可以自由選擇通過補(bǔ)零的方式來實(shí)現(xiàn)連接。
(4)pooling池化的作用
雖然通過.卷積的方式可以大范圍的減少輸出尺寸(特征數(shù)),但是依然很難計(jì)算而且很容易過擬合,所以依然利用圖片的靜態(tài)特性通過池化的方式進(jìn)一步減少尺寸。
(5)常用的幾個(gè)模型,這個(gè)最好能記住模型大致的尺寸參數(shù)。
名稱 | 特點(diǎn) |
---|---|
LeNet5 | –沒啥特點(diǎn)-不過是第一個(gè)CNN應(yīng)該要知道 |
AlexNet | 引入了ReLU和dropout,引入數(shù)據(jù)增強(qiáng)、池化相互之間有覆蓋,三個(gè)卷積一個(gè)最大池化+三個(gè)全連接層 |
VGGNet | 采用1*1和3*3的卷積核以及2*2的最大池化使得層數(shù)變得更深。常用VGGNet-16和VGGNet19 |
Google Inception Net 我稱為盜夢(mèng)空間網(wǎng)絡(luò) |
這個(gè)在控制了計(jì)算量和參數(shù)量的同時(shí),獲得了比較好的分類性能,和上面相比有幾個(gè)大的改進(jìn): 1、去除了最后的全連接層,而是用一個(gè)全局的平均池化來取代它; 2、引入Inception Module,這是一個(gè)4個(gè)分支結(jié)合的結(jié)構(gòu)。所有的分支都用到了1*1的卷積,這是因?yàn)?*1性價(jià)比很高,可以用很少的參數(shù)達(dá)到非線性和特征變換。 3、Inception V2第二版將所有的5*5變成2個(gè)3*3,而且提出來著名的Batch Normalization; 4、Inception V3第三版就更變態(tài)了,把較大的二維卷積拆成了兩個(gè)較小的一維卷積,加速運(yùn)算、減少過擬合,同時(shí)還更改了Inception Module的結(jié)構(gòu)。 |
微軟ResNet殘差神經(jīng)網(wǎng)絡(luò)(Residual Neural Network) | 1、引入高速公路結(jié)構(gòu),可以讓神經(jīng)網(wǎng)絡(luò)變得非常深 2、ResNet第二個(gè)版本將ReLU激活函數(shù)變成y=x的線性函數(shù) |
1、RNN原理:
在普通的全連接網(wǎng)絡(luò)或CNN中,每層神經(jīng)元的信號(hào)只能向上一層傳播,樣本的處理在各個(gè)時(shí)刻獨(dú)立,因此又被成為前向神經(jīng)網(wǎng)絡(luò)(Feed-forward+Neural+Networks)。而在RNN中,神經(jīng)元的輸出可以在下一個(gè)時(shí)間戳直接作用到自身,即第i層神經(jīng)元在m時(shí)刻的輸入,除了(i-1)層神經(jīng)元在該時(shí)刻的輸出外,還包括其自身在(m-1)時(shí)刻的輸出。所以叫循環(huán)神經(jīng)網(wǎng)絡(luò)
2、RNN、LSTM、GRU區(qū)別
RNN引入了循環(huán)的概念,但是在實(shí)際過程中卻出現(xiàn)了初始信息隨時(shí)間消失的問題,即長(zhǎng)期依賴(Long-Term Dependencies)問題,所以引入了LSTM。 LSTM:因?yàn)長(zhǎng)STM有進(jìn)有出且當(dāng)前的cell informaton是通過input gate控制之后疊加的,RNN是疊乘,因此LSTM可以防止梯度消失或者爆炸。推導(dǎo)forget gate,input gate,cell state, hidden information等因?yàn)長(zhǎng)STM有進(jìn)有出且當(dāng)前的cell informaton是通過input gate控制之后疊加的,RNN是疊乘,因此LSTM可以防止梯度消失或者爆炸的變化是關(guān)鍵,下圖非常明確適合記憶: GRU是LSTM的變體,將忘記門和輸入們合成了一個(gè)單一的更新門。3、LSTM防止梯度彌散和爆炸
LSTM用加和的方式取代了乘積,使得很難出現(xiàn)梯度彌散。但是相應(yīng)的更大的幾率會(huì)出現(xiàn)梯度爆炸,但是可以通過給梯度加門限解決這一問題。
4、引出word2vec
這個(gè)也就是Word Embedding,是一種高效的從原始語料中學(xué)習(xí)字詞空間向量的預(yù)測(cè)模型。分為CBOW(Continous Bag of Words)和Skip-Gram兩種形式。其中CBOW是從原始語句推測(cè)目標(biāo)詞匯,而Skip-Gram相反。CBOW可以用于小語料庫(kù),Skip-Gram用于大語料庫(kù)。具體的就不是很會(huì)了。
3、GAN
1、GAN的思想
GAN結(jié)合了生成模型和判別模型,相當(dāng)于矛與盾的撞擊。生成模型負(fù)責(zé)生成最好的數(shù)據(jù)騙過判別模型,而判別模型負(fù)責(zé)識(shí)別出哪些是真的哪些是生成模型生成的。但是這些只是在了解了GAN之后才體會(huì)到的,但是為什么這樣會(huì)有效呢?
假設(shè)我們有分布Pdata(x),我們希望能建立一個(gè)生成模型來模擬真實(shí)的數(shù)據(jù)分布,假設(shè)生成模型為Pg(x;θθ ),我們的目的是求解θθ 的值,通常我們都是用最大似然估計(jì)。但是現(xiàn)在的問題是由于我們相用NN來模擬Pdata(x),但是我們很難求解似然函數(shù),因?yàn)槲覀儧]辦法寫出生成模型的具體表達(dá)形式,于是才有了GAN,也就是用判別模型來代替求解最大似然的過程。
在最理想的狀態(tài)下,G可以生成足以“以假亂真”的圖片G(z)。對(duì)于D來說,它難以判定G生成的圖片究竟是不是真實(shí)的,因此D(G(z)) = 0.5。這樣我們的目的就達(dá)成了:我們得到了一個(gè)生成式的模型G,它可以用來生成圖片。
2、GAN的表達(dá)式
通過分析GAN的表達(dá)可以看出本質(zhì)上就是一個(gè)minmax問題。其中V(D, G)可以看成是生成模型和判別模型的差異,而minmaxD說的是最大的差異越小越好。這種度量差異的方式實(shí)際上叫做Jensen-Shannon divergence。
3、GAN的實(shí)際計(jì)算方法
因?yàn)槲覀儾豢赡苡蠵data(x)的分布,所以我們實(shí)際中都是用采樣的方式來計(jì)算差異(也就是積分變求和)。具體實(shí)現(xiàn)過程如下:
有幾個(gè)關(guān)鍵點(diǎn):判別方程訓(xùn)練K次,而生成模型只需要每次迭代訓(xùn)練一次,先最大化(梯度上升)再最小化(梯度下降)。
但是實(shí)際計(jì)算時(shí)V的后面一項(xiàng)在D(x)很小的情況下由于log函數(shù)的原因會(huì)導(dǎo)致更新很慢,所以實(shí)際中通常將后一項(xiàng)的log(1-D(x))變?yōu)?logD(x)。
實(shí)際計(jì)算的時(shí)候還發(fā)現(xiàn)不論生成器設(shè)計(jì)的多好,判別器總是能判斷出真假,也就是loss幾乎都是0,這可能是因?yàn)槌闃釉斐傻?,生成?shù)據(jù)與真實(shí)數(shù)據(jù)的交集過小,無論生成模型多好,判別模型也能分辨出來。解決方法有兩個(gè):1、用WGAN 2、引入隨時(shí)間減少的噪聲
4、對(duì)GAN有一些改進(jìn)有引入f-divergence,取代Jensen-Shannon divergence,還有很多,這里主要介紹WGAN
5、WGAN
上面說過了用f-divergence來衡量?jī)蓚€(gè)分布的差異,而WGAN的思路是使用Earth Mover distance (挖掘機(jī)距離 Wasserstein distance)。
第二部分、機(jī)器學(xué)習(xí)準(zhǔn)備1、決策樹樹相關(guān)問題
(1)各種熵的計(jì)算
熵、聯(lián)合熵、條件熵、交叉熵、KL散度(相對(duì)熵)
熵用于衡量不確定性,所以均分的時(shí)候熵最大 KL散度用于度量?jī)蓚€(gè)分布的不相似性,KL(p||q)等于交叉熵H(p,q)-熵H(p)。交叉熵可以看成是用q編碼P所需的bit數(shù),減去p本身需要的bit數(shù),KL散度相當(dāng)于用q編碼p需要的額外bits。 交互信息Mutual information :I(x,y) = H(x)-H(x|y) = H(y)-H(y|x) 表示觀察到x后,y的熵會(huì)減少多少。(2)常用的樹搭建方法:ID3、C4.5、CART
上述幾種樹分別利用信息增益、信息增益率、Gini指數(shù)作為數(shù)據(jù)分割標(biāo)準(zhǔn)。
其中信息增益衡量按照某個(gè)特征分割前后熵的減少程度,其實(shí)就是上面說的交互信息。 用上述信息增益會(huì)出現(xiàn)優(yōu)先選擇具有較多屬性的特征,畢竟分的越細(xì)的屬性確定性越高。所以提出了信息增益率的概念,讓含有較多屬性的特征的作用降低。 CART樹在分類過程中使用的基尼指數(shù)Gini,只能用于切分二叉樹,而且和ID3、C4.5樹不同,Cart樹不會(huì)在每一個(gè)步驟刪除所用特征。(3)防止過擬合:剪枝
剪枝分為前剪枝和后剪枝,前剪枝本質(zhì)就是早停止,后剪枝通常是通過衡量剪枝后損失函數(shù)變化來決定是否剪枝。后剪枝有:錯(cuò)誤率降低剪枝、悲觀剪枝、代價(jià)復(fù)雜度剪枝
(4)前剪枝的幾種停止條件
節(jié)點(diǎn)中樣本為同一類 特征不足返回多類 如果某個(gè)分支沒有值則返回父節(jié)點(diǎn)中的多類 樣本個(gè)數(shù)小于閾值返回多類 2、邏輯回歸相關(guān)問題(1)公式推導(dǎo)一定要會(huì)
(2)邏輯回歸的基本概念
這個(gè)最好從廣義線性模型的角度分析,邏輯回歸是假設(shè)y服從Bernoulli分布。
(3)L1-norm和L2-norm
其實(shí)稀疏的根本還是在于L0-norm也就是直接統(tǒng)計(jì)參數(shù)不為0的個(gè)數(shù)作為規(guī)則項(xiàng),但實(shí)際上卻不好執(zhí)行于是引入了L1-norm;而L1norm本質(zhì)上是假設(shè)參數(shù)先驗(yàn)是服從Laplace分布的,而L2-norm是假設(shè)參數(shù)先驗(yàn)為Gaussian分布,我們?cè)诰W(wǎng)上看到的通常用圖像來解答這個(gè)問題的原理就在這。
但是L1-norm的求解比較困難,可以用坐標(biāo)軸下降法或是最小角回歸法求解。
(4)LR和SVM對(duì)比
首先,LR和SVM最大的區(qū)別在于損失函數(shù)的選擇,LR的損失函數(shù)為L(zhǎng)og損失(或者說是邏輯損失都可以)、而SVM的損失函數(shù)為hinge loss。
其次,兩者都是線性模型。
最后,SVM只考慮支持向量(也就是和分類相關(guān)的少數(shù)點(diǎn))
(5)LR和隨機(jī)森林區(qū)別
隨機(jī)森林等樹算法都是非線性的,而LR是線性的。LR更側(cè)重全局優(yōu)化,而樹模型主要是局部的優(yōu)化。
(6)常用的優(yōu)化方法
邏輯回歸本身是可以用公式求解的,但是因?yàn)樾枰竽娴膹?fù)雜度太高,所以才引入了梯度下降算法。
一階方法:梯度下降、隨機(jī)梯度下降、mini 隨機(jī)梯度下降降法。隨機(jī)梯度下降不但速度上比原始梯度下降要快,局部最優(yōu)化問題時(shí)可以一定程度上抑制局部最優(yōu)解的發(fā)生。
二階方法:牛頓法、擬牛頓法:
這里詳細(xì)說一下牛頓法的基本原理和牛頓法的應(yīng)用方式。牛頓法其實(shí)就是通過切線與x軸的交點(diǎn)不斷更新切線的位置,直到達(dá)到曲線與x軸的交點(diǎn)得到方程解。在實(shí)際應(yīng)用中我們因?yàn)槌3R蠼馔箖?yōu)化問題,也就是要求解函數(shù)一階導(dǎo)數(shù)為0的位置,而牛頓法恰好可以給這種問題提供解決方法。實(shí)際應(yīng)用中牛頓法首先選擇一個(gè)點(diǎn)作為起始點(diǎn),并進(jìn)行一次二階泰勒展開得到導(dǎo)數(shù)為0的點(diǎn)進(jìn)行一個(gè)更新,直到達(dá)到要求,這時(shí)牛頓法也就成了二階求解問題,比一階方法更快。我們常??吹降膞通常為一個(gè)多維向量,這也就引出了Hessian矩陣的概念(就是x的二階導(dǎo)數(shù)矩陣)。缺點(diǎn):牛頓法是定長(zhǎng)迭代,沒有步長(zhǎng)因子,所以不能保證函數(shù)值穩(wěn)定的下降,嚴(yán)重時(shí)甚至?xí) _€有就是牛頓法要求函數(shù)一定是二階可導(dǎo)的。而且計(jì)算Hessian矩陣的逆復(fù)雜度很大。
擬牛頓法: 不用二階偏導(dǎo)而是構(gòu)造出Hessian矩陣的近似正定對(duì)稱矩陣的方法稱為擬牛頓法。擬牛頓法的思路就是用一個(gè)特別的表達(dá)形式來模擬Hessian矩陣或者是他的逆使得表達(dá)式滿足擬牛頓條件。主要有DFP法(逼近Hession的逆)、BFGS(直接逼近Hession矩陣)、 L-BFGS(可以減少BFGS所需的存儲(chǔ)空間)。
3、SVM相關(guān)問題
(1)帶核的SVM為什么能分類非線性問題?
核函數(shù)的本質(zhì)是兩個(gè)函數(shù)的內(nèi)積,而這個(gè)函數(shù)在SVM中可以表示成對(duì)于輸入值的高維映射。注意核并不是直接對(duì)應(yīng)映射,核只不過是一個(gè)內(nèi)積
(2)RBF核一定是線性可分的嗎
不一定,RBF核比較難調(diào)參而且容易出現(xiàn)維度災(zāi)難,要知道無窮維的概念是從泰勒展開得出的。
(3)常用核函數(shù)及核函數(shù)的條件:
核函數(shù)選擇的時(shí)候應(yīng)該從線性核開始,而且在特征很多的情況下沒有必要選擇高斯核,應(yīng)該從簡(jiǎn)單到難的選擇模型。我們通常說的核函數(shù)指的是正定和函數(shù),其充要條件是對(duì)于任意的x屬于X,要求K對(duì)應(yīng)的Gram矩陣要是半正定矩陣。
RBF核徑向基,這類函數(shù)取值依賴于特定點(diǎn)間的距離,所以拉普拉斯核其實(shí)也是徑向基核。 線性核:主要用于線性可分的情況 多項(xiàng)式核(4)SVM的基本思想:
間隔最大化來得到最優(yōu)分離超平面。方法是將這個(gè)問題形式化為一個(gè)凸二次規(guī)劃問題,還可以等價(jià)位一個(gè)正則化的合頁(yè)損失最小化問題。SVM又有硬間隔最大化和軟間隔SVM兩種。這時(shí)首先要考慮的是如何定義間隔,這就引出了函數(shù)間隔和幾何間隔的概念(這里只說思路),我們選擇了幾何間隔作為距離評(píng)定標(biāo)準(zhǔn)(為什么要這樣,怎么求出來的要知道),我們希望能夠最大化與超平面之間的幾何間隔x,同時(shí)要求所有點(diǎn)都大于這個(gè)值,通過一些變化就得到了我們常見的SVM表達(dá)式。接著我們發(fā)現(xiàn)定義出的x只是由個(gè)別幾個(gè)支持向量決定的。對(duì)于原始問題(primal problem)而言,可以利用凸函數(shù)的函數(shù)包來進(jìn)行求解,但是發(fā)現(xiàn)如果用對(duì)偶問題(dual )求解會(huì)變得更簡(jiǎn)單,而且可以引入核函數(shù)。而原始問題轉(zhuǎn)為對(duì)偶問題需要滿足KKT條件(這個(gè)條件應(yīng)該細(xì)細(xì)思考一下)到這里還都是比較好求解的。因?yàn)槲覀兦懊嬲f過可以變成軟間隔問題,引入了懲罰系數(shù),這樣還可以引出hinge損失的等價(jià)形式(這樣可以用梯度下降的思想求解SVM了)。我個(gè)人認(rèn)為難的地方在于求解參數(shù)的SMO算法。
(5)是否所有的優(yōu)化問題都可以轉(zhuǎn)化為對(duì)偶問題:
這個(gè)問題我感覺非常好,有了強(qiáng)對(duì)偶和弱對(duì)偶的概念。用知乎大神的解釋吧
(6)處理數(shù)據(jù)偏斜:
可以對(duì)數(shù)量多的類使得懲罰系數(shù)C越小表示越不重視,相反另數(shù)量少的類懲罰系數(shù)變大。
4、Boosting和Bagging
(1)隨機(jī)森林
隨機(jī)森林改變了決策樹容易過擬合的問題,這主要是由兩個(gè)操作所優(yōu)化的:1、Boostrap從袋內(nèi)有放回的抽取樣本值2、每次隨機(jī)抽取一定數(shù)量的特征(通常為sqr(n))。
分類問題:采用Bagging投票的方式選擇類別頻次最高的
回歸問題:直接取每顆樹結(jié)果的平均值。
常見參數(shù) | 誤差分析 | 優(yōu)點(diǎn) | 缺點(diǎn) |
---|---|---|---|
1、樹最大深度 2、樹的個(gè)數(shù) 3、節(jié)點(diǎn)上的最小樣本數(shù) 4、特征數(shù)(sqr(n)) |
oob(out-of-bag) 將各個(gè)樹的未采樣樣本作為預(yù)測(cè)樣本統(tǒng)計(jì)誤差作為誤分率 |
可以并行計(jì)算 不需要特征選擇 可以總結(jié)出特征重要性 可以處理缺失數(shù)據(jù) 不需要額外設(shè)計(jì)測(cè)試集 |
在回歸上不能輸出連續(xù)結(jié)果 |
(2)Boosting之AdaBoost
Boosting的本質(zhì)實(shí)際上是一個(gè)加法模型,通過改變訓(xùn)練樣本權(quán)重學(xué)習(xí)多個(gè)分類器并進(jìn)行一些線性組合。而Adaboost就是加法模型+指數(shù)損失函數(shù)+前項(xiàng)分布算法。Adaboost就是從弱分類器出發(fā)反復(fù)訓(xùn)練,在其中不斷調(diào)整數(shù)據(jù)權(quán)重或者是概率分布,同時(shí)提高前一輪被弱分類器誤分的樣本的權(quán)值。最后用分類器進(jìn)行投票表決(但是分類器的重要性不同)。
(3)Boosting之GBDT
將基分類器變成二叉樹,回歸用二叉回歸樹,分類用二叉分類樹。和上面的Adaboost相比,回歸樹的損失函數(shù)為平方損失,同樣可以用指數(shù)損失函數(shù)定義分類問題。但是對(duì)于一般損失函數(shù)怎么計(jì)算呢?GBDT(梯度提升決策樹)是為了解決一般損失函數(shù)的優(yōu)化問題,方法是用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值來模擬回歸問題中殘差的近似值。
注:由于GBDT很容易出現(xiàn)過擬合的問題,所以推薦的GBDT深度不要超過6,而隨機(jī)森林可以在15以上。
(4)GBDT和Random Forest區(qū)別
這個(gè)就和上面說的差不多。
(5)Xgboost
這個(gè)工具主要有以下幾個(gè)特點(diǎn):
支持線性分類器 可以自定義損失函數(shù),并且可以用二階偏導(dǎo) 加入了正則化項(xiàng):葉節(jié)點(diǎn)數(shù)、每個(gè)葉節(jié)點(diǎn)輸出score的L2-norm 支持特征抽樣 在一定情況下支持并行,只有在建樹的階段才會(huì)用到,每個(gè)節(jié)點(diǎn)可以并行的尋找分裂特征。 5、KNN和Kmean(1)KNN 和Kmean缺點(diǎn)
都屬于惰性學(xué)習(xí)機(jī)制,需要大量的計(jì)算距離過程,速度慢的可以(但是都有相應(yīng)的優(yōu)化方法)。
(2)KNN
KNN不需要進(jìn)行訓(xùn)練,只要對(duì)于一個(gè)陌生的點(diǎn)利用離其最近的K個(gè)點(diǎn)的標(biāo)簽判斷其結(jié)果。KNN相當(dāng)于多數(shù)表決,也就等價(jià)于經(jīng)驗(yàn)最小化。而KNN的優(yōu)化方式就是用Kd樹來實(shí)現(xiàn)。
(3)Kmean
要求自定義K個(gè)聚類中心,然后人為的初始化聚類中心,通過不斷增加新點(diǎn)變換中心位置得到最終結(jié)果。Kmean的缺點(diǎn)可以用Kmean++方法進(jìn)行一些解決(思想是使得初始聚類中心之間的距離最大化)
6、EM算法、HMM、CRF
這三個(gè)放在一起不是很恰當(dāng),但是有互相有關(guān)聯(lián),所以就放在這里一起說了。注意重點(diǎn)關(guān)注算法的思想。
(1)EM算法
EM算法是用于含有隱變量模型的極大似然估計(jì)或者極大后驗(yàn)估計(jì),有兩步組成:E步,求期望(expectation);M步,求極大(maxmization)。本質(zhì)上EM算法還是一個(gè)迭代算法,通過不斷用上一代參數(shù)對(duì)隱變量的估計(jì)來對(duì)當(dāng)前變量進(jìn)行計(jì)算,直到收斂。
注意:EM算法是對(duì)初值敏感的,而且EM是不斷求解下界的極大化逼近求解對(duì)數(shù)似然函數(shù)的極大化的算法,也就是說EM算法不能保證找到全局最優(yōu)值。對(duì)于EM的導(dǎo)出方法也應(yīng)該掌握。
(2)HMM算法
隱馬爾可夫模型是用于標(biāo)注問題的生成模型。有幾個(gè)參數(shù)(ππ ,A,B):初始狀態(tài)概率向量ππ ,狀態(tài)轉(zhuǎn)移矩陣A,觀測(cè)概率矩陣B。稱為馬爾科夫模型的三要素。
馬爾科夫三個(gè)基本問題:
概率計(jì)算問題:給定模型和觀測(cè)序列,計(jì)算模型下觀測(cè)序列輸出的概率。–》前向后向算法 學(xué)習(xí)問題:已知觀測(cè)序列,估計(jì)模型參數(shù),即用極大似然估計(jì)來估計(jì)參數(shù)。–》Baum-Welch(也就是EM算法)和極大似然估計(jì)。 預(yù)測(cè)問題:已知模型和觀測(cè)序列,求解對(duì)應(yīng)的狀態(tài)序列。–》近似算法(貪心算法)和維比特算法(動(dòng)態(tài)規(guī)劃求最優(yōu)路徑)(3)條件隨機(jī)場(chǎng)CRF
給定一組輸入隨機(jī)變量的條件下另一組輸出隨機(jī)變量的條件概率分布密度。條件隨機(jī)場(chǎng)假設(shè)輸出變量構(gòu)成馬爾科夫隨機(jī)場(chǎng),而我們平時(shí)看到的大多是線性鏈條隨機(jī)場(chǎng),也就是由輸入對(duì)輸出進(jìn)行預(yù)測(cè)的判別模型。求解方法為極大似然估計(jì)或正則化的極大似然估計(jì)。
之所以總把HMM和CRF進(jìn)行比較,主要是因?yàn)镃RF和HMM都利用了圖的知識(shí),但是CRF利用的是馬爾科夫隨機(jī)場(chǎng)(無向圖),而HMM的基礎(chǔ)是貝葉斯網(wǎng)絡(luò)(有向圖)。而且CRF也有:概率計(jì)算問題、學(xué)習(xí)問題和預(yù)測(cè)問題。大致計(jì)算方法和HMM類似,只不過不需要EM算法進(jìn)行學(xué)習(xí)問題。
(4)HMM和CRF對(duì)比
其根本還是在于基本的理念不同,一個(gè)是生成模型,一個(gè)是判別模型,這也就導(dǎo)致了求解方式的不同。
7、常見基礎(chǔ)問題
(1)數(shù)據(jù)歸一化(或者標(biāo)準(zhǔn)化,注意歸一化和標(biāo)準(zhǔn)化不同)的原因
要強(qiáng)調(diào):能不歸一化最好不歸一化,之所以進(jìn)行數(shù)據(jù)歸一化是因?yàn)楦骶S度的量綱不相同。而且需要看情況進(jìn)行歸一化。
有些模型在各維度進(jìn)行了不均勻的伸縮后,最優(yōu)解與原來不等價(jià)(如SVM)需要?dú)w一化。 有些模型伸縮有與原來等價(jià),如:LR則不用歸一化,但是實(shí)際中往往通過迭代求解模型參數(shù),如果目標(biāo)函數(shù)太扁(想象一下很扁的高斯模型)迭代算法會(huì)發(fā)生不收斂的情況,所以最壞進(jìn)行數(shù)據(jù)歸一化。補(bǔ)充:其實(shí)本質(zhì)是由于loss函數(shù)不同造成的,SVM用了歐拉距離,如果一個(gè)特征很大就會(huì)把其他的維度dominated。而LR可以通過權(quán)重調(diào)整使得損失函數(shù)不變。
(2)衡量分類器的好壞:
這里首先要知道TP、FN(真的判成假的)、FP(假的判成真)、TN四種(可以畫一個(gè)表格)。
幾種常用的指標(biāo):
精度precision = TP/(TP+FP) = TP/~P (~p為預(yù)測(cè)為真的數(shù)量) 召回率 recall = TP/(TP+FN) = TP/ P F1值: 2/F1 = 1/recall + 1/precision ROC曲線:ROC空間是一個(gè)以偽陽性率(FPR,false positive rate)為X軸,真陽性率(TPR, true positive rate)為Y軸的二維坐標(biāo)系所代表的平面。其中真陽率TPR = TP / P = recall, 偽陽率FPR = FP / N(3)SVD和PCA
PCA的理念是使得數(shù)據(jù)投影后的方差最大,找到這樣一個(gè)投影向量,滿足方差最大的條件即可。而經(jīng)過了去除均值的操作之后,就可以用SVD分解來求解這樣一個(gè)投影向量,選擇特征值最大的方向。
(4)防止過擬合的方法
過擬合的原因是算法的學(xué)習(xí)能力過強(qiáng);一些假設(shè)條件(如樣本獨(dú)立同分布)可能是不成立的;訓(xùn)練樣本過少不能對(duì)整個(gè)空間進(jìn)行分布估計(jì)。
處理方法:
早停止:如在訓(xùn)練中多次迭代后發(fā)現(xiàn)模型性能沒有顯著提高就停止訓(xùn)練 數(shù)據(jù)集擴(kuò)增:原有數(shù)據(jù)增加、原有數(shù)據(jù)加隨機(jī)噪聲、重采樣 正則化 交叉驗(yàn)證 特征選擇/特征降維(5)數(shù)據(jù)不平衡問題
這主要是由于數(shù)據(jù)分布不平衡造成的。解決方法如下:
采樣,對(duì)小樣本加噪聲采樣,對(duì)大樣本進(jìn)行下采樣 進(jìn)行特殊的加權(quán),如在Adaboost中或者SVM中 采用對(duì)不平衡數(shù)據(jù)集不敏感的算法 改變?cè)u(píng)價(jià)標(biāo)準(zhǔn):用AUC/ROC來進(jìn)行評(píng)價(jià) 采用Bagging/Boosting/ensemble等方法 考慮數(shù)據(jù)的先驗(yàn)分布機(jī)器學(xué)習(xí)面試問題準(zhǔn)備(進(jìn)階)
這部分主要是針對(duì)上面問題的一些更細(xì)節(jié)的補(bǔ)充,包括公式的推倒思路、模型的基本構(gòu)成、細(xì)節(jié)問題的分析等等。一、問題雜燴
1、PCA的第二主成分
第二個(gè)主成分時(shí)域第一成分方向正教的差異性次大方向。
2、什么時(shí)候用組合的學(xué)習(xí)模型
只有當(dāng)各個(gè)模型之間沒有相關(guān)性的時(shí)候組合起來是最好用的。但是一般來說,弱相關(guān)的模型組合比較好用。
3、多重共線性
多重共線性是指當(dāng)兩個(gè)特征的相關(guān)性很大的時(shí)候,會(huì)對(duì)參數(shù)模型造成非常大的影響??梢杂孟嚓P(guān)分析判斷多重共線性的存在性。
4、什么時(shí)候用L2優(yōu)于L1
如果多個(gè)變量都是一些具有小尺度或中等尺度影響的時(shí)候用L2比較好,如果個(gè)別變量影響很大的時(shí)候用L1。其實(shí)也可以結(jié)合起來使用。
5、交叉驗(yàn)證的參數(shù)選擇問題
我們通常進(jìn)行參數(shù)選擇的時(shí)候都是用網(wǎng)格法做的,但是這樣其實(shí)也是有弊端的,索性可以用隨機(jī)取樣的方式逼近最優(yōu)參數(shù)。
6、如果缺失值超過30%要怎么辦?
可以把缺失值單獨(dú)組成一類。
二、模型流程和公式推導(dǎo)
1、PCA傳統(tǒng)計(jì)算流程:
去除均值 計(jì)算協(xié)方差矩陣 計(jì)算特征值和特征向量 特征值從大到小排序 保留前N個(gè)特征向量 投影重構(gòu)(記得吧去除的均值還回去)或者干脆去均值后用SVD計(jì)算
2、離散數(shù)據(jù)下的生成模型
(1)貝葉斯概念
我們都知道概率學(xué)派和貝葉斯學(xué)派的不同,現(xiàn)在我們從貝葉斯的角度上考慮問題。對(duì)于一個(gè)問題,通常要考慮其先驗(yàn)概率,這是因?yàn)閷?duì)于某些數(shù)據(jù)不足或有某些問題的情況下,單純考慮似然函數(shù)是不夠的,還需要引入假設(shè)先驗(yàn)給一個(gè)主觀的先驗(yàn)概率,而且在真正分析的時(shí)候應(yīng)該引入假設(shè)空間D的概念(滿足要求的所有假設(shè)),后驗(yàn)就相當(dāng)于給定假設(shè)空間D下的其中某一個(gè)假設(shè)D的概率P(h|D)。
其實(shí)本質(zhì)上最大后驗(yàn)估計(jì)MAP是等價(jià)于最大似然估計(jì)的,即數(shù)據(jù)點(diǎn)足夠多的時(shí)候會(huì)淹沒先驗(yàn)。
利用得到的后驗(yàn)進(jìn)行預(yù)測(cè)需要后驗(yàn)預(yù)測(cè)分布(Posterior pordictive distribution),方法是對(duì)每一個(gè)獨(dú)立假設(shè)的加權(quán)均值(稱之為Bayes model averaging)
我們使用MAP的時(shí)候都要對(duì)先驗(yàn)進(jìn)行一些假設(shè),而這些假設(shè)對(duì)應(yīng)的先驗(yàn)函數(shù)和似然函數(shù)通常是共軛的,這樣方便計(jì)算,關(guān)于共軛分布的概念其實(shí)很簡(jiǎn)單,常用的幾個(gè)了解就可以。
(2)樸素貝葉斯分類器
樸素貝葉斯是最簡(jiǎn)單的分類器之一了,根本是假設(shè)各個(gè)特征之間是獨(dú)立同分布的,也就是說P(X|y)=P(x1|y)*…P(xn|y)。我們可以假設(shè)特征x的分布,比如:在特征為real-value的時(shí)候,可以假設(shè)特征分布為高斯分布、在特征為二元特征的時(shí)候假設(shè)為Bernoulli分布、在類別特征的時(shí)候假設(shè)為multinoulli分布(我們通常見到的)。通常我們看到的Laplace平滑實(shí)際上是對(duì)參數(shù)的先驗(yàn)分布(但是這個(gè)先驗(yàn)可以只看出一個(gè)附加條件)。
具體的關(guān)于樸素貝葉斯的推導(dǎo)和使用見這里。補(bǔ)充一點(diǎn),貝葉斯是可以進(jìn)行在線學(xué)習(xí)的。但是要知道貝葉斯其實(shí)可以變得更復(fù)雜。
3、Gaussian高斯模型的高斯判別分析
對(duì)于多元高斯分布來說,他的共軛分布也是多元高斯分布,關(guān)于多元高斯分布的最大似然結(jié)果可以自己查查資料。這里主要說的是高斯判別分析。
高斯判別分析假設(shè)p(X,y=c,θθ )= N(X|μμ ,ΣΣ )服從多元高斯分布,當(dāng)ΣΣ 為對(duì)角矩陣的時(shí)候起始就是上面說的樸素貝葉斯了。我們通常說到的Linear discriminant analysis(LDA)其實(shí)就是高斯判別模型的一種,假設(shè)所有類別的協(xié)方差矩陣都是相同的,這時(shí)求解后驗(yàn)分布的時(shí)候得到的就是LDA。當(dāng)然協(xié)方差矩陣不同的時(shí)候?qū)?yīng)的QDA(Quadratic discriminant analysis,二次判別分析)。這個(gè)相當(dāng)于我們對(duì)于通常定義LDA**最大化類間距最小化類內(nèi)距離**實(shí)際上是等價(jià)的。
4、Logistic regression和指數(shù)分布族
這里將會(huì)從兩個(gè)角度看一下邏輯回歸的推導(dǎo)過程。
(1)邏輯回歸推導(dǎo)
這個(gè)很簡(jiǎn)單,網(wǎng)上隨便找一個(gè)都有,就是求解MLE而已。但是除了二元的邏輯回歸還應(yīng)該知道多元邏輯回歸的條件概率由sigmoid變?yōu)閟oftmax。
(2)邏輯回歸的廣義線性模型解釋
首先要知道什么是廣義線性模型:廣義線性模型是指輸出概率是指數(shù)分布族的y|x;θ~ExpoentialFamily(η),而且指數(shù)分布族的自然參數(shù)η的是x的線性組合。這個(gè)我掌握的不是很好,但是如果面試的時(shí)候講出來效果應(yīng)該不錯(cuò)。
(3)邏輯回歸輸出值是不是概率
答案是肯定的,解釋在這里,其實(shí)用廣義線性模型的思路說更好,但是實(shí)在是對(duì)概念掌握的不好。
5、SVM支持向量機(jī)
(1)支持向量機(jī)的公式推導(dǎo),要詳細(xì)到KKT條件。
(2)可以進(jìn)一步結(jié)合核函數(shù)和GLM引出核機(jī)的概念。
6、概率圖模型
有向圖、無向圖等
三、重要概念
1、監(jiān)督學(xué)習(xí)的生成模型和判別模型
這可以說是一個(gè)最基礎(chǔ)的問題,但是深挖起來又很復(fù)雜,面試的時(shí)候應(yīng)該說出幾個(gè)有亮點(diǎn)的部分。
(1)基本說法
生成模型是由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y),然后再求出條件概率分布P(Y|X),典型的生成模型有樸素貝葉斯和馬爾科夫模型。
判別模型就是直接學(xué)習(xí)判別函數(shù)或者是條件概率分布,應(yīng)該是更直接一些。兩者各有優(yōu)缺點(diǎn)。
(2)進(jìn)階區(qū)分
* 應(yīng)該說生成模型的假設(shè)性更強(qiáng)一些,因?yàn)橥ǔJ菑暮篁?yàn)分布的角度思考問題,通常對(duì)x的分布進(jìn)行了一些假設(shè)。
* 訓(xùn)練過程中,對(duì)于判別模型通常是最大化對(duì)數(shù)似然,對(duì)生成模型則是最大化聯(lián)合對(duì)數(shù)似然函數(shù)
* 因?yàn)樯赡P蛯?duì)于特征的分布都做出了一定的假設(shè)(如高斯判別模型假設(shè)特征分布滿足多元高斯分布),所以如果對(duì)于特征的分布估計(jì)比較正確的情況下,生成模型的速度更好準(zhǔn)確性也更高。
* 生成模型在訓(xùn)練數(shù)據(jù)的時(shí)候?qū)τ诿恳活悢?shù)據(jù)的都是獨(dú)立估計(jì)的(也就是每一類的參數(shù)不同),這也就說明如果有新類別加入的情況下,是不需要對(duì)原有類別進(jìn)行重新訓(xùn)練的
* 對(duì)于半監(jiān)督學(xué)習(xí),生成模型往往更有用
* 生成模型有一個(gè)大的缺點(diǎn)就是不能對(duì)特征進(jìn)行某些預(yù)處理(如特征映射),因?yàn)轭A(yù)處理后的數(shù)據(jù)分布往往有了很大的變化。
2、頻率學(xué)派的一些基本理論
(1)期望損失(風(fēng)險(xiǎn)函數(shù))、經(jīng)驗(yàn)損失(經(jīng)驗(yàn)風(fēng)險(xiǎn))、結(jié)構(gòu)風(fēng)險(xiǎn)
期望損失:理論上知道模型后得到的平均損失較期望損失(依賴于真實(shí)分布),但是模型正是我們要求的
經(jīng)驗(yàn)損失:經(jīng)驗(yàn)損失指針對(duì)模型的抽樣值(訓(xùn)練集)進(jìn)行平均的損失估計(jì),根據(jù)大數(shù)定律當(dāng)訓(xùn)練數(shù)據(jù)足夠的時(shí)候經(jīng)驗(yàn)損失和期望損失是等價(jià)的
結(jié)構(gòu)風(fēng)險(xiǎn):經(jīng)驗(yàn)損失是假設(shè)經(jīng)驗(yàn)分布和自然分布相同時(shí)得到的,但是這樣會(huì)造成過擬合,所以引入了正則化,懲罰模型復(fù)雜度。
(2)極大似然MLE、極大后驗(yàn)MAP
因?yàn)槲覀冇械臅r(shí)候利用經(jīng)驗(yàn)損失求解的時(shí)候會(huì)遇到不好求解的問題(如不連續(xù)0-1)這是可以用對(duì)數(shù)極大似然估計(jì)等價(jià)的對(duì)參數(shù)進(jìn)行分析。
同理最大后驗(yàn)利用先驗(yàn)概率達(dá)到懲罰模型的作用。如l2-norm嶺回歸對(duì)應(yīng)高斯先驗(yàn)、L1對(duì)應(yīng)拉普拉斯先驗(yàn)。