文本機(jī)器學(xué)習(xí)基本信息

書????名 文本機(jī)器學(xué)習(xí) 作????者 [美] 查魯.C.阿加沃爾(Charu.C.Aggarwal)
出版社 機(jī)械工業(yè)出版社 ISBN 9787111648055

譯者序

原書前言

致謝

第1章 文本機(jī)器學(xué)習(xí)導(dǎo)論1

1.1導(dǎo)論1

1.1.1本章內(nèi)容組織結(jié)構(gòu)2

1.2文本學(xué)習(xí)有何特別之處3

1.3文本分析模型4

1.3.1文本預(yù)處理和相似度計(jì)算4

1.3.2降維與矩陣分解6

1.3.3文本聚類6

1.3.4文本分類與回歸建模8

1.3.5結(jié)合文本與異構(gòu)數(shù)據(jù)的聯(lián)合分析10

1.3.6信息檢索與網(wǎng)頁搜索11

1.3.7序列語言建模與嵌入11

1.3.8文本摘要11

1.3.9信息提取11

1.3.10意見挖掘與情感分析12

1.3.11文本分割與事件檢測12

1.4本章小結(jié)12

1.5參考資料13

1.5.1軟件資源13

1.6習(xí)題13

第2章 文本預(yù)處理與相似度計(jì)算15

2.1導(dǎo)論15

2.1.1本章內(nèi)容組織結(jié)構(gòu)16

2.2原始文本提取與詞條化16

2.2.1文本提取中與網(wǎng)頁相關(guān)的問題18

2.3從詞條中提取詞項(xiàng)19

2.3.1停用詞移除19

2.3.2連字符19

2.3.3大小寫轉(zhuǎn)換20

2.3.4基于用法的合并20

2.3.5詞干提取21

2.4向量空間表示與歸一化21

2.5文本中的相似度計(jì)算23

2.5.1idf歸一化和詞干提取是否總是有用25

2.6本章小結(jié)26

2.7參考資料26

2.7.1軟件資源26

2.8習(xí)題27

第3章 矩陣分解與主題建模28

3.1導(dǎo)論28

3.1.1本章內(nèi)容組織結(jié)構(gòu)30

3.1.2將二分解歸一化為標(biāo)準(zhǔn)的三分解30

3.2奇異值分解(SVD)31

3.2.1SVD的例子33

3.2.2實(shí)現(xiàn)SVD的冪迭代法35

3.2.3SVD/LSA的應(yīng)用35

3.2.4SVD/LSA的優(yōu)缺點(diǎn)36

3.3非負(fù)矩陣分解36

3.3.1非負(fù)矩陣分解的可解釋性38

3.3.2非負(fù)矩陣分解的例子39

3.3.3融入新文檔40

3.3.4非負(fù)矩陣分解的優(yōu)缺點(diǎn)41

3.4概率潛在語義分析(PLSA)41

3.4.1與非負(fù)矩陣分解的聯(lián)系44

3.4.2與SVD的比較44

3.4.3PLSA的例子45

3.4.4PLSA的優(yōu)缺點(diǎn)45

3.5隱含狄利克雷分布(LDA)概覽46

3.5.1簡化的LDA模型46

3.5.2平滑的LDA模型49

3.6非線性變換和特征工程50

3.6.1選擇一個相似度函數(shù)52

3.6.2Nystrom估計(jì)58

3.6.3相似度矩陣的部分可用性60

3.7本章小結(jié)61

3.8參考資料62

3.8.1軟件資源62

3.9習(xí)題63

第4章 文本聚類65

4.1導(dǎo)論65

4.1.1本章內(nèi)容組織結(jié)構(gòu)66

4.2特征選擇與特征工程66

4.2.1特征選擇67

4.2.2特征工程68

4.3主題建模和矩陣分解70

4.3.1混合隸屬度模型與重疊簇70

4.3.2非重疊簇與雙聚類:矩陣分解的角度70

4.4面向聚類的生成混合模型74

4.4.1伯努利模型75

4.4.2多項(xiàng)式模型76

4.4.3與混合隸屬度主題模型的比較77

4.4.4與樸素貝葉斯分類模型的聯(lián)系77

4.5k均值算法78

4.5.1收斂與初始化80

4.5.2計(jì)算復(fù)雜度80

4.5.3與概率模型的聯(lián)系81

4.6層次聚類算法81

4.6.1高效實(shí)現(xiàn)與計(jì)算復(fù)雜度83

4.6.2與k均值的自然聯(lián)姻84

4.7聚類集成85

4.7.1選擇集成分量86

4.7.2混合來自不同分量的結(jié)果86

4.8將文本當(dāng)作序列來進(jìn)行聚類87

4.8.1面向聚類的核方法87

4.8.2數(shù)據(jù)相關(guān)的核方法:譜聚類90

4.9聚類到有監(jiān)督學(xué)習(xí)的轉(zhuǎn)換91

4.9.1實(shí)際問題92

4.10聚類評估93

4.10.1內(nèi)部有效性度量的缺陷93

4.10.2外部有效性度量93

4.11本章小結(jié)97

4.12參考資料97

4.12.1軟件資源98

4.13習(xí)題98

第5章 文本分類:基本模型100

5.1導(dǎo)論100

5.1.1標(biāo)記的類型與回歸建模101

5.1.2訓(xùn)練與測試102

5.1.3歸納、直推和演繹學(xué)習(xí)器102

5.1.4基本模型103

5.1.5分類器中與文本相關(guān)的挑戰(zhàn)103

5.2特征選擇與特征工程104

5.2.1基尼系數(shù)104

5.2.2條件熵105

5.2.3逐點(diǎn)互信息105

5.2.4緊密相關(guān)的度量方式106

5.2.5χ2-統(tǒng)計(jì)量106

5.2.6嵌入式特征選擇模型108

5.2.7特征工程技巧108

5.3樸素貝葉斯模型109

5.3.1伯努利模型109

5.3.2多項(xiàng)式模型111

5.3.3實(shí)際觀察113

5.3.4利用樸素貝葉斯對輸出進(jìn)行排序113

5.3.5樸素貝葉斯的例子113

5.3.6半監(jiān)督樸素貝葉斯116

5.4最近鄰分類器118

5.4.11-最近鄰分類器的屬性119

5.4.2Rocchio與最近質(zhì)心分類121

5.4.3加權(quán)最近鄰122

5.4.4自適應(yīng)最近鄰:一系列有效的方法124

5.5決策樹與隨機(jī)森林126

5.5.1構(gòu)造決策樹的基本步驟126

5.5.2分裂一個節(jié)點(diǎn)127

5.5.3多變量分裂128

5.5.4決策樹在文本分類中的問題129

5.5.5隨機(jī)森林129

5.5.6把隨機(jī)森林看作自適應(yīng)最近鄰方法130

5.6基于規(guī)則的分類器131

5.6.1順序覆蓋算法131

5.6.2從決策樹中生成規(guī)則133

5.6.3關(guān)聯(lián)分類器134

5.6.4預(yù)測135

5.7本章小結(jié)135

5.8參考資料135

5.8.1軟件資源137

5.9習(xí)題137

第6章 面向文本的線性分類與回歸140

6.1導(dǎo)論140

6.1.1線性模型的幾何解釋141

6.1.2我們需要偏置變量嗎142

6.1.3使用正則化的線性模型的一般定義143

6.1.4將二值預(yù)測推廣到多類144

6.1.5面向文本的線性模型的特點(diǎn)145

6.2最小二乘回歸與分類145

6.2.1使用L2正則化的最小二乘回歸145

6.2.2LASSO:使用L1正則化的最小二乘回歸148

6.2.3Fisher線性判別與最小二乘分類器150

6.3支持向量機(jī)(SVM)156

6.3.1正則優(yōu)化解釋156

6.3.2最大間隔解釋157

6.3.3Pegasos:在原始空間中求解SVM 159

6.3.4對偶SVM優(yōu)化形式160

6.3.5對偶SVM的學(xué)習(xí)算法162

6.3.6對偶SVM的自適應(yīng)最近鄰解釋163

6.4對數(shù)幾率回歸165

6.4.1正則優(yōu)化解釋165

6.4.2對數(shù)幾率回歸的訓(xùn)練算法166

6.4.3對數(shù)幾率回歸的概率解釋167

6.4.4多元對數(shù)幾率回歸與其他推廣168

6.4.5關(guān)于對數(shù)幾率回歸性能的評述169

6.5線性模型的非線性推廣170

6.5.1基于顯式變換的核SVM171

6.5.2為什么傳統(tǒng)的核函數(shù)能夠提升線性可分性172

6.5.3不同核函數(shù)的優(yōu)缺點(diǎn)174

6.5.4核技巧175

6.5.5核技巧的系統(tǒng)性應(yīng)用176

6.6本章小結(jié)179

6.7參考資料180

6.7.1軟件資源181

6.8習(xí)題181

第7章 分類器的性能與評估184

7.1導(dǎo)論184

7.1.1本章內(nèi)容組織結(jié)構(gòu)184

7.2偏置-方差權(quán)衡185

7.2.1一個形式化的觀點(diǎn)186

7.2.2偏置和方差的跡象189

7.3偏置-方差權(quán)衡在性能方面可能的影響189

7.3.1訓(xùn)練數(shù)據(jù)規(guī)模的影響189

7.3.2數(shù)據(jù)維度的影響191

7.3.3文本中模型選擇可能的影響191

7.4利用集成方法系統(tǒng)性地提升性能192

7.4.1bagging與子采樣192

7.4.2boosting193

7.5分類器評估195

7.5.1分割為訓(xùn)練部分和測試部分196

7.5.2絕對準(zhǔn)確率度量197

7.5.3面向分類和信息檢索的排序度量199

7.6本章小結(jié)204

7.7參考資料205

7.7.1boosting與對數(shù)幾率回歸的聯(lián)系205

7.7.2分類器評估205

7.7.3軟件資源206

7.7.4用于評估的數(shù)據(jù)集206

7.8習(xí)題206

第8章 結(jié)合異構(gòu)數(shù)據(jù)的聯(lián)合文本挖掘208

8.1導(dǎo)論208

8.1.1本章內(nèi)容組織結(jié)構(gòu)210

8.2共享矩陣分解的技巧210

8.2.1分解圖210

8.2.2應(yīng)用:結(jié)合文本和網(wǎng)頁鏈接進(jìn)行共享分解211

8.2.3應(yīng)用:結(jié)合文本與無向社交網(wǎng)絡(luò)214

8.2.4應(yīng)用:結(jié)合文本的圖像遷移學(xué)習(xí)215

8.2.5應(yīng)用:結(jié)合評分和文本的推薦系統(tǒng)217

8.2.6應(yīng)用:跨語言文本挖掘218

8.3分解機(jī)219

8.4聯(lián)合概率建模技術(shù)223

8.4.1面向聚類的聯(lián)合概率模型223

8.4.2樸素貝葉斯分類器224

8.5到圖挖掘技術(shù)的轉(zhuǎn)換224

8.6本章小結(jié)226

8.7參考資料227

8.7.1軟件資源227

8.8習(xí)題228

第9章 信息檢索與搜索引擎229

9.1導(dǎo)論229

9.1.1本章內(nèi)容組織結(jié)構(gòu)230

9.2索引和查詢處理230

9.2.1詞典數(shù)據(jù)結(jié)構(gòu)231

9.2.2倒排索引233

9.2.3線性時間的索引構(gòu)建234

9.2.4查詢處理236

9.2.5效率優(yōu)化244

9.3信息檢索模型的評分248

9.3.1基于tf-idf的向量空間模型248

9.3.2二值獨(dú)立模型249

9.3.3使用詞項(xiàng)頻率的BM25模型251

9.3.4信息檢索中的統(tǒng)計(jì)語言模型252

9.4網(wǎng)絡(luò)爬蟲與資源發(fā)現(xiàn)254

9.4.1一個基本的爬蟲算法255

9.4.2帶偏好的爬蟲256

9.4.3多線程257

9.4.4避開蜘蛛陷阱258

9.4.5用于近似重復(fù)檢測的Shingling方法258

9.5搜索引擎中的查詢處理259

9.5.1分布式索引構(gòu)建259

9.5.2動態(tài)索引更新260

9.5.3查詢處理260

9.5.4信譽(yù)度的重要性261

9.6基于鏈接的排序算法262

9.6.1PageRank262

9.6.2HITS267

9.7本章小結(jié)269

9.8參考資料269

9.8.1軟件資源270

9.9習(xí)題270

第10章 文本序列建模與深度學(xué)習(xí)272

10.1導(dǎo)論272

10.1.1本章內(nèi)容組織結(jié)構(gòu)274

10.2統(tǒng)計(jì)語言模型274

10.2.1skip-gram模型277

10.2.2與嵌入的關(guān)系278

10.3核方法279

10.4單詞-上下文矩陣分解模型 280

10.4.1使用計(jì)數(shù)的矩陣分解280

10.4.2GloVe嵌入282

10.4.3PPMI矩陣分解283

10.4.4位移PPMI矩陣分解283

10.4.5融入句法和其他特征283

10.5單詞距離的圖形化表示284

10.6神經(jīng)語言模型285

10.6.1神經(jīng)網(wǎng)絡(luò)簡介285

10.6.2基于word2vec的神經(jīng)嵌入295

10.6.3word2vec(SGNS)是對數(shù)幾率矩陣分解302

10.6.4除了單詞以外:基于doc2vec的段落嵌入304

10.7循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)305

10.7.1實(shí)際問題307

10.7.2RNN的語言建模示例308

10.7.3圖像描述應(yīng)用310

10.7.4序列到序列學(xué)習(xí)與機(jī)器翻譯311

10.7.5句子級分類應(yīng)用314

10.7.6使用語言特征的詞條級分類315

10.7.7多層循環(huán)網(wǎng)絡(luò)316

10.8本章小結(jié)319

10.9參考資料319

10.9.1軟件資源320

10.10習(xí)題321

第11章 文本摘要323

11.1導(dǎo)論323

11.1.1提取式摘要與抽象式摘要324

11.1.2提取式摘要中的關(guān)鍵步驟324

11.1.3提取式摘要中的分割階段324

11.1.4本章內(nèi)容組織結(jié)構(gòu)325

11.2提取式摘要的主題詞方法325

11.2.1詞項(xiàng)概率325

11.2.2歸一化頻率權(quán)重326

11.2.3主題簽名327

11.2.4句子選擇方法329

11.3提取式摘要的潛在方法329

11.3.1潛在語義分析330

11.3.2詞匯鏈331

11.3.3基于圖的方法332

11.3.4質(zhì)心摘要333

11.4面向提取式摘要的機(jī)器學(xué)習(xí)334

11.4.1特征提取334

11.4.2使用哪種分類器335

11.5多文檔摘要335

11.5.1基于質(zhì)心的摘要335

11.5.2基于圖的方法336

11.6抽象式摘要337

11.6.1句子壓縮337

11.6.2信息融合338

11.6.3信息排列338

11.7本章小結(jié)338

11.8參考資料339

11.8.1軟件資源339

11.9習(xí)題340

第12章 信息提取341

12.1導(dǎo)論341

12.1.1歷史演變343

12.1.2自然語言處理的角色343

12.1.3本章內(nèi)容組織結(jié)構(gòu)345

12.2命名實(shí)體識別345

12.2.1基于規(guī)則的方法346

12.2.2轉(zhuǎn)化為詞條級分類任務(wù)349

12.2.3隱馬爾可夫模型350

12.2.4最大熵馬爾可夫模型354

12.2.5條件隨機(jī)場355

12.3關(guān)系提取357

12.3.1轉(zhuǎn)換為分類問題357

12.3.2利用顯式的特征工程進(jìn)行關(guān)系預(yù)測358

12.3.3利用隱式的特征工程進(jìn)行關(guān)系預(yù)測:核方法361

12.4本章小結(jié)365

12.5參考資料365

12.5.1弱監(jiān)督學(xué)習(xí)方法366

12.5.2無監(jiān)督與開放式信息提取 366

12.5.3軟件資源367

12.6習(xí)題367

第13章 意見挖掘與情感分析368

13.1導(dǎo)論368

13.1.1意見詞典370

13.1.2把意見挖掘看作槽填充和信息提取任務(wù)371

13.1.3本章內(nèi)容組織結(jié)構(gòu)372

13.2文檔級情感分析372

13.2.1面向分類的無監(jiān)督方法374

13.3短語級與句子級情感分類375

13.3.1句子級與短語級分析的應(yīng)用376

13.3.2主觀性分類到最小割問題的歸約376

13.3.3句子級與短語級極性分析中的上下文377

13.4把基于方面的意見挖掘看作信息提取任務(wù)377

13.4.1Hu和Liu的無監(jiān)督方法378

13.4.2OPINE:一種無監(jiān)督方法379

13.4.3把有監(jiān)督意見提取看作詞條級分類任務(wù)380

13.5虛假意見381

13.5.1面向虛假評論檢測的有監(jiān)督方法382

13.5.2面向虛假評論制造者檢測的無監(jiān)督方法384

13.6意見摘要384

13.6.1評分總結(jié)384

13.6.2情感總結(jié)385

13.6.3基于短語與句子的情感總結(jié)385

13.6.4提取式與抽象式總結(jié)385

13.7本章小結(jié)385

13.8參考資料385

13.8.1軟件資源387

13.9習(xí)題387

第14章 文本分割與事件檢測388

14.1導(dǎo)論388

14.1.1與話題檢測和追蹤的關(guān)系388

14.1.2本章內(nèi)容組織結(jié)構(gòu)389

14.2文本分割389

14.2.1TextTiling390

14.2.2C99方法390

14.2.3基于現(xiàn)成的分類器的有監(jiān)督的分割392

14.2.4基于馬爾可夫模型的有監(jiān)督的分割393

14.3文本流挖掘395

14.3.1流式文本聚類395

14.3.2面向首次報道檢測的應(yīng)用 396

14.4事件檢測397

14.4.1無監(jiān)督的事件檢測397

14.4.2把有監(jiān)督的事件檢測看作有監(jiān)督的分割任務(wù)399

14.4.3把事件檢測看作一個信息提取問題399

14.5本章小結(jié)402

14.6參考資料402

14.6.1軟件資源402

14.7習(xí)題403

參考文獻(xiàn)404

文本機(jī)器學(xué)習(xí)造價信息

市場價 信息價 詢價
材料名稱 規(guī)格/型號 市場價
(除稅)
工程建議價
(除稅)
行情 品牌 單位 稅率 供應(yīng)商 報價日期
學(xué)習(xí) 品種:書桌(學(xué)習(xí)桌);規(guī)格說明:單桌:650W×450D×690/750H;椅子:400W×470D×770/830H;型號:SJKF-30 查看價格 查看價格

思進(jìn)

13% 深圳市卡路福家居有限公司
學(xué)習(xí) 品種:書桌(學(xué)習(xí)桌);規(guī)格說明:單桌:650W×450D×750H;椅子:400W×470D×800H;型號:SJKF-3002;說明:板材 查看價格 查看價格

思進(jìn)

13% 深圳市卡路福家居有限公司
學(xué)習(xí) 品種:書桌(學(xué)習(xí)桌);規(guī)格說明:單桌:1200W×450D×690H;椅子:400W×470D×770/830H;型號:SJKF-3002B 查看價格 查看價格

思進(jìn)

13% 深圳市卡路福家居有限公司
學(xué)習(xí) 品種:書桌(學(xué)習(xí)桌);規(guī)格說明:單桌:600W×400D×750H;椅子:370W×370D×750H;型號:SJKF-3031;說明:板材 查看價格 查看價格

思進(jìn)

13% 深圳市卡路福家居有限公司
學(xué)習(xí) 品種:書桌(學(xué)習(xí)桌);規(guī)格說明:單桌:1200W×450D×690/750H;椅子:400W×470D×770/830H;型號:SJKF-3 查看價格 查看價格

思進(jìn)

13% 深圳市卡路福家居有限公司
學(xué)習(xí) 品種:書桌(學(xué)習(xí)桌);規(guī)格說明:1500,單桌:750W×395D;型號:SJKF-3042;說明:板材:采用優(yōu)質(zhì)三聚氰胺板;管材:全部采用 查看價格 查看價格

思進(jìn)

13% 深圳市卡路福家居有限公司
學(xué)習(xí) 型號:SHD0101.1200;ERP編碼:172400017;規(guī)格mm:1200×610×610;材質(zhì)顏色:波卡爾橡木+天空藍(lán);箱數(shù)/套: 查看價格 查看價格

圣奧

13% 山西圣之奧家具有限公司
學(xué)習(xí) 型號:SHD0102.1200;ERP編碼:172400019;規(guī)格mm:1200×610×610;材質(zhì)顏色:波卡爾橡木+公主粉;箱數(shù)/套: 查看價格 查看價格

圣奧

13% 山西圣之奧家具有限公司
材料名稱 規(guī)格/型號 除稅
信息價
含稅
信息價
行情 品牌 單位 稅率 地區(qū)/時間
暫無數(shù)據(jù)
材料名稱 規(guī)格/需求量 報價數(shù) 最新報價
(元)
供應(yīng)商 報價地區(qū) 最新報價時間
本機(jī) DC24V|1套 2 查看價格 西門子(中國)有限公司 廣東   2019-08-16
另見文本說明 2800×600×780|1組 1 查看價格 廣州市從化江埔怡業(yè)校具廠 廣東  廣州市 2010-05-19
機(jī)器人系統(tǒng) 物聯(lián)網(wǎng)機(jī)器人 定制|1臺 3 查看價格 深圳泰爾智能視控股份有限公司 全國   2020-07-06
學(xué)習(xí)強(qiáng)國對戰(zhàn)系統(tǒng) 1.內(nèi)容:含學(xué)習(xí)強(qiáng)國對戰(zhàn)終端(含學(xué)習(xí)強(qiáng)國對戰(zhàn)平臺);55寸觸摸黨建可視屏;戶外信息發(fā)布終端(含信息發(fā)布軟件)|1臺 2 查看價格 廣州市熹尚科技設(shè)備有限公司 全國   2022-01-06
文本操作器 TD400|2874個 1 查看價格 深圳市宇隆偉業(yè)科技有限公司 廣東  深圳市 2015-08-18
學(xué)習(xí) 1、學(xué)習(xí)2、規(guī)格:900×600×7603、主要參數(shù)規(guī)格:全鋼支架,臺面采用25mm中纖板,中立板至吊柜底,配抽屜和活動主機(jī)托盤|52臺 1 查看價格 廣州德昕儀實(shí)驗(yàn)室設(shè)備科技有限公司 廣東   2021-09-24
班排宿舍學(xué)習(xí) 班排宿舍學(xué)習(xí)桌|10張 1 查看價格 佛山市順德區(qū)皇牌家具科技有限公司 廣東   2018-07-13
學(xué)習(xí) 1、學(xué)習(xí)2、規(guī)格:900×600×7603、主要參數(shù)規(guī)格:全鋼支架,臺面采用25mm中纖板,中立板至吊柜底,配鍵盤架及主機(jī)托盤,每個位配LED照明燈管1支,配照明開關(guān),臺上2個二三插座,臺下2個二三插座;吊柜為全木結(jié)構(gòu),配1層活動層板,嵌玻璃門,配鎖|1臺 1 查看價格 廣州佰能信息科技有限公司 廣東   2021-10-15

《文本機(jī)器學(xué)習(xí)》系統(tǒng)性地介紹了多個經(jīng)典的和前沿的機(jī)器學(xué)習(xí)技術(shù)及其在文本域中的應(yīng)用。首先,詳細(xì)介紹了面向文本數(shù)據(jù)的預(yù)處理技術(shù)和經(jīng)典的機(jī)器學(xué)習(xí)技術(shù)(如矩陣分解與主題建模、聚類與分類/回歸等),并深入探討了模型的原理和內(nèi)在聯(lián)系以及相應(yīng)的性能評估;其次,詳細(xì)介紹了結(jié)合異構(gòu)數(shù)據(jù)的文本學(xué)習(xí)技術(shù)(如知識共享與遷移學(xué)習(xí)等),以及面向信息檢索與排序的索引和評分等技術(shù);末尾,詳細(xì)介紹了一些文本應(yīng)用相關(guān)的重要技術(shù),包括序列建模與深度學(xué)習(xí)、文本摘要與信息提取、意見挖掘與情感分析、文本分割與事件檢測等。本書從技術(shù)原理到實(shí)際應(yīng)用,綜合梳理了文本機(jī)器學(xué)習(xí)的多個技術(shù),深入分析了模型的優(yōu)缺點(diǎn)和內(nèi)在聯(lián)系,并在每章結(jié)束時提供了詳細(xì)的參考資料、軟件資源和習(xí)題。

《文本機(jī)器學(xué)習(xí)》不僅可以作為工具書供具有相關(guān)背景的專業(yè)人士使用,也可以作為教材幫助具有線性代數(shù)和概率論基礎(chǔ)的初學(xué)者入門。

文本機(jī)器學(xué)習(xí)常見問題

  • 日本機(jī)器人吸塵器怎么樣

    機(jī)器人吸塵器的功能也相當(dāng)?shù)膹?qiáng)大,擁有自動識別灰塵,選擇最佳清潔模式;防碰撞,更有人性化的防跌落設(shè)計(jì);預(yù)約定時,滿足現(xiàn)代人的生活需求;自動返回充電,讓智慧清潔有始有終;無需人工和水,讓健康休閑無處不在。...

  • 產(chǎn)自日本機(jī)器人吸塵器好用嗎?

    機(jī)器人吸塵器的功能也相當(dāng)?shù)膹?qiáng)大,擁有自動識別灰塵,選擇最佳清潔模式;防碰撞,更有人性化的防跌落設(shè)計(jì);預(yù)約定時,滿足現(xiàn)代人的生活需求;自動返回充電,讓智慧清潔有始有終;無需人工和水,讓健康休閑無處不在。...

  • 本機(jī)缺少slusb.sys

    單機(jī)鎖:先重新安裝一下加密鎖驅(qū)動,用其他加密鎖在本機(jī)上試一下,有可能是電腦和加密鎖硬件不兼容。網(wǎng)絡(luò)鎖:分機(jī)和主機(jī)的加密鎖版本不一致;重新安裝與主機(jī)版本一致的驅(qū)動程序即可。

文本機(jī)器學(xué)習(xí)文獻(xiàn)

合同書樣本機(jī)器買賣契約書 合同書樣本機(jī)器買賣契約書

格式:pdf

大?。?span id="ciq2smu" class="single-tag-height">14KB

頁數(shù): 3頁

評分: 4.3

合同書樣本機(jī)器買賣契約書 立契約人 (以下簡稱甲方) (以下簡稱乙 方)茲就機(jī)器買賣事宜,甲方賣出、乙方買進(jìn)。 第一條 甲乙雙方約定有關(guān)后記機(jī)器的買賣事宜甲方賣出,乙方買進(jìn)。 第二條 買賣總金額為 x x 元整。乙方依照下列方式支付款項(xiàng)予甲方。 (1) 本日(訂約日)先交付定金 x x 元整。 (2) 甲方必須在 年 月 日前將后記的機(jī)器安裝于乙方總公 司所在地的工廠。乙方未支付的余款,俟交貨時一次付清。 第三條 甲方于第二條第( 2)項(xiàng)乙方支付余款同時,應(yīng)將后記機(jī)器的所有權(quán)移 轉(zhuǎn)予乙方。 第四條 在甲方尚未將機(jī)器交付予乙方之前, 若有故障、毀損或遺失時, 應(yīng)由甲 方負(fù)責(zé)。亦即乙方免除支付價金義務(wù)。 第五條 甲方保證后記機(jī)器所具有的性能與說明書相符, 并須在第三條交付前先 行試機(jī),以證明其性能。 第六條 有關(guān)后記機(jī)器的品質(zhì)、 性能,由甲方對乙方保證, 并以三年為限。 在此 期間,若非乙方的

立即下載
基于機(jī)器學(xué)習(xí)的推薦系統(tǒng) 基于機(jī)器學(xué)習(xí)的推薦系統(tǒng)

格式:pdf

大?。?span id="kag26u2" class="single-tag-height">14KB

頁數(shù): 1頁

評分: 4.7

基于機(jī)器學(xué)習(xí)的推薦系統(tǒng)

立即下載

機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度等多門學(xué)科,專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為。機(jī)器學(xué)習(xí)是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑。本書通過對機(jī)器學(xué)習(xí)的背景知識、算法流程、相關(guān)工具、實(shí)踐案例以及知識圖譜等內(nèi)容的講解,全面介紹了機(jī)器學(xué)習(xí)的理論基礎(chǔ)和實(shí)踐應(yīng)用。書中涉及機(jī)器學(xué)習(xí)領(lǐng)域的多個典型算法,并詳細(xì)給出了機(jī)器學(xué)習(xí)的算法流程。本書適合任何有一定數(shù)據(jù)功底和編程基礎(chǔ)的讀者閱讀。通過閱讀本書,讀者不僅可以了解機(jī)器學(xué)習(xí)的理論基礎(chǔ),也可以參照一些典型的應(yīng)用案例拓展自己的專業(yè)技能。同時,本書也適合計(jì)算機(jī)相關(guān)專業(yè)的學(xué)生以及對人工智能和機(jī)器學(xué)習(xí)感興趣的讀者閱讀。

第1部分 背景知識

第1章 機(jī)器學(xué)習(xí)概述 3

1.1 背景 3

1.2 發(fā)展現(xiàn)狀 6

1.2.1 數(shù)據(jù)現(xiàn)狀 6

1.2.2 機(jī)器學(xué)習(xí)算法現(xiàn)狀 8

1.3 機(jī)器學(xué)習(xí)基本概念 12

1.3.1 機(jī)器學(xué)習(xí)流程 12

1.3.2 數(shù)據(jù)源結(jié)構(gòu) 14

1.3.3 算法分類 16

1.3.4 過擬合問題 18

1.3.5 結(jié)果評估 20

1.4 本章小結(jié) 22

第2部分 算法流程

第2章 場景解析 25

2.1 數(shù)據(jù)探查 25

2.2 場景抽象 27

2.3 算法選擇 29

2.4 本章小結(jié) 31

第3章 數(shù)據(jù)預(yù)處理 32

3.1 采樣 32

3.1.1 隨機(jī)采樣 32

3.1.2 系統(tǒng)采樣 34

3.1.3 分層采樣 35

3.2 歸一化 36

3.3 去除噪聲 39

3.4 數(shù)據(jù)過濾 42

3.5 本章小結(jié) 43

第4章 特征工程 44

4.1 特征抽象 44

4.2 特征重要性評估 49

4.3 特征衍生 53

4.4 特征降維 57

4.4.1 特征降維的基本概念 57

4.4.2 主成分分析 59

4.5 本章小結(jié) 62

第5章 機(jī)器學(xué)習(xí)算法——常規(guī)算法 63

5.1 分類算法 63

5.1.1 K近鄰 63

5.1.2 樸素貝葉斯 68

5.1.3 邏輯回歸 74

5.1.4 支持向量機(jī) 81

5.1.5 隨機(jī)森林 87

5.2 聚類算法 94

5.2.1 K-means 97

5.2.2 DBSCAN 103

5.3 回歸算法 109

5.4 文本分析算法 112

5.4.1 分詞算法——Hmm 112

5.4.2 TF-IDF 118

5.4.3 LDA 122

5.5 推薦類算法 127

5.6 關(guān)系圖算法 133

5.6.1 標(biāo)簽傳播 134

5.6.2 Dijkstra最短路徑 138

5.7 本章小結(jié) 145

第6章 機(jī)器學(xué)習(xí)算法——深度學(xué)習(xí) 146

6.1 深度學(xué)習(xí)概述 146

6.1.1 深度學(xué)習(xí)的發(fā)展 147

6.1.2 深度學(xué)習(xí)算法與傳統(tǒng)

算法的比較 148

6.2 深度學(xué)習(xí)的常見結(jié)構(gòu) 152

6.2.1 深度神經(jīng)網(wǎng)絡(luò) 152

6.2.2 卷積神經(jīng)網(wǎng)絡(luò) 153

6.2.3 循環(huán)神經(jīng)網(wǎng)絡(luò) 156

6.3 本章小結(jié) 157

第3部分 工具介紹

第7章 常見機(jī)器學(xué)習(xí)工具介紹 161

7.1 概述 161

7.2 單機(jī)版機(jī)器學(xué)習(xí)工具 163

7.2.1 SPSS 163

7.2.2 R語言 167

7.2.3 工具對比 172

7.3 開源分布式機(jī)器學(xué)習(xí)工具 172

7.3.1 Spark MLib 172

7.3.2 TensorFlow 179

7.4 企業(yè)級云機(jī)器學(xué)習(xí)工具 190

7.4.1 亞馬遜AWS ML 191

7.4.2 阿里云機(jī)器學(xué)習(xí)PAI 196

7.5 本章小結(jié) 205

第4部分 實(shí)戰(zhàn)應(yīng)用

第8章 業(yè)務(wù)解決方案 209

8.1 心臟病預(yù)測 209

8.1.1 場景解析 209

8.1.2 實(shí)驗(yàn)搭建 211

8.1.3 小結(jié) 216

8.2 商品推薦系統(tǒng) 216

8.2.1 場景解析 217

8.2.2 實(shí)驗(yàn)搭建 218

8.2.3 小結(jié) 220

8.3 金融風(fēng)控案例 220

8.3.1 場景解析 221

8.3.2 實(shí)驗(yàn)搭建 222

8.3.3 小結(jié) 225

8.4 新聞文本分析 225

8.4.1 場景解析 225

8.4.2 實(shí)驗(yàn)搭建 226

8.4.3 小結(jié) 230

8.5 農(nóng)業(yè)貸款發(fā)放預(yù)測 230

8.5.1 場景解析 230

8.5.2 實(shí)驗(yàn)搭建 232

8.5.3 小結(jié) 236

8.6 霧霾天氣成因分析 236

8.6.1 場景解析 237

8.6.2 實(shí)驗(yàn)搭建 238

8.6.3 小結(jié) 243

8.7 圖片識別 243

8.7.1 場景解析 243

8.7.2 實(shí)驗(yàn)搭建 245

8.7.3 小結(jié) 253

8.8 本章小結(jié) 253

第5部分 知識圖譜

第9章 知識圖譜 257

9.1 未來數(shù)據(jù)采集 257

9.2 知識圖譜的概述 259

9.3 知識圖譜開源

工具 261

9.4 本章小結(jié) 264

參考文獻(xiàn) 265

編輯推薦

第一部分:深度學(xué)習(xí)1、神經(jīng)網(wǎng)絡(luò)基礎(chǔ)問題

(1)Backpropagation(要能推倒)

后向傳播是在求解損失函數(shù)L對參數(shù)w求導(dǎo)時候用到的方法,目的是通過鏈?zhǔn)椒▌t對參數(shù)進(jìn)行一層一層的求導(dǎo)。這里重點(diǎn)強(qiáng)調(diào):要將參數(shù)進(jìn)行隨機(jī)初始化而不是全部置0,否則所有隱層的數(shù)值都會與輸入相關(guān),這稱為對稱失效。

大致過程是:

首先前向傳導(dǎo)計(jì)算出所有節(jié)點(diǎn)的激活值和輸出值, 計(jì)算整體損失函數(shù): 然后針對第L層的每個節(jié)點(diǎn)計(jì)算出殘差(這里是因?yàn)閁FLDL中說的是殘差,本質(zhì)就是整體損失函數(shù)對每一層激活值Z的導(dǎo)數(shù)),所以要對W求導(dǎo)只要再乘上激活函數(shù)對W的導(dǎo)數(shù)即可

(2)梯度消失、梯度爆炸

梯度消失:這本質(zhì)上是由于激活函數(shù)的選擇導(dǎo)致的, 最簡單的sigmoid函數(shù)為例,在函數(shù)的兩端梯度求導(dǎo)結(jié)果非常?。柡蛥^(qū)),導(dǎo)致后向傳播過程中由于多次用到激活函數(shù)的導(dǎo)數(shù)值使得整體的乘積梯度結(jié)果變得越來越小,也就出現(xiàn)了梯度消失的現(xiàn)象。

梯度爆炸:同理,出現(xiàn)在激活函數(shù)處在激活區(qū),而且權(quán)重W過大的情況下。但是梯度爆炸不如梯度消失出現(xiàn)的機(jī)會多。

(3)常用的激活函數(shù)

激活函數(shù) 公式 缺點(diǎn) 優(yōu)點(diǎn)
Sigmoid σ(x)=1/(1+e?x)σ ( x ) = 1 / ( 1 + e ? x )

1、會有梯度彌散

2、不是關(guān)于原點(diǎn)對稱

3、計(jì)算exp比較耗時

-
Tanh tanh(x)=2σ(2x)?1tanh ? ( x ) = 2 σ ( 2 x ) ? 1

梯度彌散沒解決 1、解決了原點(diǎn)對稱問題

2、比sigmoid更快

ReLU f(x)=max(0,x)f ( x ) = max ( 0 , x )

梯度彌散沒完全解決,在(-)部分相當(dāng)于神經(jīng)元死亡而且不會復(fù)活 1、解決了部分梯度彌散問題

2、收斂速度更快

Leaky ReLU f(x)=1(x<0)(αx)+1(x>=0)(x)f ( x ) = 1 ( x < 0 ) ( α x ) + 1 ( x >= 0 ) ( x ) - 解決了神經(jīng)死亡問題
Maxout max(wT1x+b1,wT2x+b2)max ( w 1 T x + b 1 , w 2 T x + b 2 )

參數(shù)比較多,本質(zhì)上是在輸出結(jié)果上又增加了一層 克服了ReLU的缺點(diǎn),比較提倡使用

(4)參數(shù)更新方法

方法名稱 公式
Vanilla update x += - learning_rate * dx
Momentum update動量更新 v = mu * v - learning_rate * dx # integrate velocity

x += v # integrate position

Nesterov Momentum x_ahead = x + mu * v

v = mu * v - learning_rate * dx_ahead

x += v

Adagrad

(自適應(yīng)的方法,梯度大的方向?qū)W習(xí)率越來越小,由快到慢)

cache += dx**2

x += - learning_rate * dx / (np.sqrt(cache) + eps)

Adam m = beta1*m + (1-beta1)dx

v = beta2*v + (1-beta2)(dx**2)

x += - learning_rate * m / (np.sqrt(v) + eps)

(5)解決overfitting的方法

dropout, regularization, batch normalizatin,但是要注意dropout只在訓(xùn)練的時候用,讓一部分神經(jīng)元隨機(jī)失活。

Batch normalization是為了讓輸出都是單位高斯激活,方法是在連接和激活函數(shù)之間加入BatchNorm層,計(jì)算每個特征的均值和方差進(jìn)行規(guī)則化。

2、CNN問題

(1) 思想

改變?nèi)B接為局部連接,這是由于圖片的特殊性造成的(圖像的一部分的統(tǒng)計(jì)特性與其他部分是一樣的),通過局部連接和參數(shù)共享大范圍的減少參數(shù)值??梢酝ㄟ^使用多個filter來提取圖片的不同特征(多卷積核)。

(2)filter尺寸的選擇

通常尺寸多為奇數(shù)(1,3,5,7)

(3)輸出尺寸計(jì)算公式

輸出尺寸=(N - F +padding*2)/stride + 1

步長可以自由選擇通過補(bǔ)零的方式來實(shí)現(xiàn)連接。

(4)pooling池化的作用

雖然通過.卷積的方式可以大范圍的減少輸出尺寸(特征數(shù)),但是依然很難計(jì)算而且很容易過擬合,所以依然利用圖片的靜態(tài)特性通過池化的方式進(jìn)一步減少尺寸。

(5)常用的幾個模型,這個最好能記住模型大致的尺寸參數(shù)。

名稱 特點(diǎn)
LeNet5 –沒啥特點(diǎn)-不過是第一個CNN應(yīng)該要知道
AlexNet 引入了ReLU和dropout,引入數(shù)據(jù)增強(qiáng)、池化相互之間有覆蓋,三個卷積一個最大池化+三個全連接層
VGGNet 采用1*1和3*3的卷積核以及2*2的最大池化使得層數(shù)變得更深。常用VGGNet-16和VGGNet19
Google Inception Net

我稱為盜夢空間網(wǎng)絡(luò)

這個在控制了計(jì)算量和參數(shù)量的同時,獲得了比較好的分類性能,和上面相比有幾個大的改進(jìn):

1、去除了最后的全連接層,而是用一個全局的平均池化來取代它;

2、引入Inception Module,這是一個4個分支結(jié)合的結(jié)構(gòu)。所有的分支都用到了1*1的卷積,這是因?yàn)?*1性價比很高,可以用很少的參數(shù)達(dá)到非線性和特征變換。

3、Inception V2第二版將所有的5*5變成2個3*3,而且提出來著名的Batch Normalization;

4、Inception V3第三版就更變態(tài)了,把較大的二維卷積拆成了兩個較小的一維卷積,加速運(yùn)算、減少過擬合,同時還更改了Inception Module的結(jié)構(gòu)。

微軟ResNet殘差神經(jīng)網(wǎng)絡(luò)(Residual Neural Network) 1、引入高速公路結(jié)構(gòu),可以讓神經(jīng)網(wǎng)絡(luò)變得非常深

2、ResNet第二個版本將ReLU激活函數(shù)變成y=x的線性函數(shù)

2、RNN

1、RNN原理:

在普通的全連接網(wǎng)絡(luò)或CNN中,每層神經(jīng)元的信號只能向上一層傳播,樣本的處理在各個時刻獨(dú)立,因此又被成為前向神經(jīng)網(wǎng)絡(luò)(Feed-forward+Neural+Networks)。而在RNN中,神經(jīng)元的輸出可以在下一個時間戳直接作用到自身,即第i層神經(jīng)元在m時刻的輸入,除了(i-1)層神經(jīng)元在該時刻的輸出外,還包括其自身在(m-1)時刻的輸出。所以叫循環(huán)神經(jīng)網(wǎng)絡(luò)

2、RNN、LSTM、GRU區(qū)別

RNN引入了循環(huán)的概念,但是在實(shí)際過程中卻出現(xiàn)了初始信息隨時間消失的問題,即長期依賴(Long-Term Dependencies)問題,所以引入了LSTM。 LSTM:因?yàn)長STM有進(jìn)有出且當(dāng)前的cell informaton是通過input gate控制之后疊加的,RNN是疊乘,因此LSTM可以防止梯度消失或者爆炸。推導(dǎo)forget gate,input gate,cell state, hidden information等因?yàn)長STM有進(jìn)有出且當(dāng)前的cell informaton是通過input gate控制之后疊加的,RNN是疊乘,因此LSTM可以防止梯度消失或者爆炸的變化是關(guān)鍵,下圖非常明確適合記憶: GRU是LSTM的變體,將忘記門和輸入們合成了一個單一的更新門。

3、LSTM防止梯度彌散和爆炸

LSTM用加和的方式取代了乘積,使得很難出現(xiàn)梯度彌散。但是相應(yīng)的更大的幾率會出現(xiàn)梯度爆炸,但是可以通過給梯度加門限解決這一問題。

4、引出word2vec

這個也就是Word Embedding,是一種高效的從原始語料中學(xué)習(xí)字詞空間向量的預(yù)測模型。分為CBOW(Continous Bag of Words)和Skip-Gram兩種形式。其中CBOW是從原始語句推測目標(biāo)詞匯,而Skip-Gram相反。CBOW可以用于小語料庫,Skip-Gram用于大語料庫。具體的就不是很會了。

3、GAN

1、GAN的思想

GAN結(jié)合了生成模型和判別模型,相當(dāng)于矛與盾的撞擊。生成模型負(fù)責(zé)生成最好的數(shù)據(jù)騙過判別模型,而判別模型負(fù)責(zé)識別出哪些是真的哪些是生成模型生成的。但是這些只是在了解了GAN之后才體會到的,但是為什么這樣會有效呢?

假設(shè)我們有分布Pdata(x),我們希望能建立一個生成模型來模擬真實(shí)的數(shù)據(jù)分布,假設(shè)生成模型為Pg(x;θθ ),我們的目的是求解θθ 的值,通常我們都是用最大似然估計(jì)。但是現(xiàn)在的問題是由于我們相用NN來模擬Pdata(x),但是我們很難求解似然函數(shù),因?yàn)槲覀儧]辦法寫出生成模型的具體表達(dá)形式,于是才有了GAN,也就是用判別模型來代替求解最大似然的過程。

在最理想的狀態(tài)下,G可以生成足以“以假亂真”的圖片G(z)。對于D來說,它難以判定G生成的圖片究竟是不是真實(shí)的,因此D(G(z)) = 0.5。這樣我們的目的就達(dá)成了:我們得到了一個生成式的模型G,它可以用來生成圖片。

2、GAN的表達(dá)式

通過分析GAN的表達(dá)可以看出本質(zhì)上就是一個minmax問題。其中V(D, G)可以看成是生成模型和判別模型的差異,而minmaxD說的是最大的差異越小越好。這種度量差異的方式實(shí)際上叫做Jensen-Shannon divergence。

3、GAN的實(shí)際計(jì)算方法

因?yàn)槲覀儾豢赡苡蠵data(x)的分布,所以我們實(shí)際中都是用采樣的方式來計(jì)算差異(也就是積分變求和)。具體實(shí)現(xiàn)過程如下:

有幾個關(guān)鍵點(diǎn):判別方程訓(xùn)練K次,而生成模型只需要每次迭代訓(xùn)練一次,先最大化(梯度上升)再最小化(梯度下降)。

但是實(shí)際計(jì)算時V的后面一項(xiàng)在D(x)很小的情況下由于log函數(shù)的原因會導(dǎo)致更新很慢,所以實(shí)際中通常將后一項(xiàng)的log(1-D(x))變?yōu)?logD(x)。

實(shí)際計(jì)算的時候還發(fā)現(xiàn)不論生成器設(shè)計(jì)的多好,判別器總是能判斷出真假,也就是loss幾乎都是0,這可能是因?yàn)槌闃釉斐傻?,生成?shù)據(jù)與真實(shí)數(shù)據(jù)的交集過小,無論生成模型多好,判別模型也能分辨出來。解決方法有兩個:1、用WGAN 2、引入隨時間減少的噪聲

4、對GAN有一些改進(jìn)有引入f-divergence,取代Jensen-Shannon divergence,還有很多,這里主要介紹WGAN

5、WGAN

上面說過了用f-divergence來衡量兩個分布的差異,而WGAN的思路是使用Earth Mover distance (挖掘機(jī)距離 Wasserstein distance)。

第二部分、機(jī)器學(xué)習(xí)準(zhǔn)備1、決策樹樹相關(guān)問題

(1)各種熵的計(jì)算

熵、聯(lián)合熵、條件熵、交叉熵、KL散度(相對熵)

熵用于衡量不確定性,所以均分的時候熵最大 KL散度用于度量兩個分布的不相似性,KL(p||q)等于交叉熵H(p,q)-熵H(p)。交叉熵可以看成是用q編碼P所需的bit數(shù),減去p本身需要的bit數(shù),KL散度相當(dāng)于用q編碼p需要的額外bits。 交互信息Mutual information :I(x,y) = H(x)-H(x|y) = H(y)-H(y|x) 表示觀察到x后,y的熵會減少多少。

(2)常用的樹搭建方法:ID3、C4.5、CART

上述幾種樹分別利用信息增益、信息增益率、Gini指數(shù)作為數(shù)據(jù)分割標(biāo)準(zhǔn)。

其中信息增益衡量按照某個特征分割前后熵的減少程度,其實(shí)就是上面說的交互信息。 用上述信息增益會出現(xiàn)優(yōu)先選擇具有較多屬性的特征,畢竟分的越細(xì)的屬性確定性越高。所以提出了信息增益率的概念,讓含有較多屬性的特征的作用降低。 CART樹在分類過程中使用的基尼指數(shù)Gini,只能用于切分二叉樹,而且和ID3、C4.5樹不同,Cart樹不會在每一個步驟刪除所用特征。

(3)防止過擬合:剪枝

剪枝分為前剪枝和后剪枝,前剪枝本質(zhì)就是早停止,后剪枝通常是通過衡量剪枝后損失函數(shù)變化來決定是否剪枝。后剪枝有:錯誤率降低剪枝、悲觀剪枝、代價復(fù)雜度剪枝

(4)前剪枝的幾種停止條件

節(jié)點(diǎn)中樣本為同一類 特征不足返回多類 如果某個分支沒有值則返回父節(jié)點(diǎn)中的多類 樣本個數(shù)小于閾值返回多類 2、邏輯回歸相關(guān)問題

(1)公式推導(dǎo)一定要會

(2)邏輯回歸的基本概念

這個最好從廣義線性模型的角度分析,邏輯回歸是假設(shè)y服從Bernoulli分布。

(3)L1-norm和L2-norm

其實(shí)稀疏的根本還是在于L0-norm也就是直接統(tǒng)計(jì)參數(shù)不為0的個數(shù)作為規(guī)則項(xiàng),但實(shí)際上卻不好執(zhí)行于是引入了L1-norm;而L1norm本質(zhì)上是假設(shè)參數(shù)先驗(yàn)是服從Laplace分布的,而L2-norm是假設(shè)參數(shù)先驗(yàn)為Gaussian分布,我們在網(wǎng)上看到的通常用圖像來解答這個問題的原理就在這。

但是L1-norm的求解比較困難,可以用坐標(biāo)軸下降法或是最小角回歸法求解。

(4)LR和SVM對比

首先,LR和SVM最大的區(qū)別在于損失函數(shù)的選擇,LR的損失函數(shù)為Log損失(或者說是邏輯損失都可以)、而SVM的損失函數(shù)為hinge loss。

其次,兩者都是線性模型。

最后,SVM只考慮支持向量(也就是和分類相關(guān)的少數(shù)點(diǎn))

(5)LR和隨機(jī)森林區(qū)別

隨機(jī)森林等樹算法都是非線性的,而LR是線性的。LR更側(cè)重全局優(yōu)化,而樹模型主要是局部的優(yōu)化。

(6)常用的優(yōu)化方法

邏輯回歸本身是可以用公式求解的,但是因?yàn)樾枰竽娴膹?fù)雜度太高,所以才引入了梯度下降算法。

一階方法:梯度下降、隨機(jī)梯度下降、mini 隨機(jī)梯度下降降法。隨機(jī)梯度下降不但速度上比原始梯度下降要快,局部最優(yōu)化問題時可以一定程度上抑制局部最優(yōu)解的發(fā)生。

二階方法:牛頓法、擬牛頓法:

這里詳細(xì)說一下牛頓法的基本原理和牛頓法的應(yīng)用方式。牛頓法其實(shí)就是通過切線與x軸的交點(diǎn)不斷更新切線的位置,直到達(dá)到曲線與x軸的交點(diǎn)得到方程解。在實(shí)際應(yīng)用中我們因?yàn)槌3R蠼馔箖?yōu)化問題,也就是要求解函數(shù)一階導(dǎo)數(shù)為0的位置,而牛頓法恰好可以給這種問題提供解決方法。實(shí)際應(yīng)用中牛頓法首先選擇一個點(diǎn)作為起始點(diǎn),并進(jìn)行一次二階泰勒展開得到導(dǎo)數(shù)為0的點(diǎn)進(jìn)行一個更新,直到達(dá)到要求,這時牛頓法也就成了二階求解問題,比一階方法更快。我們常常看到的x通常為一個多維向量,這也就引出了Hessian矩陣的概念(就是x的二階導(dǎo)數(shù)矩陣)。缺點(diǎn):牛頓法是定長迭代,沒有步長因子,所以不能保證函數(shù)值穩(wěn)定的下降,嚴(yán)重時甚至?xí)?。還有就是牛頓法要求函數(shù)一定是二階可導(dǎo)的。而且計(jì)算Hessian矩陣的逆復(fù)雜度很大。

擬牛頓法: 不用二階偏導(dǎo)而是構(gòu)造出Hessian矩陣的近似正定對稱矩陣的方法稱為擬牛頓法。擬牛頓法的思路就是用一個特別的表達(dá)形式來模擬Hessian矩陣或者是他的逆使得表達(dá)式滿足擬牛頓條件。主要有DFP法(逼近Hession的逆)、BFGS(直接逼近Hession矩陣)、 L-BFGS(可以減少BFGS所需的存儲空間)。

3、SVM相關(guān)問題

(1)帶核的SVM為什么能分類非線性問題?

核函數(shù)的本質(zhì)是兩個函數(shù)的內(nèi)積,而這個函數(shù)在SVM中可以表示成對于輸入值的高維映射。注意核并不是直接對應(yīng)映射,核只不過是一個內(nèi)積

(2)RBF核一定是線性可分的嗎

不一定,RBF核比較難調(diào)參而且容易出現(xiàn)維度災(zāi)難,要知道無窮維的概念是從泰勒展開得出的。

(3)常用核函數(shù)及核函數(shù)的條件:

核函數(shù)選擇的時候應(yīng)該從線性核開始,而且在特征很多的情況下沒有必要選擇高斯核,應(yīng)該從簡單到難的選擇模型。我們通常說的核函數(shù)指的是正定和函數(shù),其充要條件是對于任意的x屬于X,要求K對應(yīng)的Gram矩陣要是半正定矩陣。

RBF核徑向基,這類函數(shù)取值依賴于特定點(diǎn)間的距離,所以拉普拉斯核其實(shí)也是徑向基核。 線性核:主要用于線性可分的情況 多項(xiàng)式核

(4)SVM的基本思想:

間隔最大化來得到最優(yōu)分離超平面。方法是將這個問題形式化為一個凸二次規(guī)劃問題,還可以等價位一個正則化的合頁損失最小化問題。SVM又有硬間隔最大化和軟間隔SVM兩種。這時首先要考慮的是如何定義間隔,這就引出了函數(shù)間隔和幾何間隔的概念(這里只說思路),我們選擇了幾何間隔作為距離評定標(biāo)準(zhǔn)(為什么要這樣,怎么求出來的要知道),我們希望能夠最大化與超平面之間的幾何間隔x,同時要求所有點(diǎn)都大于這個值,通過一些變化就得到了我們常見的SVM表達(dá)式。接著我們發(fā)現(xiàn)定義出的x只是由個別幾個支持向量決定的。對于原始問題(primal problem)而言,可以利用凸函數(shù)的函數(shù)包來進(jìn)行求解,但是發(fā)現(xiàn)如果用對偶問題(dual )求解會變得更簡單,而且可以引入核函數(shù)。而原始問題轉(zhuǎn)為對偶問題需要滿足KKT條件(這個條件應(yīng)該細(xì)細(xì)思考一下)到這里還都是比較好求解的。因?yàn)槲覀兦懊嬲f過可以變成軟間隔問題,引入了懲罰系數(shù),這樣還可以引出hinge損失的等價形式(這樣可以用梯度下降的思想求解SVM了)。我個人認(rèn)為難的地方在于求解參數(shù)的SMO算法。

(5)是否所有的優(yōu)化問題都可以轉(zhuǎn)化為對偶問題:

這個問題我感覺非常好,有了強(qiáng)對偶和弱對偶的概念。用知乎大神的解釋吧

(6)處理數(shù)據(jù)偏斜:

可以對數(shù)量多的類使得懲罰系數(shù)C越小表示越不重視,相反另數(shù)量少的類懲罰系數(shù)變大。

4、Boosting和Bagging

(1)隨機(jī)森林

隨機(jī)森林改變了決策樹容易過擬合的問題,這主要是由兩個操作所優(yōu)化的:1、Boostrap從袋內(nèi)有放回的抽取樣本值2、每次隨機(jī)抽取一定數(shù)量的特征(通常為sqr(n))。

分類問題:采用Bagging投票的方式選擇類別頻次最高的

回歸問題:直接取每顆樹結(jié)果的平均值。

常見參數(shù) 誤差分析 優(yōu)點(diǎn) 缺點(diǎn)
1、樹最大深度

2、樹的個數(shù)

3、節(jié)點(diǎn)上的最小樣本數(shù)

4、特征數(shù)(sqr(n))

oob(out-of-bag)

將各個樹的未采樣樣本作為預(yù)測樣本統(tǒng)計(jì)誤差作為誤分率

可以并行計(jì)算

不需要特征選擇

可以總結(jié)出特征重要性

可以處理缺失數(shù)據(jù)

不需要額外設(shè)計(jì)測試集

在回歸上不能輸出連續(xù)結(jié)果

(2)Boosting之AdaBoost

Boosting的本質(zhì)實(shí)際上是一個加法模型,通過改變訓(xùn)練樣本權(quán)重學(xué)習(xí)多個分類器并進(jìn)行一些線性組合。而Adaboost就是加法模型+指數(shù)損失函數(shù)+前項(xiàng)分布算法。Adaboost就是從弱分類器出發(fā)反復(fù)訓(xùn)練,在其中不斷調(diào)整數(shù)據(jù)權(quán)重或者是概率分布,同時提高前一輪被弱分類器誤分的樣本的權(quán)值。最后用分類器進(jìn)行投票表決(但是分類器的重要性不同)。

(3)Boosting之GBDT

將基分類器變成二叉樹,回歸用二叉回歸樹,分類用二叉分類樹。和上面的Adaboost相比,回歸樹的損失函數(shù)為平方損失,同樣可以用指數(shù)損失函數(shù)定義分類問題。但是對于一般損失函數(shù)怎么計(jì)算呢?GBDT(梯度提升決策樹)是為了解決一般損失函數(shù)的優(yōu)化問題,方法是用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值來模擬回歸問題中殘差的近似值。

注:由于GBDT很容易出現(xiàn)過擬合的問題,所以推薦的GBDT深度不要超過6,而隨機(jī)森林可以在15以上。

(4)GBDT和Random Forest區(qū)別

這個就和上面說的差不多。

(5)Xgboost

這個工具主要有以下幾個特點(diǎn):

支持線性分類器 可以自定義損失函數(shù),并且可以用二階偏導(dǎo) 加入了正則化項(xiàng):葉節(jié)點(diǎn)數(shù)、每個葉節(jié)點(diǎn)輸出score的L2-norm 支持特征抽樣 在一定情況下支持并行,只有在建樹的階段才會用到,每個節(jié)點(diǎn)可以并行的尋找分裂特征。 5、KNN和Kmean

(1)KNN 和Kmean缺點(diǎn)

都屬于惰性學(xué)習(xí)機(jī)制,需要大量的計(jì)算距離過程,速度慢的可以(但是都有相應(yīng)的優(yōu)化方法)。

(2)KNN

KNN不需要進(jìn)行訓(xùn)練,只要對于一個陌生的點(diǎn)利用離其最近的K個點(diǎn)的標(biāo)簽判斷其結(jié)果。KNN相當(dāng)于多數(shù)表決,也就等價于經(jīng)驗(yàn)最小化。而KNN的優(yōu)化方式就是用Kd樹來實(shí)現(xiàn)。

(3)Kmean

要求自定義K個聚類中心,然后人為的初始化聚類中心,通過不斷增加新點(diǎn)變換中心位置得到最終結(jié)果。Kmean的缺點(diǎn)可以用Kmean++方法進(jìn)行一些解決(思想是使得初始聚類中心之間的距離最大化)

6、EM算法、HMM、CRF

這三個放在一起不是很恰當(dāng),但是有互相有關(guān)聯(lián),所以就放在這里一起說了。注意重點(diǎn)關(guān)注算法的思想。

(1)EM算法

EM算法是用于含有隱變量模型的極大似然估計(jì)或者極大后驗(yàn)估計(jì),有兩步組成:E步,求期望(expectation);M步,求極大(maxmization)。本質(zhì)上EM算法還是一個迭代算法,通過不斷用上一代參數(shù)對隱變量的估計(jì)來對當(dāng)前變量進(jìn)行計(jì)算,直到收斂。

注意:EM算法是對初值敏感的,而且EM是不斷求解下界的極大化逼近求解對數(shù)似然函數(shù)的極大化的算法,也就是說EM算法不能保證找到全局最優(yōu)值。對于EM的導(dǎo)出方法也應(yīng)該掌握。

(2)HMM算法

隱馬爾可夫模型是用于標(biāo)注問題的生成模型。有幾個參數(shù)(ππ ,A,B):初始狀態(tài)概率向量ππ ,狀態(tài)轉(zhuǎn)移矩陣A,觀測概率矩陣B。稱為馬爾科夫模型的三要素。

馬爾科夫三個基本問題:

概率計(jì)算問題:給定模型和觀測序列,計(jì)算模型下觀測序列輸出的概率。–》前向后向算法 學(xué)習(xí)問題:已知觀測序列,估計(jì)模型參數(shù),即用極大似然估計(jì)來估計(jì)參數(shù)。–》Baum-Welch(也就是EM算法)和極大似然估計(jì)。 預(yù)測問題:已知模型和觀測序列,求解對應(yīng)的狀態(tài)序列。–》近似算法(貪心算法)和維比特算法(動態(tài)規(guī)劃求最優(yōu)路徑)

(3)條件隨機(jī)場CRF

給定一組輸入隨機(jī)變量的條件下另一組輸出隨機(jī)變量的條件概率分布密度。條件隨機(jī)場假設(shè)輸出變量構(gòu)成馬爾科夫隨機(jī)場,而我們平時看到的大多是線性鏈條隨機(jī)場,也就是由輸入對輸出進(jìn)行預(yù)測的判別模型。求解方法為極大似然估計(jì)或正則化的極大似然估計(jì)。

之所以總把HMM和CRF進(jìn)行比較,主要是因?yàn)镃RF和HMM都利用了圖的知識,但是CRF利用的是馬爾科夫隨機(jī)場(無向圖),而HMM的基礎(chǔ)是貝葉斯網(wǎng)絡(luò)(有向圖)。而且CRF也有:概率計(jì)算問題、學(xué)習(xí)問題和預(yù)測問題。大致計(jì)算方法和HMM類似,只不過不需要EM算法進(jìn)行學(xué)習(xí)問題。

(4)HMM和CRF對比

其根本還是在于基本的理念不同,一個是生成模型,一個是判別模型,這也就導(dǎo)致了求解方式的不同。

7、常見基礎(chǔ)問題

(1)數(shù)據(jù)歸一化(或者標(biāo)準(zhǔn)化,注意歸一化和標(biāo)準(zhǔn)化不同)的原因

要強(qiáng)調(diào):能不歸一化最好不歸一化,之所以進(jìn)行數(shù)據(jù)歸一化是因?yàn)楦骶S度的量綱不相同。而且需要看情況進(jìn)行歸一化。

有些模型在各維度進(jìn)行了不均勻的伸縮后,最優(yōu)解與原來不等價(如SVM)需要?dú)w一化。 有些模型伸縮有與原來等價,如:LR則不用歸一化,但是實(shí)際中往往通過迭代求解模型參數(shù),如果目標(biāo)函數(shù)太扁(想象一下很扁的高斯模型)迭代算法會發(fā)生不收斂的情況,所以最壞進(jìn)行數(shù)據(jù)歸一化。

補(bǔ)充:其實(shí)本質(zhì)是由于loss函數(shù)不同造成的,SVM用了歐拉距離,如果一個特征很大就會把其他的維度dominated。而LR可以通過權(quán)重調(diào)整使得損失函數(shù)不變。

(2)衡量分類器的好壞:

這里首先要知道TP、FN(真的判成假的)、FP(假的判成真)、TN四種(可以畫一個表格)。

幾種常用的指標(biāo):

精度precision = TP/(TP+FP) = TP/~P (~p為預(yù)測為真的數(shù)量) 召回率 recall = TP/(TP+FN) = TP/ P F1值: 2/F1 = 1/recall + 1/precision ROC曲線:ROC空間是一個以偽陽性率(FPR,false positive rate)為X軸,真陽性率(TPR, true positive rate)為Y軸的二維坐標(biāo)系所代表的平面。其中真陽率TPR = TP / P = recall, 偽陽率FPR = FP / N

(3)SVD和PCA

PCA的理念是使得數(shù)據(jù)投影后的方差最大,找到這樣一個投影向量,滿足方差最大的條件即可。而經(jīng)過了去除均值的操作之后,就可以用SVD分解來求解這樣一個投影向量,選擇特征值最大的方向。

(4)防止過擬合的方法

過擬合的原因是算法的學(xué)習(xí)能力過強(qiáng);一些假設(shè)條件(如樣本獨(dú)立同分布)可能是不成立的;訓(xùn)練樣本過少不能對整個空間進(jìn)行分布估計(jì)。

處理方法:

早停止:如在訓(xùn)練中多次迭代后發(fā)現(xiàn)模型性能沒有顯著提高就停止訓(xùn)練 數(shù)據(jù)集擴(kuò)增:原有數(shù)據(jù)增加、原有數(shù)據(jù)加隨機(jī)噪聲、重采樣 正則化 交叉驗(yàn)證 特征選擇/特征降維

(5)數(shù)據(jù)不平衡問題

這主要是由于數(shù)據(jù)分布不平衡造成的。解決方法如下:

采樣,對小樣本加噪聲采樣,對大樣本進(jìn)行下采樣 進(jìn)行特殊的加權(quán),如在Adaboost中或者SVM中 采用對不平衡數(shù)據(jù)集不敏感的算法 改變評價標(biāo)準(zhǔn):用AUC/ROC來進(jìn)行評價 采用Bagging/Boosting/ensemble等方法 考慮數(shù)據(jù)的先驗(yàn)分布

機(jī)器學(xué)習(xí)面試問題準(zhǔn)備(進(jìn)階)

這部分主要是針對上面問題的一些更細(xì)節(jié)的補(bǔ)充,包括公式的推倒思路、模型的基本構(gòu)成、細(xì)節(jié)問題的分析等等。一、問題雜燴

1、PCA的第二主成分

第二個主成分時域第一成分方向正教的差異性次大方向。

2、什么時候用組合的學(xué)習(xí)模型

只有當(dāng)各個模型之間沒有相關(guān)性的時候組合起來是最好用的。但是一般來說,弱相關(guān)的模型組合比較好用。

3、多重共線性

多重共線性是指當(dāng)兩個特征的相關(guān)性很大的時候,會對參數(shù)模型造成非常大的影響。可以用相關(guān)分析判斷多重共線性的存在性。

4、什么時候用L2優(yōu)于L1

如果多個變量都是一些具有小尺度或中等尺度影響的時候用L2比較好,如果個別變量影響很大的時候用L1。其實(shí)也可以結(jié)合起來使用。

5、交叉驗(yàn)證的參數(shù)選擇問題

我們通常進(jìn)行參數(shù)選擇的時候都是用網(wǎng)格法做的,但是這樣其實(shí)也是有弊端的,索性可以用隨機(jī)取樣的方式逼近最優(yōu)參數(shù)。

6、如果缺失值超過30%要怎么辦?

可以把缺失值單獨(dú)組成一類。

二、模型流程和公式推導(dǎo)

1、PCA傳統(tǒng)計(jì)算流程:

去除均值 計(jì)算協(xié)方差矩陣 計(jì)算特征值和特征向量 特征值從大到小排序 保留前N個特征向量 投影重構(gòu)(記得吧去除的均值還回去)

或者干脆去均值后用SVD計(jì)算

2、離散數(shù)據(jù)下的生成模型

(1)貝葉斯概念

我們都知道概率學(xué)派和貝葉斯學(xué)派的不同,現(xiàn)在我們從貝葉斯的角度上考慮問題。對于一個問題,通常要考慮其先驗(yàn)概率,這是因?yàn)閷τ谀承?shù)據(jù)不足或有某些問題的情況下,單純考慮似然函數(shù)是不夠的,還需要引入假設(shè)先驗(yàn)給一個主觀的先驗(yàn)概率,而且在真正分析的時候應(yīng)該引入假設(shè)空間D的概念(滿足要求的所有假設(shè)),后驗(yàn)就相當(dāng)于給定假設(shè)空間D下的其中某一個假設(shè)D的概率P(h|D)。

其實(shí)本質(zhì)上最大后驗(yàn)估計(jì)MAP是等價于最大似然估計(jì)的,即數(shù)據(jù)點(diǎn)足夠多的時候會淹沒先驗(yàn)。

利用得到的后驗(yàn)進(jìn)行預(yù)測需要后驗(yàn)預(yù)測分布(Posterior pordictive distribution),方法是對每一個獨(dú)立假設(shè)的加權(quán)均值(稱之為Bayes model averaging)

我們使用MAP的時候都要對先驗(yàn)進(jìn)行一些假設(shè),而這些假設(shè)對應(yīng)的先驗(yàn)函數(shù)和似然函數(shù)通常是共軛的,這樣方便計(jì)算,關(guān)于共軛分布的概念其實(shí)很簡單,常用的幾個了解就可以。

(2)樸素貝葉斯分類器

樸素貝葉斯是最簡單的分類器之一了,根本是假設(shè)各個特征之間是獨(dú)立同分布的,也就是說P(X|y)=P(x1|y)*…P(xn|y)。我們可以假設(shè)特征x的分布,比如:在特征為real-value的時候,可以假設(shè)特征分布為高斯分布、在特征為二元特征的時候假設(shè)為Bernoulli分布、在類別特征的時候假設(shè)為multinoulli分布(我們通常見到的)。通常我們看到的Laplace平滑實(shí)際上是對參數(shù)的先驗(yàn)分布(但是這個先驗(yàn)可以只看出一個附加條件)。

具體的關(guān)于樸素貝葉斯的推導(dǎo)和使用見這里。補(bǔ)充一點(diǎn),貝葉斯是可以進(jìn)行在線學(xué)習(xí)的。但是要知道貝葉斯其實(shí)可以變得更復(fù)雜。

3、Gaussian高斯模型的高斯判別分析

對于多元高斯分布來說,他的共軛分布也是多元高斯分布,關(guān)于多元高斯分布的最大似然結(jié)果可以自己查查資料。這里主要說的是高斯判別分析。

高斯判別分析假設(shè)p(X,y=c,θθ )= N(X|μμ ,ΣΣ )服從多元高斯分布,當(dāng)ΣΣ 為對角矩陣的時候起始就是上面說的樸素貝葉斯了。我們通常說到的Linear discriminant analysis(LDA)其實(shí)就是高斯判別模型的一種,假設(shè)所有類別的協(xié)方差矩陣都是相同的,這時求解后驗(yàn)分布的時候得到的就是LDA。當(dāng)然協(xié)方差矩陣不同的時候?qū)?yīng)的QDA(Quadratic discriminant analysis,二次判別分析)。這個相當(dāng)于我們對于通常定義LDA**最大化類間距最小化類內(nèi)距離**實(shí)際上是等價的。

4、Logistic regression和指數(shù)分布族

這里將會從兩個角度看一下邏輯回歸的推導(dǎo)過程。

(1)邏輯回歸推導(dǎo)

這個很簡單,網(wǎng)上隨便找一個都有,就是求解MLE而已。但是除了二元的邏輯回歸還應(yīng)該知道多元邏輯回歸的條件概率由sigmoid變?yōu)閟oftmax。

(2)邏輯回歸的廣義線性模型解釋

首先要知道什么是廣義線性模型:廣義線性模型是指輸出概率是指數(shù)分布族的y|x;θ~ExpoentialFamily(η),而且指數(shù)分布族的自然參數(shù)η的是x的線性組合。這個我掌握的不是很好,但是如果面試的時候講出來效果應(yīng)該不錯。

(3)邏輯回歸輸出值是不是概率

答案是肯定的,解釋在這里,其實(shí)用廣義線性模型的思路說更好,但是實(shí)在是對概念掌握的不好。

5、SVM支持向量機(jī)

(1)支持向量機(jī)的公式推導(dǎo),要詳細(xì)到KKT條件。

(2)可以進(jìn)一步結(jié)合核函數(shù)和GLM引出核機(jī)的概念。

6、概率圖模型

有向圖、無向圖等

三、重要概念

1、監(jiān)督學(xué)習(xí)的生成模型和判別模型

這可以說是一個最基礎(chǔ)的問題,但是深挖起來又很復(fù)雜,面試的時候應(yīng)該說出幾個有亮點(diǎn)的部分。

(1)基本說法

生成模型是由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y),然后再求出條件概率分布P(Y|X),典型的生成模型有樸素貝葉斯和馬爾科夫模型。

判別模型就是直接學(xué)習(xí)判別函數(shù)或者是條件概率分布,應(yīng)該是更直接一些。兩者各有優(yōu)缺點(diǎn)。

(2)進(jìn)階區(qū)分

* 應(yīng)該說生成模型的假設(shè)性更強(qiáng)一些,因?yàn)橥ǔJ菑暮篁?yàn)分布的角度思考問題,通常對x的分布進(jìn)行了一些假設(shè)。

* 訓(xùn)練過程中,對于判別模型通常是最大化對數(shù)似然,對生成模型則是最大化聯(lián)合對數(shù)似然函數(shù)

* 因?yàn)樯赡P蛯τ谔卣鞯姆植级甲龀隽艘欢ǖ募僭O(shè)(如高斯判別模型假設(shè)特征分布滿足多元高斯分布),所以如果對于特征的分布估計(jì)比較正確的情況下,生成模型的速度更好準(zhǔn)確性也更高。

* 生成模型在訓(xùn)練數(shù)據(jù)的時候?qū)τ诿恳活悢?shù)據(jù)的都是獨(dú)立估計(jì)的(也就是每一類的參數(shù)不同),這也就說明如果有新類別加入的情況下,是不需要對原有類別進(jìn)行重新訓(xùn)練的

* 對于半監(jiān)督學(xué)習(xí),生成模型往往更有用

* 生成模型有一個大的缺點(diǎn)就是不能對特征進(jìn)行某些預(yù)處理(如特征映射),因?yàn)轭A(yù)處理后的數(shù)據(jù)分布往往有了很大的變化。

2、頻率學(xué)派的一些基本理論

(1)期望損失(風(fēng)險函數(shù))、經(jīng)驗(yàn)損失(經(jīng)驗(yàn)風(fēng)險)、結(jié)構(gòu)風(fēng)險

期望損失:理論上知道模型后得到的平均損失較期望損失(依賴于真實(shí)分布),但是模型正是我們要求的

經(jīng)驗(yàn)損失:經(jīng)驗(yàn)損失指針對模型的抽樣值(訓(xùn)練集)進(jìn)行平均的損失估計(jì),根據(jù)大數(shù)定律當(dāng)訓(xùn)練數(shù)據(jù)足夠的時候經(jīng)驗(yàn)損失和期望損失是等價的

結(jié)構(gòu)風(fēng)險:經(jīng)驗(yàn)損失是假設(shè)經(jīng)驗(yàn)分布和自然分布相同時得到的,但是這樣會造成過擬合,所以引入了正則化,懲罰模型復(fù)雜度。

(2)極大似然MLE、極大后驗(yàn)MAP

因?yàn)槲覀冇械臅r候利用經(jīng)驗(yàn)損失求解的時候會遇到不好求解的問題(如不連續(xù)0-1)這是可以用對數(shù)極大似然估計(jì)等價的對參數(shù)進(jìn)行分析。

同理最大后驗(yàn)利用先驗(yàn)概率達(dá)到懲罰模型的作用。如l2-norm嶺回歸對應(yīng)高斯先驗(yàn)、L1對應(yīng)拉普拉斯先驗(yàn)。

文本機(jī)器學(xué)習(xí)相關(guān)推薦
  • 相關(guān)百科
  • 相關(guān)知識
  • 相關(guān)專欄

最新詞條

安徽省政采項(xiàng)目管理咨詢有限公司 數(shù)字景楓科技發(fā)展(南京)有限公司 懷化市人民政府電子政務(wù)管理辦公室 河北省高速公路京德臨時籌建處 中石化華東石油工程有限公司工程技術(shù)分公司 手持無線POS機(jī) 廣東合正采購招標(biāo)有限公司 上海城建信息科技有限公司 甘肅鑫禾國際招標(biāo)有限公司 燒結(jié)金屬材料 齒輪計(jì)量泵 廣州采陽招標(biāo)代理有限公司河源分公司 高鋁碳化硅磚 博洛尼智能科技(青島)有限公司 燒結(jié)剛玉磚 深圳市東海國際招標(biāo)有限公司 搭建香蕉育苗大棚 SF計(jì)量單位 福建省中億通招標(biāo)咨詢有限公司 泛海三江 威海鼠尾草 廣東國咨招標(biāo)有限公司 Excel 數(shù)據(jù)處理與分析應(yīng)用大全 甘肅中泰博瑞工程項(xiàng)目管理咨詢有限公司 山東創(chuàng)盈項(xiàng)目管理有限公司 當(dāng)代建筑大師 拆邊機(jī) 廣西北纜電纜有限公司 大山檳榔 上海地鐵維護(hù)保障有限公司通號分公司 舌花雛菊 甘肅中維國際招標(biāo)有限公司 華潤燃?xì)猓ㄉ虾#┯邢薰? 湖北鑫宇陽光工程咨詢有限公司 GB8163標(biāo)準(zhǔn)無縫鋼管 中國石油煉化工程建設(shè)項(xiàng)目部 韶關(guān)市優(yōu)采招標(biāo)代理有限公司 莎草目 建設(shè)部關(guān)于開展城市規(guī)劃動態(tài)監(jiān)測工作的通知 電梯平層準(zhǔn)確度 廣州利好來電氣有限公司 蘇州弘創(chuàng)招投標(biāo)代理有限公司