書(shū)????名 | 數(shù)據(jù)可視化——從小白到數(shù)據(jù)工程師的成長(zhǎng)之路 | 作????者 | 劉英華 |
---|---|---|---|
ISBN | 9787121362231 | 頁(yè)????數(shù) | 252 |
定????價(jià) | ¥52.0 | 出版社 | 電子工業(yè)出版社 |
出版時(shí)間 | 2019年11月 | 開(kāi)????本 | 16開(kāi) |
第1章 基礎(chǔ)知識(shí) 1
1.1 模擬和數(shù)字化 1
1.2 數(shù)模轉(zhuǎn)換 1
1.3 進(jìn)制 2
1.4 存儲(chǔ)單位 3
1.5 因特網(wǎng) 3
1.6 地址和協(xié)議 4
1.7 域名和域名系統(tǒng) 6
1.8 網(wǎng)絡(luò)速率 6
1.9 數(shù)據(jù)可視化 7
小結(jié) 7
習(xí)題1 7
第2章 數(shù)據(jù)獲取 8
2.1 知識(shí)共享許可協(xié)議 8
2.2 搜索數(shù)據(jù) 9
2.2.1 搜索引擎 10
2.2.2 瀏覽器 11
2.2.3 搜索指令 11
2.3 主動(dòng)公開(kāi)的數(shù)據(jù) 15
2.3.1 我國(guó)政府?dāng)?shù)據(jù) 15
2.3.2 國(guó)際組織數(shù)據(jù) 17
2.3.3 科研機(jī)構(gòu)及第三方數(shù)據(jù)公司 17
2.4 依申請(qǐng)公開(kāi)數(shù)據(jù) 17
2.5 數(shù)據(jù)眾包 18
2.6 抓取工具 18
2.6.1 import.io工具 20
2.6.2 Octoparse工具 23
2.7 Python基礎(chǔ) 33
2.7.1 環(huán)境配置 33
2.7.2 第一個(gè)Python程序 35
2.7.3 變量和運(yùn)算符 36
2.7.4 條件語(yǔ)句 43
2.7.5 循環(huán)語(yǔ)句 45
2.7.6 輸入和輸出 48
2.7.7 文件的讀/寫(xiě) 49
2.8 Beautiful Soup庫(kù) 51
2.8.1 安裝Beautiful Soup 51
2.8.2 使用Beautiful Soup抓取網(wǎng)頁(yè)數(shù)據(jù) 52
2.9 圖片的獲取 56
2.9.1 常用的圖片編輯軟件 56
2.9.2 圖片文件類(lèi)型 57
2.9.3 圖片文件的保存 58
2.10 音頻的獲取 59
2.10.1 常用的音頻編輯軟件 60
2.10.2 音頻文件類(lèi)型及保存 61
2.11 視頻的獲取 62
2.11.1 常用的視頻編輯軟件 62
2.11.2 視頻文件類(lèi)型 63
2.11.3 視頻文件的保存 63
2.12 數(shù)據(jù)格式轉(zhuǎn)換 64
2.12.1 數(shù)字圖片的格式轉(zhuǎn)換 65
2.12.2 數(shù)字音頻的格式轉(zhuǎn)換 67
2.12.3 數(shù)字視頻的格式轉(zhuǎn)換 68
2.12.4 文件格式轉(zhuǎn)換 68
2.12.5 可機(jī)讀數(shù)據(jù) 70
小結(jié) 70
習(xí)題2 70
第3章 數(shù)據(jù)清洗 71
3.1 Jupyter Notebook 71
3.1.1 安裝Jupyter Notebook 72
3.1.2 啟動(dòng)、關(guān)閉notebook服務(wù)器 72
3.1.3 保存notebook 75
3.2 Pandas包 75
3.2.1 系列(Series) 75
3.2.2 數(shù)據(jù)幀(DataFrame) 78
3.3 清洗缺失值 80
3.3.1 檢查缺失值 80
3.3.2 刪除含缺失值的行或列 82
3.3.3 填充缺失值 82
3.4 清洗格式內(nèi)容 84
3.4.1 刪除字符串中的空格 84
3.4.2 大小寫(xiě)轉(zhuǎn)換 85
3.4.3 規(guī)范數(shù)據(jù)格式 87
3.4.4 字符型數(shù)據(jù)判斷 87
"para" label-module="para">
3.5 清洗邏輯錯(cuò)誤 88
3.5.1 刪除重復(fù)記錄 88
3.5.2 替換不合理值 89
3.6 刪除非需求數(shù)據(jù) 90
3.6.1 刪除非需求行 90
3.6.2 刪除非需求列 90
3.7 分組、合并和保存 91
3.7.1 分組 91
3.7.2 數(shù)據(jù)合并 92
3.7.3 保存結(jié)果 96
3.8 數(shù)據(jù)清洗案例 97
3.8.1 案例1 97
3.8.2 案例2 102
小結(jié) 104
習(xí)題3 104
第4章 數(shù)據(jù)分析 105
4.1 數(shù)據(jù)定位 105
4.1.1 了解基本數(shù)據(jù) 105
4.1.2 使用[ ]定位 107
4.1.3 使用loc[ ]定位 108
4.1.4 使用iloc[ ]定位 110
4.1.5 使用iat[ ]定位 112
4.2 條件篩選和排序數(shù)據(jù) 113
4.2.1 條件篩選 113
4.2.2 排序和排名 117
4.3 數(shù)據(jù)的描述性分析 121
4.3.1 describe( )方法 121
4.3.2 眾數(shù)、均值和中位數(shù) 123
4.3.3 數(shù)據(jù)重塑 124
4.3.4 相關(guān)性計(jì)算 131
小結(jié) 132
習(xí)題4 132
第5章 可視化基礎(chǔ)和原則 133
5.1 圖表 135
5.1.1 圖表的種類(lèi) 135
5.1.2 圖表設(shè)計(jì)原則 142
5.2 色彩暗示 152
5.2.1 色調(diào) 152
5.2.2 明度 153
5.2.3 飽和度 154
5.2.4 色彩暗示的綜合運(yùn)用 155
5.3 圖表可視化原則 156
5.3.1 “第一眼”原則 156
5.3.2 數(shù)據(jù)不是敵人 157
5.3.3 刪減無(wú)關(guān)的元素 157
5.3.4 慎用3D圖表 159
5.3.5 視覺(jué)暗示的使用 160
5.3.6 整體變個(gè)體 161
5.3.7 交互圖表原則 162
5.3.8 顯示上下文 164
5.4 圖表可視化的失敗案例 165
5.5 設(shè)計(jì)排版原則 168
5.5.1 順序 168
5.5.2 標(biāo)注 171
5.5.3 動(dòng)畫(huà)效果 171
5.5.4 分組 173
5.5.5 賦形 173
小結(jié) 174
習(xí)題5 175
第6章 數(shù)據(jù)可視化工具 176
6.1 信息圖制作工具 176
6.2 可視化工具Gapminder 179
6.3 可視化工具DataWrapper 181
6.4 可視化工具Gephi 188
6.5 可視化工具QGIS 194
6.6 可視化工具ECharts 201
6.6.1 五分鐘上手ECharts 201
6.6.2 第一個(gè)ECharts作品 202
6.6.3 使用ECharts主題 206
6.7 可視化工具Tableau 207
6.7.1 安裝和簡(jiǎn)介 208
6.7.2 連接數(shù)據(jù) 209
6.7.3 工作表 209
6.7.4 儀表板 210
6.7.5 故事 211
6.7.6 保存和導(dǎo)出 211
6.8 用Python和R實(shí)現(xiàn)可視化 215
小結(jié) 217
習(xí)題6 218
"para" label-module="para">
第7章 可視化作品發(fā)布 219
7.1 網(wǎng)絡(luò)基礎(chǔ)知識(shí) 219
7.2 HTML5基礎(chǔ) 220
7.2.1 HTML文檔 220
7.2.2 HTML常用標(biāo)簽 221
7.3 CSS3基礎(chǔ) 225
7.3.1 內(nèi)部CSS 225
7.3.2 外部CSS 228
7.4 JavaScript基礎(chǔ) 229
7.4.1 直接嵌入HTML使用 230
7.4.2 在HTML中調(diào)用 230
7.5 Web應(yīng)用框架和模板 231
7.5.1 Web應(yīng)用框架 231
7.5.2 Web模板 233
小 結(jié) 234
習(xí) 題 7 234
附錄A 數(shù)據(jù)可視化作品 235
附錄B 配套教學(xué)資源二維碼 237
參考文獻(xiàn) 238,
第1章 基礎(chǔ)知識(shí) 1
1.1 模擬和數(shù)字化 1
1.2 數(shù)模轉(zhuǎn)換 1
1.3 進(jìn)制 2
1.4 存儲(chǔ)單位 3
1.5 因特網(wǎng) 3
1.6 地址和協(xié)議 4
1.7 域名和域名系統(tǒng) 6
1.8 網(wǎng)絡(luò)速率 6
1.9 數(shù)據(jù)可視化 7
小結(jié) 7
習(xí)題1 7
第2章 數(shù)據(jù)獲取 8
2.1 知識(shí)共享許可協(xié)議 8
2.2 搜索數(shù)據(jù) 9
2.2.1 搜索引擎 10
2.2.2 瀏覽器 11
2.2.3 搜索指令 11
2.3 主動(dòng)公開(kāi)的數(shù)據(jù) 15
2.3.1 我國(guó)政府?dāng)?shù)據(jù) 15
2.3.2 國(guó)際組織數(shù)據(jù) 17
2.3.3 科研機(jī)構(gòu)及第三方數(shù)據(jù)公司 17
2.4 依申請(qǐng)公開(kāi)數(shù)據(jù) 17
2.5 數(shù)據(jù)眾包 18
2.6 抓取工具 18
2.6.1 import.io工具 20
2.6.2 Octoparse工具 23
2.7 Python基礎(chǔ) 33
2.7.1 環(huán)境配置 33
2.7.2 第一個(gè)Python程序 35
2.7.3 變量和運(yùn)算符 36
2.7.4 條件語(yǔ)句 43
2.7.5 循環(huán)語(yǔ)句 45
2.7.6 輸入和輸出 48
2.7.7 文件的讀/寫(xiě) 49
2.8 Beautiful Soup庫(kù) 51
2.8.1 安裝Beautiful Soup 51
2.8.2 使用Beautiful Soup抓取網(wǎng)頁(yè)數(shù)據(jù) 52
2.9 圖片的獲取 56
2.9.1 常用的圖片編輯軟件 56
2.9.2 圖片文件類(lèi)型 57
2.9.3 圖片文件的保存 58
2.10 音頻的獲取 59
2.10.1 常用的音頻編輯軟件 60
2.10.2 音頻文件類(lèi)型及保存 61
2.11 視頻的獲取 62
2.11.1 常用的視頻編輯軟件 62
2.11.2 視頻文件類(lèi)型 63
2.11.3 視頻文件的保存 63
2.12 數(shù)據(jù)格式轉(zhuǎn)換 64
2.12.1 數(shù)字圖片的格式轉(zhuǎn)換 65
2.12.2 數(shù)字音頻的格式轉(zhuǎn)換 67
2.12.3 數(shù)字視頻的格式轉(zhuǎn)換 68
2.12.4 文件格式轉(zhuǎn)換 68
2.12.5 可機(jī)讀數(shù)據(jù) 70
小結(jié) 70
習(xí)題2 70
第3章 數(shù)據(jù)清洗 71
3.1 Jupyter Notebook 71
3.1.1 安裝Jupyter Notebook 72
3.1.2 啟動(dòng)、關(guān)閉notebook服務(wù)器 72
3.1.3 保存notebook 75
3.2 Pandas包 75
3.2.1 系列(Series) 75
3.2.2 數(shù)據(jù)幀(DataFrame) 78
3.3 清洗缺失值 80
3.3.1 檢查缺失值 80
3.3.2 刪除含缺失值的行或列 82
3.3.3 填充缺失值 82
3.4 清洗格式內(nèi)容 84
3.4.1 刪除字符串中的空格 84
3.4.2 大小寫(xiě)轉(zhuǎn)換 85
3.4.3 規(guī)范數(shù)據(jù)格式 87
3.4.4 字符型數(shù)據(jù)判斷 87
"para" label-module="para">
3.5 清洗邏輯錯(cuò)誤 88
3.5.1 刪除重復(fù)記錄 88
3.5.2 替換不合理值 89
3.6 刪除非需求數(shù)據(jù) 90
3.6.1 刪除非需求行 90
3.6.2 刪除非需求列 90
3.7 分組、合并和保存 91
3.7.1 分組 91
3.7.2 數(shù)據(jù)合并 92
3.7.3 保存結(jié)果 96
3.8 數(shù)據(jù)清洗案例 97
3.8.1 案例1 97
3.8.2 案例2 102
小結(jié) 104
習(xí)題3 104
第4章 數(shù)據(jù)分析 105
4.1 數(shù)據(jù)定位 105
4.1.1 了解基本數(shù)據(jù) 105
4.1.2 使用[ ]定位 107
4.1.3 使用loc[ ]定位 108
4.1.4 使用iloc[ ]定位 110
4.1.5 使用iat[ ]定位 112
4.2 條件篩選和排序數(shù)據(jù) 113
4.2.1 條件篩選 113
4.2.2 排序和排名 117
4.3 數(shù)據(jù)的描述性分析 121
4.3.1 describe( )方法 121
4.3.2 眾數(shù)、均值和中位數(shù) 123
4.3.3 數(shù)據(jù)重塑 124
4.3.4 相關(guān)性計(jì)算 131
小結(jié) 132
習(xí)題4 132
第5章 可視化基礎(chǔ)和原則 133
5.1 圖表 135
5.1.1 圖表的種類(lèi) 135
5.1.2 圖表設(shè)計(jì)原則 142
5.2 色彩暗示 152
5.2.1 色調(diào) 152
5.2.2 明度 153
5.2.3 飽和度 154
5.2.4 色彩暗示的綜合運(yùn)用 155
5.3 圖表可視化原則 156
5.3.1 “第一眼”原則 156
5.3.2 數(shù)據(jù)不是敵人 157
5.3.3 刪減無(wú)關(guān)的元素 157
5.3.4 慎用3D圖表 159
5.3.5 視覺(jué)暗示的使用 160
5.3.6 整體變個(gè)體 161
5.3.7 交互圖表原則 162
5.3.8 顯示上下文 164
5.4 圖表可視化的失敗案例 165
5.5 設(shè)計(jì)排版原則 168
5.5.1 順序 168
5.5.2 標(biāo)注 171
5.5.3 動(dòng)畫(huà)效果 171
5.5.4 分組 173
5.5.5 賦形 173
小結(jié) 174
習(xí)題5 175
第6章 數(shù)據(jù)可視化工具 176
6.1 信息圖制作工具 176
6.2 可視化工具Gapminder 179
6.3 可視化工具DataWrapper 181
6.4 可視化工具Gephi 188
6.5 可視化工具QGIS 194
6.6 可視化工具ECharts 201
6.6.1 五分鐘上手ECharts 201
6.6.2 第一個(gè)ECharts作品 202
6.6.3 使用ECharts主題 206
6.7 可視化工具Tableau 207
6.7.1 安裝和簡(jiǎn)介 208
6.7.2 連接數(shù)據(jù) 209
6.7.3 工作表 209
6.7.4 儀表板 210
6.7.5 故事 211
6.7.6 保存和導(dǎo)出 211
6.8 用Python和R實(shí)現(xiàn)可視化 215
小結(jié) 217
習(xí)題6 218
"para" label-module="para">
第7章 可視化作品發(fā)布 219
7.1 網(wǎng)絡(luò)基礎(chǔ)知識(shí) 219
7.2 HTML5基礎(chǔ) 220
7.2.1 HTML文檔 220
7.2.2 HTML常用標(biāo)簽 221
7.3 CSS3基礎(chǔ) 225
7.3.1 內(nèi)部CSS 225
7.3.2 外部CSS 228
7.4 JavaScript基礎(chǔ) 229
7.4.1 直接嵌入HTML使用 230
7.4.2 在HTML中調(diào)用 230
7.5 Web應(yīng)用框架和模板 231
7.5.1 Web應(yīng)用框架 231
7.5.2 Web模板 233
小 結(jié) 234
習(xí) 題 7 234
附錄A 數(shù)據(jù)可視化作品 235
附錄B 配套教學(xué)資源二維碼 237
參考文獻(xiàn) 2382100433B
掌握數(shù)據(jù)可視化技術(shù)是未來(lái)工作和學(xué)習(xí)的必備能力,是展示理念和成果的重要手段。閱讀并完成本書(shū)的實(shí)踐,你將快速地學(xué)會(huì)數(shù)據(jù)獲取、清洗、分析、可視化及發(fā)布的完整流程。本書(shū)以豐富的實(shí)踐案例解析數(shù)據(jù)可視化的制作理念和具體方法,緊密?chē)@當(dāng)前數(shù)據(jù)可視化領(lǐng)域的實(shí)際需求,全面介紹數(shù)據(jù)可視化的概念和技巧。本書(shū)包含基礎(chǔ)知識(shí)、數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)分析、可視化基礎(chǔ)和原則、數(shù)據(jù)可視化工具和可視化作品發(fā)布等內(nèi)容,基于具體案例多角度啟發(fā)和引導(dǎo)讀者的創(chuàng)新思維,增強(qiáng)讀者對(duì)抽象數(shù)據(jù)的把握及綜合可視化能力的提升。本書(shū)內(nèi)容通俗易懂,簡(jiǎn)明實(shí)用,配套的教學(xué)輔助資料可免費(fèi)下載。本書(shū)適合零編程基礎(chǔ)的數(shù)據(jù)可視化從業(yè)者和高校師生閱讀,有一定工作經(jīng)驗(yàn)的數(shù)據(jù)可視化工程師也可以從本書(shū)中學(xué)到大量實(shí)用的技能。
監(jiān)控中心大屏,告訴你什么是大數(shù)據(jù)可視化
推薦你使用觀想報(bào)表,可以快速的制作多終端顯示的數(shù)據(jù)可視化,尤其是大屏顯示,觀向報(bào)表系統(tǒng)里面有非常的多圖表樣式,除了大屏顯示,還可以移動(dòng)端、pc端、大屏等多終端顯示,制作圖表就像在線ps一樣,根據(jù)需求對(duì)...
大牛哪有那么好成,視頻教程都只是初級(jí)的
格式:pdf
大?。?span id="u9di7e4" class="single-tag-height">240KB
頁(yè)數(shù): 3頁(yè)
評(píng)分: 4.7
詳細(xì)介紹了地質(zhì)勘探工程現(xiàn)象分析、地質(zhì)勘探工程幾何對(duì)象與空間維特征分析、地質(zhì)勘探工程數(shù)據(jù)獲取及地質(zhì)勘探工程斜測(cè)資料計(jì)算,在此基礎(chǔ)上,提出了地質(zhì)勘探工程數(shù)據(jù)結(jié)構(gòu)及算法實(shí)現(xiàn),最后使用面向?qū)ο蠓椒ê蚈penGL技術(shù)開(kāi)發(fā)了供本文研究專(zhuān)用的試驗(yàn)軟件系統(tǒng)。
格式:pdf
大小:240KB
頁(yè)數(shù): 5頁(yè)
評(píng)分: 4.5
采用信息化施工技術(shù)進(jìn)行大型滑坡整治,既安全又經(jīng)濟(jì)。筆者探討了基于大量監(jiān)測(cè)數(shù)據(jù)處理為核心的信息化施工技術(shù)。采用數(shù)據(jù)可視化技術(shù)對(duì)大型滑坡巨大數(shù)據(jù)進(jìn)行分析處理,確定了滑動(dòng)面位置、滑動(dòng)方向和對(duì)滑坡進(jìn)行危險(xiǎn)性分區(qū)。將支持向量機(jī)方法用于預(yù)測(cè)滑坡變形。將智能和可視化分析結(jié)果用于滑坡動(dòng)態(tài)優(yōu)化設(shè)計(jì)中,并用一個(gè)實(shí)際工程實(shí)例論述了方法的思路。
大數(shù)據(jù)的4V并不在一個(gè)層面
講起大數(shù)據(jù),首先的印象就是《大數(shù)據(jù)時(shí)代》這本書(shū)中的提出的4V, 海量的數(shù)據(jù)規(guī)模(volume)、快速的數(shù)據(jù)流轉(zhuǎn)和動(dòng)態(tài)的數(shù)據(jù)體系(velocity)、多樣的數(shù)據(jù)類(lèi)型(variety)和巨大的數(shù)據(jù)價(jià)值(value)。
前三個(gè)V直接描述了數(shù)據(jù)本身的特征, 大數(shù)據(jù)業(yè)界無(wú)數(shù)的公司推出了各種存儲(chǔ)和數(shù)據(jù)處理的解決方案以應(yīng)對(duì)大數(shù)據(jù)帶來(lái)的技術(shù)挑戰(zhàn), 初期的淘金者賺的盆滿缽溢,留下了大量存滿數(shù)據(jù)的機(jī)房??墒钦f(shuō)好的價(jià)值呢?
最后一個(gè)V實(shí)現(xiàn)的并不理想。
以業(yè)界最為聞名遐邇的Palantir公司為例,他的founder是大名鼎鼎的硅谷投資創(chuàng)業(yè)教父,paypal創(chuàng)始人彼得.蒂爾。它第一個(gè)客戶和最大的客戶是美國(guó)中央情報(bào)局CIA,協(xié)助反恐。據(jù)說(shuō)正是依靠他們的協(xié)助,CIA找到了本的蹤跡。Palantir 為此聲名大噪。其最新一輪融資4.5億美元,公司估值在200億美元,是僅次于uber, airbnb和小米的創(chuàng)業(yè)公司。
可是最近的一些爆料Palantir的一系列問(wèn)題。去年有至少3個(gè)重要客戶終止了合同,包括可口可樂(lè),america express, 和納斯達(dá)克。這些客戶一方面抱怨公司收費(fèi)太高,會(huì)高達(dá)100萬(wàn)美元每個(gè)月,感覺(jué)遠(yuǎn)遠(yuǎn)不值得。而且客戶和公司的年輕工程師合作起來(lái)非常頭疼。
Palantir公司上次宣布去年全年的“預(yù)約價(jià)值”是17億美元,但是實(shí)際上最后的收入只有4.5億美元。預(yù)約價(jià)值是客戶可能要支付的費(fèi)用,包括很多試用期,免費(fèi)用戶的合同價(jià)值。這兩個(gè)數(shù)據(jù)的巨大差距說(shuō)明很少一部分客戶最后變成了付費(fèi)用戶。
Palantir公司情況恰恰彰顯了大數(shù)據(jù)巨大數(shù)據(jù)價(jià)值獲取并不容易。
大數(shù)據(jù)中的確隱藏著大量?jī)r(jià)值,但價(jià)值的實(shí)現(xiàn)不在于數(shù)據(jù)分析本身,而在于數(shù)據(jù)與業(yè)務(wù)場(chǎng)景的碰撞。
Palantir的數(shù)據(jù)實(shí)踐中面臨的幾個(gè)問(wèn)題:
1.數(shù)據(jù)的價(jià)值和行業(yè)場(chǎng)景緊密相關(guān), Palantir擅長(zhǎng)抓壞人, 通過(guò)大量的數(shù)據(jù)關(guān)聯(lián),發(fā)現(xiàn)業(yè)務(wù)中的異常,進(jìn)而通過(guò)異常的控制實(shí)現(xiàn)數(shù)據(jù)的價(jià)值, 這樣的場(chǎng)景在安全,金融等領(lǐng)域比較適合, 但當(dāng)推廣到其它場(chǎng)景的時(shí)候,效果往往差強(qiáng)人意。深度行業(yè)場(chǎng)景的介入往往需要對(duì)行業(yè)的深度介入, 成本高, 周期長(zhǎng)。
2.數(shù)據(jù)及分析人員本身也是成本, 大數(shù)據(jù)獲取成本, 數(shù)據(jù)科學(xué)家的高額成本,分析工作失敗的機(jī)會(huì)成本,還有數(shù)據(jù)價(jià)值的體現(xiàn)程度。這些都對(duì)大數(shù)據(jù)項(xiàng)目產(chǎn)生直接影響, 這些成本與價(jià)值比能否控制在一定范圍,長(zhǎng)期看來(lái),成本是否有線性下降的預(yù)期也是企業(yè)決策關(guān)鍵因素。
3.工程師的技能與思維能力,數(shù)據(jù)科學(xué)家培養(yǎng)及留住不易, 年輕工程師的培養(yǎng),學(xué)習(xí)曲線和成本都是需要考慮的點(diǎn)。
數(shù)據(jù)價(jià)值之路的幾個(gè)里程碑
Gartner有一個(gè)非常簡(jiǎn)單和清晰的數(shù)據(jù)分析和難度的劃分模式從數(shù)據(jù)分析的難度到數(shù)據(jù)價(jià)值的實(shí)現(xiàn)給出了4個(gè)層面的定義。這四個(gè)層面的定義也非常適合被看作是我們數(shù)據(jù)價(jià)值探索上的4個(gè)里程碑。
?描述(Descriptive),解決什么發(fā)生的分析,是相對(duì)簡(jiǎn)單的分析。 描述性的分析通常需要把大數(shù)據(jù)沉淀成為更小的,更高價(jià)值的信息,通過(guò)匯總來(lái)對(duì)一個(gè)已經(jīng)發(fā)生了事件的提供洞察和報(bào)告。
?診斷(Diagnostic),在事件數(shù)據(jù)描述的基礎(chǔ)上, 提供對(duì)原因的深度分析, 通常需要更多維度的數(shù)據(jù), 更長(zhǎng)時(shí)間的數(shù)據(jù)跨度, 通過(guò)關(guān)聯(lián)分析發(fā)現(xiàn)事件與數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。
?預(yù)測(cè)(Predictive),預(yù)測(cè)性分析通過(guò)一系列的統(tǒng)計(jì),建模,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等技術(shù)來(lái)學(xué)習(xí)近期和歷史數(shù)據(jù), 幫助分析師對(duì)未來(lái)做一定的預(yù)測(cè)。
?規(guī)范分析(Prescriptive),規(guī)范性分析突破了分析并擴(kuò)展到執(zhí)行階段, 結(jié)合了預(yù)測(cè),部署, 規(guī)則,多重預(yù)測(cè),評(píng)分,執(zhí)行和優(yōu)化規(guī)則, 最終形成一個(gè)閉環(huán)的決策管理能力。
過(guò)去的實(shí)踐表明,75%以上的數(shù)據(jù)分析場(chǎng)景是描述性的分析,大部分企業(yè)已經(jīng)建立的數(shù)據(jù)倉(cāng)庫(kù)和BI系統(tǒng)都可以歸于這一場(chǎng)景,日常運(yùn)營(yíng)報(bào)告,運(yùn)營(yíng)儀表盤(pán), 駕駛指揮艙等都屬于這一類(lèi)的應(yīng)用的實(shí)現(xiàn)。 診斷和預(yù)測(cè)類(lèi)分析應(yīng)用則更多使用在推薦, 運(yùn)營(yíng)異常分析等特定場(chǎng)景中, 使用的范圍較小, 效果參差不齊。而規(guī)范分析的場(chǎng)景直接打通了分析與執(zhí)行,目前主要是體現(xiàn)在自動(dòng)駕駛, 機(jī)器人等更為特定業(yè)務(wù)場(chǎng)景中。在商業(yè)環(huán)境中, 數(shù)據(jù)的價(jià)值需要的不僅僅是分析, 真正的價(jià)值是通過(guò)數(shù)據(jù)分析后的業(yè)務(wù)決策和業(yè)務(wù)執(zhí)行獲得的。
筆者用下面的這張圖來(lái)描繪數(shù)據(jù)的價(jià)值之路, 越是向右,數(shù)據(jù)體現(xiàn)的業(yè)務(wù)價(jià)值指數(shù)越高, 體現(xiàn)的業(yè)務(wù)價(jià)值越高。
圖中淺綠和深綠的部分是大量的人工參與過(guò)程, 幫助對(duì)前面數(shù)據(jù)分析的過(guò)程和結(jié)果進(jìn)行進(jìn)一步的人工處理和加工。在過(guò)去IT主導(dǎo)的時(shí)代這兩個(gè)部分往往由IT部門(mén)承擔(dān),被業(yè)務(wù)需求驅(qū)動(dòng),實(shí)施的效果不好,還往往成為業(yè)務(wù)部門(mén)詬病的對(duì)象。大數(shù)據(jù)時(shí)代,業(yè)務(wù)部門(mén)深度參與,逐漸成為數(shù)據(jù)的主要使用者和創(chuàng)新者,通過(guò)數(shù)據(jù)分析,業(yè)務(wù)人員解讀,豐富,判斷,決策,并最終完成執(zhí)行的閉環(huán),實(shí)現(xiàn)數(shù)據(jù)的價(jià)值化。
TalkingData作為一家領(lǐng)先的大數(shù)據(jù)價(jià)值的踐行者, 正是基于這一思路設(shè)置了自己的能力版圖: 在幾年的發(fā)展過(guò)程中,實(shí)現(xiàn)了海量數(shù)據(jù)的積累; 統(tǒng)計(jì)分析,運(yùn)營(yíng)分析,廣告監(jiān)測(cè),DMP一系列工具平臺(tái)進(jìn)一步實(shí)現(xiàn)了描述,診斷,預(yù)測(cè)類(lèi)分析的技術(shù)實(shí)現(xiàn); 創(chuàng)新建立的專(zhuān)業(yè)數(shù)據(jù)咨詢團(tuán)隊(duì)為核心客戶貼身服務(wù),輔助企業(yè)利用大數(shù)據(jù)進(jìn)行業(yè)務(wù)決策,為企業(yè)的大數(shù)據(jù)創(chuàng)新保駕護(hù)航;最近一年,TalkingData正在逐步打造開(kāi)放的數(shù)據(jù)生態(tài), 為客戶帶來(lái)更為廣泛的數(shù)據(jù)價(jià)值。
如今,面對(duì)海量的生物數(shù)據(jù)集,人們往往感到束手無(wú)策。然而,這些TB級(jí)的數(shù)據(jù)有望帶來(lái)新的假說(shuō)、新的藥物靶點(diǎn),以及對(duì)生物系統(tǒng)的更徹底了解。數(shù)據(jù)可視化在其中扮演著至關(guān)重要的作用。在一期《BioTechniques》雜志上,Sarah Webb博士探討了數(shù)據(jù)可視化的挑戰(zhàn)和能力。
大數(shù)據(jù)是一個(gè)美好的概念。不過(guò)隨著生物數(shù)據(jù)集的增長(zhǎng)和變化,可視化研究人員正面臨持續(xù)的挑戰(zhàn)。哈佛醫(yī)學(xué)院的Nils Gehlenborg表示,問(wèn)題在于數(shù)據(jù)的規(guī)模和異質(zhì)性。人類(lèi)基因組包含數(shù)十億個(gè)堿基,研究人員希望從染色體、基因甚至堿基對(duì)水平來(lái)查看。此外,還有其他類(lèi)型的關(guān)聯(lián)數(shù)據(jù),比如癌癥患者的性別、年齡、腫瘤類(lèi)型等。
瀏覽基因組
在線的基因組瀏覽器可以幫助研究人員探索數(shù)據(jù)、尋找模型,并建立假說(shuō)。目前有許多這樣的工具,每個(gè)在功能上稍有不同。加州大學(xué)圣克魯茲分校分校(UCSC)的Genome Browser自2000年上線,是探索人類(lèi)基因組、各種脊椎動(dòng)物的基因組以及其他模式生物基因組的工具。
在Genome Browser中,染色體上的單個(gè)基因顯示為分散的刻度線。當(dāng)用戶放大基因,他們可看到不同的異構(gòu)體,了解它是如何剪接的。較深的顏色表示這些異構(gòu)體獲得更多實(shí)驗(yàn)證據(jù)的支持,框代表外顯子,而箭頭表示轉(zhuǎn)錄方向。再進(jìn)一步放大,深色和淺色的條紋顯示特定密碼子的位置。
此外,基于UCSC的Genome Browser,人們也開(kāi)發(fā)出更多的工具。比如,Ting Wang在UCSC攻讀博士后時(shí)領(lǐng)導(dǎo)了一個(gè)拆分項(xiàng)目,最終開(kāi)發(fā)出UCSC Cancer Genomics Browser。之后他來(lái)到華盛頓大學(xué),開(kāi)始構(gòu)建表觀基因組瀏覽器VizHub。它目前擁有大約25,000個(gè)表觀遺傳學(xué)數(shù)據(jù)集。
探索蛋白質(zhì)組
據(jù)比利時(shí)根特大學(xué)的Lennart Martens介紹,蛋白質(zhì)組學(xué)也面臨可視化的挑戰(zhàn)。與基因組學(xué)數(shù)據(jù)庫(kù)類(lèi)似,質(zhì)譜數(shù)據(jù)庫(kù)是一個(gè)潛在的寶庫(kù),有望發(fā)現(xiàn)新的相互作用,并產(chǎn)生新的假說(shuō)。他估計(jì),歐洲生物信息學(xué)研究所的PRIDE數(shù)據(jù)庫(kù)大約包含10億個(gè)質(zhì)譜數(shù)據(jù),其中70%是未確定的。
Martens是一名生物信息學(xué)家,他的工作主要集中在蛋白質(zhì)組學(xué),最近也在代謝組學(xué)。他試圖找到更好的方法,來(lái)表示新生成的質(zhì)譜數(shù)據(jù),以及那些公開(kāi)的數(shù)據(jù)。他承認(rèn),以直觀的方式濃縮分子碎片的各種組合是比較困難的。“我們也不總是成功,”他說(shuō),“你不能無(wú)限濃縮這一信息。”
可視化工具的開(kāi)發(fā)可能需要很長(zhǎng)的時(shí)間。研究人員必須了解用戶及其需求,還需要了解數(shù)據(jù)集以及數(shù)據(jù)的潛在關(guān)系。有時(shí),相互理解就需要許多回合的討論。對(duì)于計(jì)算機(jī)背景的研究人員來(lái)說(shuō),生物學(xué)可能太過(guò)混亂。
此外,盡管數(shù)據(jù)可視化相當(dāng)重要,但大多數(shù)研究人員沒(méi)有接受過(guò)這一方面的培訓(xùn)。他們可能無(wú)法理解某些類(lèi)型的圖像,如氣泡圖和雷達(dá)圖。Martens認(rèn)為,這個(gè)問(wèn)題只能通過(guò)培訓(xùn)來(lái)解決。在這篇文章中,加拿大基因組科學(xué)中心的Martin Krzywinski就數(shù)據(jù)可視化提出了幾點(diǎn)建議,可幫助大家美化。
將數(shù)據(jù)轉(zhuǎn)化成可視化圖表/形,其實(shí)一個(gè)工具就能完成,礙于工具太多,按照使用場(chǎng)景,暫且將已成熟應(yīng)用的分為三個(gè)層次:
第一層:數(shù)據(jù)報(bào)告、信息圖
這里統(tǒng)稱(chēng)信息圖。信息圖是把數(shù)據(jù)、信息或知識(shí)可視化,必須要有一個(gè)清楚準(zhǔn)確的解釋或表達(dá)甚為復(fù)雜且大量的信息。
代表人物是新聞界的David McCandless(大衛(wèi). 麥克坎德雷斯),曾為《英國(guó)衛(wèi)報(bào)》、《連線》、《獨(dú)立報(bào)》等刊物撰稿。常以簡(jiǎn)潔精美的圖像展現(xiàn)復(fù)雜抽象資訊,并將不同的數(shù)據(jù)組合,展現(xiàn)其中的聯(lián)系。他在TED上曾講過(guò):
可視化并不局限于數(shù)字,概念也同樣適用,比如政治傾向圖譜。我試圖將各種政治傾向融入到圖表中,并展示其如何從政府滲透到社會(huì)、文化中,對(duì)家庭和個(gè)人產(chǎn)生影響,繼而又反過(guò)來(lái)影響政治。
比如用圖形來(lái)表示數(shù)值
視線流動(dòng),構(gòu)建時(shí)空
信息圖的制作:
利用PPT自帶的圖表,可以制作簡(jiǎn)潔直觀的數(shù)據(jù)圖表,但附上人文花鳥(niǎo)就需要美工設(shè)計(jì);
PS+AI+icon,前期規(guī)劃好表達(dá)思路、展示內(nèi)容、所需素材,之后便大刀闊斧動(dòng)工組件了。圖表的細(xì)節(jié),如柱狀圖的長(zhǎng)短依據(jù)數(shù)據(jù)大概等比例量一下。
這一類(lèi)對(duì)數(shù)據(jù)的維度數(shù)量要求都不高,運(yùn)用的大多是結(jié)果數(shù)據(jù),側(cè)重點(diǎn)也在于展示。
第二層:實(shí)際數(shù)據(jù)應(yīng)用
應(yīng)用類(lèi)的可視化正如上面所說(shuō)的,將一堆幾百到即使幾百萬(wàn)不等的數(shù)據(jù)展示、分析。對(duì)于企業(yè),因?yàn)檫@些數(shù)據(jù)本身是自己生產(chǎn)經(jīng)營(yíng)過(guò)程中產(chǎn)生的,能反映歷史的狀況,總結(jié)發(fā)展之道,對(duì)目前的問(wèn)題或者未來(lái)下一步的決策起到輔助作用。
這樣的工具excel能解決,報(bào)表工具能解決,BI也能解決,具體細(xì)化到什么樣的場(chǎng)景不是這里的重點(diǎn),大家可以在下面評(píng)論交流。
通常的制作流程是:導(dǎo)入數(shù)據(jù)(excel)/連接數(shù)據(jù)庫(kù)(本地/服務(wù)器)——選擇圖表(組合)——設(shè)定分析維度——美化展示。比如像這種濃濃的帶有商業(yè)味道的可視化報(bào)表(由FineReport制作)
當(dāng)然,這樣功力的可視化報(bào)表需要一定的審美和熟練操作。圖中每一塊都是一個(gè)圖表控件,在表單(dashboard)中拖入一個(gè)圖表控件,選定數(shù)據(jù)字段,然后搭配組合,排布版型。
第三層:據(jù)挖掘、數(shù)據(jù)連接、關(guān)系傳遞
這個(gè)可以理解為從海量數(shù)據(jù)中挖掘關(guān)系。
大致思路:原始數(shù)據(jù)經(jīng)過(guò)一連串收集、提取、清洗、整理等預(yù)處理過(guò)程,形成高質(zhì)量的數(shù)據(jù)。然后按照需要對(duì)數(shù)據(jù)貼標(biāo)簽分類(lèi)或者預(yù)測(cè),如果要從大量復(fù)雜的數(shù)據(jù)中提取有價(jià)值且不易發(fā)現(xiàn)的信息還要數(shù)據(jù)建模。(細(xì)節(jié)可能各有不同)
比較適用的是一寫(xiě)高級(jí)的數(shù)據(jù)分析挖掘工具以及開(kāi)源圖表控件,如R,如D3。
用R做可視化,比較容易做出漂亮的可視化圖表,推薦書(shū)籍R Graphics Cookbook,書(shū)中有150多個(gè)recipes,足夠應(yīng)付大多類(lèi)型的數(shù)據(jù)。
D3做圖可以定制,美觀圖圖表的豐富性秒殺大多圖表控件,但要求的水平有一丟丟高。
最后,再次引用David McCandless的話“炫酷的可視化對(duì)于把思想傳遞給大眾又是至關(guān)重要的”,切勿一味追求美感,本末倒置。