零基礎學R語言數(shù)據(jù)分析:從機器學習、數(shù)據(jù)挖掘、文本挖掘到大數(shù)據(jù)分析
定 價:59 元
叢書名:高等學校計算機基礎教育教材精選
- 作者:李仁鐘、李秋緣
- 出版時間:2018/9/1
- ISBN:9787302510802
- 出 版 社:清華大學出版社
- 中圖法分類:TP312
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書共分14章,內(nèi)容主要有R語言簡介、數(shù)據(jù)讀取與寫入的方法,條件判斷、循環(huán)等流程控制以及自定義函數(shù),高級繪圖、低級繪圖、交互式繪圖的說明,決策樹、支持向量機、人工神經(jīng)網(wǎng)絡的介紹,基本統(tǒng)計、機器學習、數(shù)據(jù)挖掘、文本挖掘、大數(shù)據(jù)分析的應用,層次聚類法、K平均聚類算法、模糊C平均聚類算法、聚類指標、基因算法及人工蜂群算法的應用。
本書適合沒有程序設計經(jīng)驗、想要接觸R語言的人以及對統(tǒng)計、機器學習、數(shù)據(jù)挖掘、文本挖掘、大數(shù)據(jù)分析有興趣的人閱讀。
R語言與生俱來就擁有數(shù)據(jù)統(tǒng)計和分析的DNA,而且R語言本身并不是獨立存在的程序設計語言。更準確地說,R語言以集成在一個R系統(tǒng)或環(huán)境中的方式呈現(xiàn)在我們面前,這個R系統(tǒng)集數(shù)據(jù)計算、數(shù)據(jù)處理、統(tǒng)計分析和圖形繪制等軟件包于一體,是一個完整的數(shù)據(jù)科學工具軟件。
如今,以互聯(lián)網(wǎng)大數(shù)據(jù)分析為基礎的人工智能,如機器學習、商業(yè)智能、數(shù)據(jù)挖掘、文本挖掘、數(shù)據(jù)可視化等領域都渴求強大、高效的數(shù)據(jù)科學工具,這種渴求讓R大放異彩。R 系統(tǒng)本身就是一個開放的系統(tǒng),除了傳統(tǒng)的數(shù)據(jù)統(tǒng)計分析/繪圖等軟件包,現(xiàn)在更增加了機器學習、數(shù)據(jù)和文本挖掘、大數(shù)據(jù)分析等相關的諸多程序包,讓R語言在這些領域成為光彩奪目的明星。
如果你對上述熱門的領域之一感興趣,并且想將R引入你的工作或研究中,那么本書就是一本快速參考指南。本書也可以作為完全不懂 R 軟件及數(shù)據(jù)分析的讀者自學R語言的*本讀物。
前 言
隨著 R 軟件的流行及普及化,許多學者和專家轉而使用 R 作為研究與開發(fā)的工具。R軟件有 Windows、UNIX、Linux及Apple MacOS等不同操作系統(tǒng)的免費版本,更有一萬種以上免費程序包可供使用,所以學習R軟件是睿智的選擇。
本書內(nèi)容共有14章,前4章先介紹 R 軟件的基本操作和應用,第5章對本書所使用的程序包做完整的介紹,包含 R 軟件在機器學習(Machine Learning)、數(shù)據(jù)挖掘(Data Mining)、文本挖掘(Text Mining)及大數(shù)據(jù)(Big Data)分析的相關程序包,第6~9章介紹各類學習算法,第10~12章介紹關聯(lián)規(guī)則、網(wǎng)絡社群分析及文本挖掘、圖形化數(shù)據(jù)分析工具,最后兩章介紹 Hadoop 和 Spark 大數(shù)據(jù)分析。
本書是作者多年來從事教學的心血結晶,適合作為大專院校信息類相關科系的教材,同時書中范例的程序代碼豐富,也可作為練習的補充教材。本書的撰寫以完全不懂R軟件及數(shù)據(jù)分析的讀者為對象,對于有意愿自學的讀者而言,本書也是一本不錯的入門參考書。
本書配套范例程序可從下面的網(wǎng)址(注意區(qū)分數(shù)字和字母大小寫)下載或掃描右邊的二維碼獲。
https://pan.baidu.com/s/17b-xnYfhICguW4wSz8pWXA
如果下載有問題,請聯(lián)系booksaga@126.com,郵件主題為零基礎學R語言數(shù)據(jù)分析:從機器學習、數(shù)據(jù)挖掘、文本挖掘到大數(shù)據(jù)分析。
本書的撰寫雖已力求完美,但難免會有疏漏之處,歡迎各位讀者指教。
李仁鐘、李秋緣
2018年6月
李仁鐘,資深開發(fā)工程師.
目 錄
第1章 R簡介 1
1.1 開始使用R軟件 1
1.2 R對象 4
1.2.1 向量 4
1.2.2 數(shù)組 5
1.2.3 矩陣 7
1.2.4 數(shù)據(jù)框 9
1.2.5 因子 11
1.2.6 列表 11
1.2.7 對象轉換 12
第2章 數(shù)據(jù)的讀取與寫入 14
2.1 數(shù)據(jù)的讀取 14
2.2 數(shù)據(jù)的寫入與數(shù)據(jù)集 17
2.3 RData 格式數(shù)據(jù)的寫入與讀取 18
2.4 讀取 SQL Server 數(shù)據(jù)庫的數(shù)據(jù) 19
第3章 流程控制及自定義函數(shù) 20
3.1 條件執(zhí)行 20
3.2 循環(huán)控制 22
3.3 自定義函數(shù) 25
第4章 繪圖功能及基本統(tǒng)計 27
4.1 高級繪圖 27
4.2 低級繪圖 30
4.3 交互式繪圖 31
4.4 圖形參數(shù) 32
4.5 基本統(tǒng)計 34
第5章 相關程序包的介紹 39
5.1 機器學習 39
5.2 數(shù)據(jù)挖掘 40
5.3 社交網(wǎng)絡分析及文本挖掘 40
5.4 大數(shù)據(jù)分析 41
5.5 程序包的介紹 41
第6章 監(jiān)督式學習 51
6.1 決策樹 51
6.2 支持向量機 61
6.3 人工神經(jīng)網(wǎng)絡 65
6.4 組合方法 70
6.4.1 隨機森林 70
6.4.2 推進法 71
第7章 無監(jiān)督式學習 72
7.1 層次聚類法 72
7.2 K 平均聚類算法 75
7.3 模糊C平均聚類算法 77
7.4 聚類指標 83
第8章 進化式學習 86
8.1 基因算法 86
8.2 人工蜂群算法 92
第9章 混合式學習 95
9.1 使用 C50 和 ABCoptim 程序包范例 95
9.2 使用基因算法來調(diào)整人工神經(jīng)網(wǎng)絡參數(shù)的范例 97
第10章 關聯(lián)規(guī)則 107
10.1 關聯(lián)規(guī)則簡介 107
10.2 Apriori 算法 108
第11章 社交網(wǎng)絡分析和文本挖掘 117
11.1 社交網(wǎng)絡分析 117
11.2 文本挖掘 122
第12章 圖形化數(shù)據(jù)分析工具 125
12.1 導入數(shù)據(jù) 126
12.1.1 處理數(shù)據(jù)集 130
12.1.2 設置變量 131
12.2 探索和測試數(shù)據(jù) 131
12.3 轉換數(shù)據(jù) 135
12.4 建立、評估和導出模型 137
第13章 大數(shù)據(jù)分析 (R Hadoop) 141
13.1 Hadoop 簡介 141
13.2 R Hadoop 142
第14章 SparkR 大數(shù)據(jù)分析 170
14.1 dplyr 數(shù)據(jù)處理程序包 172
14.2 SparkR 數(shù)據(jù)處理 175
14.3 SparkR 與 SQL Server 181
14.4 SparkR 與 Cassandra 184
14.5 Spark Standalone 模式 186
14.6 SparkR 數(shù)據(jù)分析 189
附錄A 下載和安裝 R 197
附錄B 安裝RStudio Desktop 203
附錄C 安裝ODBC 209
附錄D 指令及用法 214
附錄E 在虛擬機上安裝 R Hadoop 218
附錄F 在虛擬機上安裝 SparkR 247
參考文獻 272