当前位置:首页 > 工业技术
R语言与网站分析
R语言与网站分析

R语言与网站分析PDF电子书下载

工业技术

  • 电子书积分:14 积分如何计算积分?
  • 作 者:李明著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2014
  • ISBN:9787111459712
  • 页数:446 页
图书介绍:本书共分为3部分(12章),第一部分是预备知识(第1~3章),简要概述了网站分析的任务以及和R语言优势,并详细讲解了R语言的数据操作、基础入门相关知识,同时还对R语言的基础绘图功能进行了讲解。第二部分为网站基础分析(第4~8章),这一部分针对R语言对数据进行了描述性分析,并介绍了如何对数据进行质量监控,包括短周期的趋势和异常点预警等知识。在网站分析中,时间序列数据的建模和预测(指数,移动平滑,arma等模型)是不可或缺的环节,此外,还要判定数值数据和分离数据变量间的显著性影响。这些内容都是本书的重点内容,最后,在前面知识的基础上,介绍了R语言的GtkWidget应用,并使用它建立了一个简易的网站分析后台系统。第三部分则为网站高级分析(第9~12章),这一部分是本书的精华内容,包括:使用一个用户细分的问卷调查来指导读者学习因子分析和聚类分析;使用实例说明回归分析和logic分析;分类分析的工作原理、模型解读;实例讲解关联分析和序列类型的关联分析等内容。
《R语言与网站分析》目录

第1章 统计思维与网站分析 1

1.1不确定与确定 1

1.2统计分析方法 4

1.2.1细分分析 4

1.2.2对比分析 6

1.2.3趋势分析 7

1.3网站分析概要 7

1.3.1解决用户需求 7

1.3.2寻找新的用户需求 10

第2章R语言数据操作基础 11

2.1R简介 11

2.2了解R软件 11

2.2.1软件安装 11

2.2.2 R软件界面 12

2.2.3工作目录 14

2.2.4命令行交互 15

2.2.5命令脚本文件 16

2.2.6工作空间数据 16

2.2.7帮助 17

2.2.8 R语言入门 18

2.2.9扩展算法包 19

2.3 R语言的数据类型 21

2.4对象及其属性 23

2.4.1固有属性:模式和长度 24

2.4.2读取和设置属性值 24

2.4.3对象的搜索和删除 25

2.5向量 26

2.5.1创建向量 26

2.5.2向量索引 26

2.5.3向量编辑 29

2.5.4向量排序 29

2.5.5向量去重 30

2.5.6缺失值处理 30

2.5.7向量间操作 31

2.6矩阵和数组 31

2.6.1创建矩阵 32

2.6.2矩阵索引 33

2.6.3矩阵编辑 34

2.6.4矩阵的运算 35

2.6.5数组 37

2.6.6 apply函数应用 38

2.7列表和数据框 39

2.7.1列表的创建和索引 39

2.7.2列表编辑 40

2.7.3数据框的创建和名称 40

2.7.4数据框索引 41

2.7.5数据框编辑 43

2.7.6缺失值处理 44

2.8因子 44

2.8.1无序和有序因子 45

2.8.2连续数据的离散化 46

2.9字符串操作 47

2.9.1字符串长度nchar 48

2.9.2字符串合并和分割 48

2.9.3字符串内部字符的读取和替换 49

2.9.4正则表达式 52

2.10常用数据的创建 53

2.10.1因子序列的创建 53

2.10.2等差序列的创建 54

2.10.3随机抽样sample 54

2.10.4重复序列rep 55

2.10.5概率分布 55

2.11控制流 58

2.11.1分支语句 58

2.11.2循环语句 59

2.12运算符、函数和过程 61

2.12.1常用运算符 61

2.12.2函数 62

2.12.3过程 63

2.13数据的读写等操作 64

2.13.1读取数据 64

2.13.2输出数据 68

第3章 R语言的绘图基础 69

3.1概述 69

3.2颜色以及文字/点/线参数的设置 69

3.2.1颜色 71

3.2.2文字元素相关参数设置 76

3.2.3点元素相关参数设置 77

3.2.4线元素相关参数设置 79

3.3低级绘图函数 80

3.3.1引例 80

3.3.2标题 81

3.3.3图例 83

3.3.4坐标轴 84

3.3.5边框 88

3.3.6网格线 89

3.3.7点 90

3.3.8线 91

3.3.9文字 94

3.3.10多边形 96

3.4高级绘图函数以及常用绘图应用 96

3.4.1图形类型的选择 96

3.4.2散点图 98

3.4.3气泡图 100

3.4.4曲线图 102

3.4.5柱状图 105

3.4.6 条形图 109

3.4.7饼图 111

3.4.8面积堆积图 115

3.4.9直方图和密度曲线图 118

3.5绘图窗口操作函数 120

3.5.1单一窗口中的子绘图区域布局 120

3.5.2绘图窗口操作 120

第4章 单指标分析 121

4.1指标描述 121

4.1.1平均值和集中趋势 121

4.1.2正态分布 126

4.1.3频数分析 130

4.1.4描述性分析指标 131

4.2异常点监控 133

4.2.1概述 133

4.2.2 P控制图:监控转化率型指标 135

4.2.3单值-均值控制图 142

4.2.4单值-移动极差控制图 147

4.3连续型指标的对比 150

4.3.1数据变换 150

4.3.2假设检验 152

4.3.3相同指标内的两组数对比:T检验 153

4.3.4相同指标内的多组数据对比:单因素方差分析 156

4.3.5单因素协方差分析 163

4.4分类型指标的对比 167

4.4.1列联表分析 167

4.4.2卡方独立性检验 172

第5章 时间序列分析 177

5.1时间序列 177

5.2增长率 180

5.2.1环比增长率 180

5.2.2同比增长率 181

5.3移动平均 181

5.3.1数学原理概述 181

5.3.2 filter函数 182

5.3.3 R语言实现 184

5.4指数平滑 185

5.4.1一次指数平滑 186

5.4.2二次指数平滑 187

5.4.3三次指数平滑 191

5.5 ARIMA模型 194

5.5.1自相关性 194

5.5.2平稳性和白噪声 199

5.5.3 MA滑动平均过程 200

5.5.4 AR自回归过程 202

5.5.5 ARMA自回归滑动平均混合过程 203

5.5.6检验模型质量 205

5.5.7非平稳时间序列的ARIMA过程 208

第6章 连续指标建模:回归分析 213

6.1一元线性回归分析 213

6.1.1引例 213

6.1.2一元线性回归分析的原理及R语言实现 214

6.2多元回归分析 221

6.2.1引例 222

6.2.2多元线性回归分析建模 222

6.2.3模型修正函数update() 223

6.2.4逐步回归分析函数step() 226

6.2.5自变量中包含分类型数据的回归分析 228

6.3 Logic回归分析 230

6.3.1引例及数据 230

6.3.2 logic分析的原理 230

6.3.3 R语言实现 232

6.4回归树CART 237

6.4.1 rpart函数 237

6.4.2预测及模型性能衡量 240

6.4.3过度拟合和剪枝 240

第7章 分类指标建模:分类分析 243

7.1决策树分类分析 243

7.1.1概述 243

7.1.2 C4.5算法 247

7.1.3 CART算法 258

7.1.4条件推理决策树算法 265

7.1.5随机森林算法 267

7.2贝叶斯分类 268

7.2.1贝叶斯定理 268

7.2.2朴素贝叶斯分类器 270

7.3支持向量机SVM 271

7.3.1原理 271

7.3.2在R语言中实现非线性SVM分析 273

7.4人工神经网络 274

7.4.1神经元 274

7.4.2两层网络 275

7.4.3反向传播算法 276

7.4.4 R语言实现 282

7.4.5隐藏层中神经单元数目的确定 283

7.5分类器的性能评估 284

7.5.1混淆矩阵 284

7.5.2 ROC曲线和AUC 287

7.5.3提升度和提升曲线 291

7.5.4洛伦兹曲线 292

第8章 样本细分 293

8.1数据降维 293

8.1.1问题引入 293

8.1.2因子分析概述 294

8.1.3 factanal函数 296

8.1.4实例:问卷调查的因子分析 297

8.2聚类分析 303

8.2.1距离 303

8.2.2层次聚类 313

8.2.3 kmeans聚类 318

8.3样本判别 321

8.3.1 knn (k最近邻分类)算法 323

8.3.2实例:基于knn算法的商品推荐系统 324

第9章 样本间的关系 329

9.1关联分析 329

9.1.1关联分析的原理 329

9.1.2 Apriori算法的R语言实现 331

9.2序列模式关联分析 334

9.2.1序列模式关联分析的原理 334

9.2.2序列模式关联分析的R语言实现 336

9.2.3实例:用户点击页面的行为分析 338

9.3关系网络分析 346

9.3.1网络关系分析的基本概念 346

9.3.2中心度 356

9.3.3中心势 362

9.3.4社群发现 363

9.3.5实例:分析微博的传播特性 367

9.3.6实例:购物车商品分类分析 370

第10章 文本分析 378

10.1数据处理 378

10.1.1数据引例 378

10.1.2分词和词条 380

10.1.3语料库和文档 381

10.1.4词条一文档关系矩阵 384

10.2实例:QQ群消息历史分析 387

10.2.1数据集 387

10.2.2数据集格式转化 389

10.2.3留言文本的分词操作 390

10.2.4分析常用话题词汇 391

10.2.5建立用户-词条间的网络关系图 392

10.2.6绘制重点词条和用户的网络图 392

10.3 XML包爬取网页数据 394

10.3.1 htmlParse函数 395

10.3.2 getNodeSet函数 395

10.3.3 xmlValue函数 396

10.3.4 xmlGetAttr函数 396

10.3.5实例:爬取某电商网站衬衫类目商品的部分信息 397

第11章 网站指标监控系统的搭建 400

11.1gWidgets包基础 400

11.1.1环境搭建 400

11.1.2引例 401

11.1.3常用控件 406

11.2实例:商品搜索算法参数配置监控GUI系统 414

11.2.1商品搜索算法概述 414

11.2.2原始商品信息 415

11.2.3系统概述 417

11.2.4模块布局 418

11.2.5计算除关键字匹配以外的指标得分 420

11.2.6模拟一次搜索行为数据 421

11.2.7模拟多次搜索行为数据 423

11.2.8绘图 423

第12章 基于RFM模型的客户价值系统 427

12.1马尔科夫链 427

12.1.1引例 427

12.1.2概念 428

12.1.3预测实例 428

12.2 RFM模型 431

12.2.1 RFM的概念 431

12.2.2数据集 431

12.2.3购买行为随机模型 432

12.3结合马尔科夫链的RFM模型 436

12.3.1购买状态转移矩阵 437

12.3.2预测用户购买状态 445

返回顶部