《SAS数据挖掘与分析》PDF下载

  • 购买积分:13 如何计算积分?
  • 作  者:周爽,贾克云,阮桂海编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2008
  • ISBN:9787302169208
  • 页数:357 页
图书介绍:本书介绍数据挖掘与统计分析所需要的各类命令语句,以及如何来实现统计和分析。

第1章 SAS编程的语法知识 1

1.1 SAS概述 1

1.2观测值、变量常量 2

1.3 SAS的操作符 5

1.4 SAS数据挖掘常用的语句 7

习题1 11

第2章 数据挖掘的预备知识 13

2.1 DATA语句 13

2.2 INPUT语句 15

2.3 LENGTH语句 23

2.4用LABEL语句指定变量标签 24

2.5用PROC FORMAT过程指定数据标签 25

2.6用MISSING语句宣告缺失值 26

2.7注释语句 27

2.8创建新变量 27

2.9缺失值不参与运算 28

2.10求和语句 29

2.11删除变量 30

2.12用INFILE语句读取外部文件的数据 30

习题2 31

第3章 数据挖掘时的跳转与循环 33

3.1 IF语句 33

IF THEN语句 33

IF THEN/ELSE语句 36

3.2 GO TO语句 38

3.3 LINK语句 39

3.4 RETURN语句 40

3.5删除部分个案 43

删除数据集里暂时不用的个案 43

用IF语句挖掘部分数字型的个案 44

3.6循环语句 45

3.7数组 49

下标变量的下标 49

在DO…END循环中使用数组 50

多维数组 51

习题3 53

第4章 建立数据仓库 54

4.1建立永久数据集 54

4.2数据的分组及分组标记 58

分组控制 58

数据的分组标记 60

4.3数据的排序 61

4.4数据集的连接 62

变量相同时的连接 62

变量不同时的连接 63

变量值相同时的个案连接 65

4.5数据集“合二为一” 66

按个案号配对合并变量 66

用BY语句进行匹配合并 69

4.6用FILE语句控制输出文件 70

4.7 OUTPUT语句 72

OUTPUT语句格式 73

一个个案的变量分几行输出 73

一个DATA步创建多个数据集 73

多行信息合并为一行 74

4.8用DATASETS过程修改数据集 76

4.9查阅数据集的信息 77

习题4 78

第5章 数据挖掘的过程引论 79

5.1 DATA语句 79

5.2 INFILE语句 79

5.3 INPUT语句 80

用INPUT语句定义固定格式的变量 81

用INPUT语句定义自由格式的变量 81

用INPUT语句指定格式化的输入方式 82

INPUT语句含有挖掘功能 83

5.4用LABEL语句定义变量标签 84

5.5用FORMAT及VALUE语句定义数值标签 85

定义数值标签 85

指定“格式化输入” 86

用FORMAT语句指定变量值的格式 87

5.6用TITLE语句显示标题 88

5.7数据挖掘常用的统计过程 90

用PROC FREQ过程做简单的频数分布 91

用PROC CHART过程画图 91

用PROC PLOT过程画散点图 91

用PROC MEANS过程统计均值分布 93

用PROC RANK过程统计秩和分布 94

用PROC TABULATE制表 94

用PROC UNIVARIATE过程做详尽的频数分布 95

用PROC DBF过程调用dBASE数据库数据 99

用PROC PRINT过程显示数据集的信息 101

用PROC SORT过程对数据排序 103

用PROC STANDARD过程对变量标准化 104

用TRANSPOSE过程转置数据 106

习题5 107

第6章 通过描述统计挖掘数据 108

6.1用FREQ过程做单双变量的频数统计 108

FREQ过程命令 108

FREQ过程与其他过程的连用 110

6.2单变量频数分布 110

6.3双变量交叉汇总和结合测量 112

双变量频数统计的过程命令 112

“定类-定类”双变量交叉汇总与结合测量 112

“定比-定比”双变量交叉汇总与结合测量 114

“定序-定序”双变量交叉汇总与结合测量 115

6.4再用UNIVARIATE过程详细描述单变量 117

举例 117

UNIVARIATE过程命令 119

计算方法 121

6.5进一步用PROC CHART过程描述单变量 121

PROC CHART过程命令 122

CHART的选项1 122

6.6用MEANS过程比较两个均值 130

应用实例 130

MEANS过程命令 131

6.7用PROC PLOT过程画散点图 134

6.8用RANK过程进行非参数检验 136

什么是秩分 136

RANK过程命令 137

秩分计算 137

运用举例 138

习题6 143

第7章 均值比较与T检验 144

7.1均值比较的方法 144

配对样本的均值比较 144

两个独立样本的均值差检验 145

7.2 MEANS过程及其t统计量 145

7.3 TTEST过程及其t检验 148

7.4非参数检验 150

用NPARIWAY过程做非参数检验 150

举例 151

习题7 152

第8章 方差分析 154

8.1用ANOVA做均衡数据的方差分析 154

ANOVA过程命令 154

单因素方差分析 155

双因素方差分析 156

三因素方差分析 158

R*C交互因素的方差分析 160

多个实验组与对照组的均值比较 163

用SNK的Q检验法比较组间均值 164

8.2用GLM进行非均衡数据方差分析 166

GLM过程命令 166

GLM过程的统计功能 166

用GLM做单因素3水平方差分析 167

用GLM做双因素方差分析 168

8.3协方差分析 170

GLM过程命令 171

用GLM做协方差分析 171

习题8 174

第9章 相关分析 177

9.1数据的4种测量水平 177

9.2皮尔逊积差相关 178

皮尔逊相关系数CORR的计算公式 178

皮尔逊相关系数的测量 178

皮尔逊相关系数CORR的分析 183

9.3皮尔逊二分“点—距”相关 185

9.4肯氏(Kendall)等级相关τb 185

计算肯氏等级相关系数的数据 185

通过Analyst中的对话框计算肯氏相关系数τb 186

肯氏相关系数τb结果分析 189

9.5计算次序—比率数据的肯氏相关系数 189

次序—比率数据例子 189

计算次序—比率数据的Eta系数 190

肯氏相关系数τb结果分析 192

9.6斯皮尔曼等级相关 192

斯皮尔曼等级相关系数的计算公式 193

用“分析家”对话框测量等级相关 193

Spearman相关系数的分析 196

9.7“标称—标称”型变量的相关测量 197

9.8 Cronbach的Alpha系数与Spearman相关系数 197

9.9用PROC CORR过程编程计算相关系数 198

习题9 206

第10章 用GLM过程进行回归分析 207

10.1最小平方法的原理 207

方差分析 208

统计量F 209

回归系数B计算法 209

判定系数R2 210

残差分析 210

DW统计量D 210

10.2 GLM中各语句的格式 211

10.3 GLM程序各语句的使用说明 211

10.4调用GLM程序作一元线性回归 218

数据与程序 218

数据统计 224

数据挖掘 224

10.5调用GLM程序进行多元线性回归分析 226

10.6调用GLM程序进行多项式回归 231

多项式回归的一般模型 231

多项式回归的实例 232

10.7虚拟变量的用法 234

习题10 235

第11章 采用REG过程进行多元线性回归分析 237

11.1用Analyst对话框做多元线性回归 238

11.2 REG过程的语句格式 242

REG程序中的语句及任选项 243

REG程序中主要语句及关键词的注解 243

11.3 REG程序进一步实例 248

11.4 MAXR回归法和RSQUARE回归法 255

MAXR回归法 255

RSQUARE回归法 255

实用程序及图例 256

习题11 260

第12章 路径分析 261

12.1路径分析所用的程序 261

12.2图形输出 263

12.3路径图的分析方法 266

习题12 267

第13章 生存分析 268

13.1名词引论 268

13.2用LIFEREG进行生存分析 269

LIFEREG过程命令 270

LIFEREG过程的应用实例 273

13.3用LIFETEST过程进行生存检验 285

生存分布函数SDF及其他函数 285

LIFETEST过程的命令语句 285

应用举例 287

习题13 298

第14章 非线性回归分析一:对数与多项式回归 303

14.1对数曲线回归 303

对数曲线回归所要求的数据 303

对数曲线回归的编程解法 304

14.2对数曲线回归分析 305

14.3拟合抛物线的多项式回归 308

多项式回归分析的原始数据 308

多项式回归的方程式 309

多项式回归的SAS程序 309

14.4多项式回归的结果与分析 309

多项式回归的输出结果 309

改用“分析家”对话框法进行多项式回归 311

挖掘大学生生长发育的二次曲线模型 314

习题14 315

第15章 非线性回分析归二:Logistic回归与指数回归 317

15.1 Logistic曲线回归 317

15.2从Logistic曲线模型解出初始值 319

15.3拟合Logistic曲线回归的分析 321

参数估计 322

参数近似的置信区间 323

用Logistic曲线发掘人口数据 324

15.4负指数生长曲线回归 324

15.5分析负指数生长曲线 326

15.6拟合指数曲线Y= AeBX回归 329

建立指数曲线Y= AeBX的回归模型 329

分析指数曲线Y= AeBX回归结果 329

指数曲线的预测 332

习题15 332

第16章 用Logistic过程做逻辑斯蒂克回归 333

16.1逻辑斯蒂克回归模型 333

16.2 Logistic回归过程对数据的要求 334

16.3用“分析家”对话框做Logistic回归 336

16.4用编程法做逻辑斯蒂克回归 341

16.5假设与检验 345

16.6解释回归系数 346

16.7发掘概率 346

16.8多分变量的编码 347

习题16 348

第17章 2*2维Logistic Regression回归分析 350

17.1 2*2维Logistic Regression模型 350

17.2 2*2维Logistic Regression的变量及其数据 350

17.3用“分析家”对话框进行2*2维Logistic回归 351

17.4 2*2维Logistic回归分析 356

习题17 356