第1章 SAS编程的语法知识 1
1.1 SAS概述 1
1.2观测值、变量常量 2
1.3 SAS的操作符 5
1.4 SAS数据挖掘常用的语句 7
习题1 11
第2章 数据挖掘的预备知识 13
2.1 DATA语句 13
2.2 INPUT语句 15
2.3 LENGTH语句 23
2.4用LABEL语句指定变量标签 24
2.5用PROC FORMAT过程指定数据标签 25
2.6用MISSING语句宣告缺失值 26
2.7注释语句 27
2.8创建新变量 27
2.9缺失值不参与运算 28
2.10求和语句 29
2.11删除变量 30
2.12用INFILE语句读取外部文件的数据 30
习题2 31
第3章 数据挖掘时的跳转与循环 33
3.1 IF语句 33
IF THEN语句 33
IF THEN/ELSE语句 36
3.2 GO TO语句 38
3.3 LINK语句 39
3.4 RETURN语句 40
3.5删除部分个案 43
删除数据集里暂时不用的个案 43
用IF语句挖掘部分数字型的个案 44
3.6循环语句 45
3.7数组 49
下标变量的下标 49
在DO…END循环中使用数组 50
多维数组 51
习题3 53
第4章 建立数据仓库 54
4.1建立永久数据集 54
4.2数据的分组及分组标记 58
分组控制 58
数据的分组标记 60
4.3数据的排序 61
4.4数据集的连接 62
变量相同时的连接 62
变量不同时的连接 63
变量值相同时的个案连接 65
4.5数据集“合二为一” 66
按个案号配对合并变量 66
用BY语句进行匹配合并 69
4.6用FILE语句控制输出文件 70
4.7 OUTPUT语句 72
OUTPUT语句格式 73
一个个案的变量分几行输出 73
一个DATA步创建多个数据集 73
多行信息合并为一行 74
4.8用DATASETS过程修改数据集 76
4.9查阅数据集的信息 77
习题4 78
第5章 数据挖掘的过程引论 79
5.1 DATA语句 79
5.2 INFILE语句 79
5.3 INPUT语句 80
用INPUT语句定义固定格式的变量 81
用INPUT语句定义自由格式的变量 81
用INPUT语句指定格式化的输入方式 82
INPUT语句含有挖掘功能 83
5.4用LABEL语句定义变量标签 84
5.5用FORMAT及VALUE语句定义数值标签 85
定义数值标签 85
指定“格式化输入” 86
用FORMAT语句指定变量值的格式 87
5.6用TITLE语句显示标题 88
5.7数据挖掘常用的统计过程 90
用PROC FREQ过程做简单的频数分布 91
用PROC CHART过程画图 91
用PROC PLOT过程画散点图 91
用PROC MEANS过程统计均值分布 93
用PROC RANK过程统计秩和分布 94
用PROC TABULATE制表 94
用PROC UNIVARIATE过程做详尽的频数分布 95
用PROC DBF过程调用dBASE数据库数据 99
用PROC PRINT过程显示数据集的信息 101
用PROC SORT过程对数据排序 103
用PROC STANDARD过程对变量标准化 104
用TRANSPOSE过程转置数据 106
习题5 107
第6章 通过描述统计挖掘数据 108
6.1用FREQ过程做单双变量的频数统计 108
FREQ过程命令 108
FREQ过程与其他过程的连用 110
6.2单变量频数分布 110
6.3双变量交叉汇总和结合测量 112
双变量频数统计的过程命令 112
“定类-定类”双变量交叉汇总与结合测量 112
“定比-定比”双变量交叉汇总与结合测量 114
“定序-定序”双变量交叉汇总与结合测量 115
6.4再用UNIVARIATE过程详细描述单变量 117
举例 117
UNIVARIATE过程命令 119
计算方法 121
6.5进一步用PROC CHART过程描述单变量 121
PROC CHART过程命令 122
CHART的选项1 122
6.6用MEANS过程比较两个均值 130
应用实例 130
MEANS过程命令 131
6.7用PROC PLOT过程画散点图 134
6.8用RANK过程进行非参数检验 136
什么是秩分 136
RANK过程命令 137
秩分计算 137
运用举例 138
习题6 143
第7章 均值比较与T检验 144
7.1均值比较的方法 144
配对样本的均值比较 144
两个独立样本的均值差检验 145
7.2 MEANS过程及其t统计量 145
7.3 TTEST过程及其t检验 148
7.4非参数检验 150
用NPARIWAY过程做非参数检验 150
举例 151
习题7 152
第8章 方差分析 154
8.1用ANOVA做均衡数据的方差分析 154
ANOVA过程命令 154
单因素方差分析 155
双因素方差分析 156
三因素方差分析 158
R*C交互因素的方差分析 160
多个实验组与对照组的均值比较 163
用SNK的Q检验法比较组间均值 164
8.2用GLM进行非均衡数据方差分析 166
GLM过程命令 166
GLM过程的统计功能 166
用GLM做单因素3水平方差分析 167
用GLM做双因素方差分析 168
8.3协方差分析 170
GLM过程命令 171
用GLM做协方差分析 171
习题8 174
第9章 相关分析 177
9.1数据的4种测量水平 177
9.2皮尔逊积差相关 178
皮尔逊相关系数CORR的计算公式 178
皮尔逊相关系数的测量 178
皮尔逊相关系数CORR的分析 183
9.3皮尔逊二分“点—距”相关 185
9.4肯氏(Kendall)等级相关τb 185
计算肯氏等级相关系数的数据 185
通过Analyst中的对话框计算肯氏相关系数τb 186
肯氏相关系数τb结果分析 189
9.5计算次序—比率数据的肯氏相关系数 189
次序—比率数据例子 189
计算次序—比率数据的Eta系数 190
肯氏相关系数τb结果分析 192
9.6斯皮尔曼等级相关 192
斯皮尔曼等级相关系数的计算公式 193
用“分析家”对话框测量等级相关 193
Spearman相关系数的分析 196
9.7“标称—标称”型变量的相关测量 197
9.8 Cronbach的Alpha系数与Spearman相关系数 197
9.9用PROC CORR过程编程计算相关系数 198
习题9 206
第10章 用GLM过程进行回归分析 207
10.1最小平方法的原理 207
方差分析 208
统计量F 209
回归系数B计算法 209
判定系数R2 210
残差分析 210
DW统计量D 210
10.2 GLM中各语句的格式 211
10.3 GLM程序各语句的使用说明 211
10.4调用GLM程序作一元线性回归 218
数据与程序 218
数据统计 224
数据挖掘 224
10.5调用GLM程序进行多元线性回归分析 226
10.6调用GLM程序进行多项式回归 231
多项式回归的一般模型 231
多项式回归的实例 232
10.7虚拟变量的用法 234
习题10 235
第11章 采用REG过程进行多元线性回归分析 237
11.1用Analyst对话框做多元线性回归 238
11.2 REG过程的语句格式 242
REG程序中的语句及任选项 243
REG程序中主要语句及关键词的注解 243
11.3 REG程序进一步实例 248
11.4 MAXR回归法和RSQUARE回归法 255
MAXR回归法 255
RSQUARE回归法 255
实用程序及图例 256
习题11 260
第12章 路径分析 261
12.1路径分析所用的程序 261
12.2图形输出 263
12.3路径图的分析方法 266
习题12 267
第13章 生存分析 268
13.1名词引论 268
13.2用LIFEREG进行生存分析 269
LIFEREG过程命令 270
LIFEREG过程的应用实例 273
13.3用LIFETEST过程进行生存检验 285
生存分布函数SDF及其他函数 285
LIFETEST过程的命令语句 285
应用举例 287
习题13 298
第14章 非线性回归分析一:对数与多项式回归 303
14.1对数曲线回归 303
对数曲线回归所要求的数据 303
对数曲线回归的编程解法 304
14.2对数曲线回归分析 305
14.3拟合抛物线的多项式回归 308
多项式回归分析的原始数据 308
多项式回归的方程式 309
多项式回归的SAS程序 309
14.4多项式回归的结果与分析 309
多项式回归的输出结果 309
改用“分析家”对话框法进行多项式回归 311
挖掘大学生生长发育的二次曲线模型 314
习题14 315
第15章 非线性回分析归二:Logistic回归与指数回归 317
15.1 Logistic曲线回归 317
15.2从Logistic曲线模型解出初始值 319
15.3拟合Logistic曲线回归的分析 321
参数估计 322
参数近似的置信区间 323
用Logistic曲线发掘人口数据 324
15.4负指数生长曲线回归 324
15.5分析负指数生长曲线 326
15.6拟合指数曲线Y= AeBX回归 329
建立指数曲线Y= AeBX的回归模型 329
分析指数曲线Y= AeBX回归结果 329
指数曲线的预测 332
习题15 332
第16章 用Logistic过程做逻辑斯蒂克回归 333
16.1逻辑斯蒂克回归模型 333
16.2 Logistic回归过程对数据的要求 334
16.3用“分析家”对话框做Logistic回归 336
16.4用编程法做逻辑斯蒂克回归 341
16.5假设与检验 345
16.6解释回归系数 346
16.7发掘概率 346
16.8多分变量的编码 347
习题16 348
第17章 2*2维Logistic Regression回归分析 350
17.1 2*2维Logistic Regression模型 350
17.2 2*2维Logistic Regression的变量及其数据 350
17.3用“分析家”对话框进行2*2维Logistic回归 351
17.4 2*2维Logistic回归分析 356
习题17 356