引言 1
第一章 试卷等值原理介绍 8
1.1 试卷等值 8
1.1.1 试卷等值的概念 8
1.1.2 试卷等值的特点 9
1.1.3 试卷等值计算 11
1.1.4 题组反应理论下的试卷等值 14
1.1.5 评估试卷等值质量的标准 15
1.2 Rasch模型 19
1.2.1 Rasch模型的特点 19
1.2.2 Rasch模型背后的心理测量哲学 20
1.2.3 Rasch模型与语言测试 22
1.2.4 Rasch模型的参数估计原理 23
1.3 Rasch题组模型 25
1.3.1 题组试题的由来 25
1.3.2 Rasch题组模型的特点 26
1.3.3 试题相互作用成因 28
1.3.4 Rasch题组模型参数估计原理 30
1.3.5 算法验证 34
1.4 评估试题质量的各种指标 35
1.4.1 双列相关系数 35
1.4.2 试题—试卷分数回归图 36
1.4.3 均方拟合统计量 37
1.4.4 评估模型效度的DIC值 39
1.5 试卷等值在英语标准化考试的实施状况 41
第二章 等值实例 44
2.1 参与人员 44
2.2 研究工具 45
2.3 研究过程 51
2.3.1 验证单维度假设 51
2.3.2 验证等区分度假设 52
2.3.3 验证最小猜测度假设 52
2.3.4 加权均方拟合统计量 53
2.3.5 DIC值 53
2.3.6 Pearson相关度 53
2.3.7 试题相互作用的回归树分析 54
2.3.8 试题相互作用的Q3指数分析 56
2.3.9 模型的选择 58
2.3.10 试卷等值 59
2.3.11 等值质量评估 59
2.4 Rasch题组模型各假设的验证结果 60
2.4.1 单维度假设验证结果 60
2.4.2 等区分度假设验证结果 63
2.4.3 最小猜测度假设验证结果 65
2.5 加权均方拟合统计量 74
2.6 不同题组模型的DIC值 77
2.7 不同题组模型下试题难度估计值的相关度分析结果 79
2.8 题组效应产生机制分析结果 82
2.9 试题相互作用的Q3指数分析结果 91
2.10 试卷质量分析 102
2.11 量尺稳定性分析结果 104
2.12 两个题组模型下的分数调整结果 105
2.13 模拟试验结果 111
2.14 Rasch题组模型下的分数调整结果 113
2.15 讨论 115
第三章 大规模标准化英语试卷等值的若干实际问题 117
3.1 Rasch题组模型校准和等值英语客观试题的可行性 117
3.1.1 三个题组模型的难度估计值是否一致? 129
3.1.2 三个题组模型的试题相互作用成因分析结果是否一致? 131
3.1.3 哪一个题组模型的等值效果更佳? 146
3.2 试题参数的客观性 148
3.3 试题校准和等值的样本量需求问题 150
3.4 模型复杂度问题 151
3.5 试卷等值的成效问题 151
3.6 对教学和测试的启示 152
3.7 我国标准化考试实施试卷等值的可行性 153
3.8 不足之处 155
3.9 今后的研究方向 156
附录一 Rasch题组模型下建立的听力试题的回归树各终端节点上的试题 158
附录二 三参题组模型下建立的阅读试题的回归树各终端节点上的试题 198
参考文献 268