- Yingkui Lin

1.2 验收材料

对于一些较为机械化的教学目的，验收材料也就比较明确，例如，学生能够对一段音频进行背景降噪处理。但例如高考数学，对学生的要求较高，不少是对解决问题的通用策略的考察，验收材料就不那么容易准备。

我们这里对验收材料的类型进行一定的限制：验收的题目应该是可以被一个固定的生成器生成的。

定义 $t$ 是验收材料，$G$ 是一个生成验收测试题的算法，$r$ 是一个随机数（是生成题目算法的一个自变量），$S$ 是一个已知的解决问题的某个算法（或者算法集合）：

$$ \forall t.\exists G. \exists r.\exists S. t\in G(r) \\& St $$

虽然很多情境下试卷尚不能用算法完全生成，但是头脑中存在这样一个严格的数学要求，可以减少许多情景的不适用。通俗的讲，就是考题的考察范围、考察难度、各题型考察频率，稳定性强，波动不大。

例如，对于一个综合性的考试（高考），各部分的占比应该有一个稳定的概率密度分布，若是验收材料（某一年高考）却只考查了一个知识模块（例如，全是三角函数的题目），就不符合验收材料的要求。

再例如，如果有教师在课堂上讲课的时候，是按照一个题型分布去讲解，而课下独自给学生补课时却是另外一个题型分布，验收测试的题目都是在课下学生补课的题型，就不符合我们对验收材料的约定。

一般来说，概念传授和技能培养类的教学，考察的题目类型的分布会比较集中，变化比较小。而选拔性的考试，题目变化大，综合性强，有一些不容易传授的策略性技巧。但只要验收材料是统一的标准下，不偏不倚，难度分布一定的，都可以在本文的讨论范围之内（虽然不能用程序直接写成，只能模糊的感知）。

另一方面，测试题目的难度应该是可以被解决的，作为教学来说，一般来说，传递的都是已经被人类探索过的领域，是比较成熟的理论概念和技术成果的传递，而不是要求学生探索新的研究（可以是调动积极性的短距离的、信号强烈的尝试探索，而不是深入的、信号很少的科研探究行为），也不是要求学生解决未解之谜（虽然有时教学目的要培养这样的能力）。通俗的讲，就是考题难度系数不能过高，以至于无法找到有效的传授方式。

类比在机器学习的角度来看，就是 测试数据和训练数据不能有过于明显的区分，更为理想的情况下，测试数据和训练数据应该是由一个理想的函数同时随机生成的，这里的训练数据就是指的过往测试题或者模拟题目，而测试数据是用来评价学生技能水平的新鲜考题。类比在语言测试，就是考察的词汇出现的概率分布是固定的，而不会对学生有大量的偏僻词汇的考察。