1.2 验收材料
对于一些较为机械化的教学目的,验收材料也就比较明确,例如,学生能够对一段音频进行背景降噪处理。但例如高考数学,对学生的要求较高,不少是对解决问题的通用策略的考察,验收材料就不那么容易准备。
我们这里对验收材料的类型进行一定的限制:验收的题目应该是可以被一个固定的生成器生成的。
定义 $t$ 是验收材料,$G$ 是一个生成验收测试题的算法,$r$ 是一个随机数(是生成题目算法的一个自变量),$S$ 是一个已知的解决问题的某个算法(或者算法集合):
$$ \forall t.\exists G. \exists r.\exists S. t\in G(r) \& St $$
虽然很多情境下试卷尚不能用算法完全生成,但是头脑中存在这样一个严格的数学要求,可以减少许多情景的不适用。通俗的讲,就是考题的考察范围、考察难度、各题型考察频率,稳定性强,波动不大。
例如,对于一个综合性的考试(高考),各部分的占比应该有一个稳定的概率密度分布,若是验收材料(某一年高考)却只考查了一个知识模块(例如,全是三角函数的题目),就不符合验收材料的要求。
再例如,如果有教师在课堂上讲课的时候,是按照一个题型分布去讲解,而课下独自给学生补课时却是另外一个题型分布,验收测试的题目都是在课下学生补课的题型,就不符合我们对验收材料的约定。
一般来说,概念传授和技能培养类的教学,考察的题目类型的分布会比较集中,变化比较小。而选拔性的考试,题目变化大,综合性强,有一些不容易传授的策略性技巧。但只要验收材料是统一的标准下,不偏不倚,难度分布一定的,都可以在本文的讨论范围之内(虽然不能用程序直接写成,只能模糊的感知)。
另一方面,测试题目的难度应该是可以被解决的,作为教学来说,一般来说,传递的都是已经被人类探索过的领域,是比较成熟的理论概念和技术成果的传递,而不是要求学生探索新的研究(可以是调动积极性的短距离的、信号强烈的尝试探索,而不是深入的、信号很少的科研探究行为),也不是要求学生解决未解之谜(虽然有时教学目的要培养这样的能力)。通俗的讲,就是考题难度系数不能过高,以至于无法找到有效的传授方式。
类比在机器学习的角度来看,就是 测试数据和训练数据不能有过于明显的区分,更为理想的情况下,测试数据和训练数据应该是由一个理想的函数同时随机生成的,这里的训练数据就是指的过往测试题或者模拟题目,而测试数据是用来评价学生技能水平的新鲜考题。类比在语言测试,就是考察的词汇出现的概率分布是固定的,而不会对学生有大量的偏僻词汇的考察。