- Yingkui Lin

4.4 对验收材料的改良

教学材料的好坏，是在同等算力下，学习者得到的信息值多寡

验收材料的好坏，是在同等算法下，测试者得到的信息值多寡

不要为了区分，而难为学生；要为了传播知识，而激励学生

对于不同的考试，我们自然并不会使用一样的要求标准。

对于一个资格性的考试，应该更多的侧重于对必备技能的考察，对知识储备的检测，对关联熟练度的考察。

对于一个选拔性的考试，尤其是类似中国高考这样，要对学生解决问题的能力进行区分的考试，应当考察学生解决问题中对通用策略的使用，逐步的增加难度，可以是必备技能的一种变形转化，或者是多个技能的结合应用，也可能是一个需要探索尝试的创新情景。

但与此同时，类似高考这样的考试，有着教学指挥棒的作用，应当为了提高知识的普及率，加大资格性考察的比例，让学生学有所得，有的放矢。可以开源题目库，甚至是开源生成考题的算法，这样的好处，有利于整体学生知识储备和思维能力的改善，而不是为了选拔，放弃了促进整体认知能力提升的功效。

而本节所谓的改良，就是希望验收材料，要让考生更有信心，有努力的方向，有努力后获得技能的成就反馈，而不是为了区分而一味的难为学生，考察频率低、通用性弱的技能。

也正如前节所述，过多的弱信号、弱策略、窄入口的考察，无法区分学生在某一领域的熟悉度和解决问题的半径，无法区分学生在某一领域内投入精力的多寡，从而为进一步学习或者解决相关问题提供足够的信息依据。

4.4.1 技能考察对技能结构的影响

我们可以假想这样一套考题，

这个考题的覆盖面广，横跨十几个学科，计算机科学，生物学，历史，微积分，地理
而且考察的每一道题，都是在100个需要较长训练时间的技能中随机抽取一个

其难度，是可想而知的，对于一个考生来说，是很难准备这样的一个考试的。

但现实生活中，我们并不会经常遇到这样的场景，但如果考题出的很难，就会变成一个辐射型的技能关系，也就是说一个技能的学习，并不能为你解决另外一个技能提供太多帮助，例如，下图所示的知识结构：

辐射型技能的关系图

对于这种辐射型的技能，如果每一个点训练时长有限，那么训练的回报率还可以接受。但如果，每一个技能的训练周期很长，就会导致训练的回报率变得很低，会极大地增加学生的挫败感。

但如果命题者，总是考察低频的外环的技能，而不考察中间的可以简化的技能，可以认为是作为命题的一种失误。一来，造成学生备考中的一种混乱，过高的门槛将学生拒之门外，二来，评价缺乏区分度，使得学生要进行大量的训练时长之后，才能体验到学有所成的成就感。但和之前所描述的硬拔式教育相同，虽然对于一个学习能力很强的学生，可能设置这样一个困难的挑战，会加快TA对技能的遍历，但作为一个为普遍学生群体提供内容的教学者来说，这么做是不负责任的。

混乱和随意是不需费力的，但秩序和结构却是要用心和动脑的

对于一个出色的命题，应该对于学生基本技能的掌握有所考察和体现，从基于工具的角度，对基本技能周边可以探索和转化的技能，应当有所侧重，而减少零散的，特例化的技能的考察。如果对考察频率进行分析，绘制出技能的关系图，技能节点间关联度较高的关系图，一个训练回报率合理的技能分布，应该是命题人追求的目标，而不是简单的、粗暴的追求区分，甚至达到了刁难学生的地步。如果想难为学生，并不是一件困难的事；但如何一石多鸟的达到激励、考察和区分的题目，才是需要大量智力投入的。

考试是为了区分能力，不是为了区分分数

对于一个不太出色的命题，会造成评价上的低效，也就是说，无法区分和识别一个掌握了相应技能的学生（算法），有如一个机器学习的测试样本和训练样本相差甚远，那么机器学习所生产出的算法就无法判断其高效性。也就是说，从测试目的出发，测试效率很低。

对于一个考试题目，我们应该对其进行信息量分析。

【案例】低信息量的试题

若 $\ln (x+1) \leqslant ax$， $ab^2 - 2b + 1 = 0$ ，求 $b$

这样一道试题，结合了一元二次方程和导数，但是因为求 $a$ 的本身难度很大，使得这个题目难以识别一个学生是否掌握了一元二次方程。

教育的目的是为了让学习者更高效、更有学习动力的提高自我，粗糙的验收材料，和粗糙的教学材料一样，可能会阻碍教育目的的达到。

教学、验收、技能的关系图

对于教学材料的制作和评价，和对验收材料的制作和评价，应该是相对独立进行分析的。

通用能力的考察

未来学习场景的模拟