计算机自适应测评(CAT)调研
作者:互联网
1、背景
1.1、AI+教育
在如今的发展中,各行各业也正在探索"AI+?"的模式,现在主要介绍一下“AI+教育”的自适应学习。人工智能自适应教育的价值对于机构而言,可以提高教学质量、改善成本结构、增强扩张能力、维护团队稳定;对于学生而言,可以及时精准地知道自己的薄弱知识点、清晰地知道自己与同龄人的学习行为差异;对于老师而言,减轻负担,系统的协助授课,提高上课效率、同时准确知道学生的薄弱知识点。这也正契合了为学生的减负的目标,真正实现降本提效的需求。因此,自适应教育行业变革趋势不可阻挡。
目前的人工智能技术在教育领域应用识别类的应用已证明有用,且进入成熟期,但识别类的应用并未深入教学核心环节。人工智能应用走向更核心环节是趋势。
1.2、自适应教育
“自适应(Adaptive)”对于机器学习和人类学习都是非常重要的一个概念,它通过挖掘大量数据来对当前情境进行感知,并进一步融合多种知识和技术实现学习进程的动态自适应调整。
上图可以看到在机器学习中样本选择上,可以自适应的选择一些重要的样本;在参数优化的时候,也可以自适应的调节学习的步骤;在设计模型的时候,可以用自适应的方法来调节网络结构。
在教育行业,自适应教育也逐渐出现在大众视野,比如作业帮、猿题库等教育APP
现在可以看到上图是基于传统的老师因材施教和大量的学生数据的自适应学习教学的对比,我们可以思考一下它们之间的联系与区别。
联系:在输入端,都有学生的学习记录,都需要对学生的水平进行一个评估,最后给出自适应的解决方案。
区别:前者的话老师所看到的学习记录是有限的,是根据学生的学习成绩来做一个自适应的推荐,而后者对于机器而言,能够记录大量的学生记录,可以进行更加精细的诊断,可以分析学生在每个知识点的掌握水平,根据这个认知诊断,再给学生进行一些推荐。
1.3、挑战与机遇
- 怎样准确的评估出学生的在每个知识点的掌握水平?
目标
输入:学生的学习记录
输出:学生在每个知识点的掌握水平
难点:正如上面那张图,传统的机器学习模型能够解决类似的任务,能够预测出学生能不能做对每道题目,但是不能分析学生过程中间对每个知识点的掌握水平,机器学习得到的表示结果都是一些隐向量,是Embedding 的一些向量,也就相当于在神经网络中,过程是一个黑盒子。
解决思路:提出认知诊断模型,不仅能够预测学生的做题情况,而且还能够精准分析学生对某一个知识点的掌握情况。 - 如何进行快速综合测试来评估学生的认知水平,根据诊断结果选题?
假设现在能够进行精准的预测学生的情况,但是还是有速度的要求,不能让学生做大量的题目,希望能够是用少量的题来尽快的诊断出学生的水平。
可以看到下图, 传统的机器学习是提供大量的数据,最后机器会给出一个诊断结果
但是关于人的测试,往往是有限的数据,传统的测试是千人一面的,所有人考共同一张试卷,需要花大量的考试才能有一个全面的诊断。
解决思路:计算机自适应测评,认知诊断模型+选题策略,能够更快速、更全面的诊断出学生的掌握水平,并根据诊断结果来动态出题。
根据上述两个问题,来介绍一下解决方案
- 对于准确的评估出学生的在每个知识点的掌握水平,解决方案是认知诊断(Cognitive Diagnosis)。
- 对于快速综合测试来评估学生的认知水平,根据诊断结果出题,主要的解决方案是自适应测评(Adaptive Testing)
2、计算机自适应测评(CAT)
2.1、CAT介绍
传统的测评方式:就是一张考试卷,所有人都回答同一张试卷,来测出每个学生的能力以及掌握程度。
那么什么叫自适应测评呢?
- 基于学生上一题及之前测评题上的作答情况,采用大数据及人工智能技术自适应选择下一道测评习题
- 每个人最终形成一套个性化的测评题集
- 高效:仅少量的题可测评出学生能力
如左图可以看到给学生一个问题Qt,根据学生做题目的对与错,然后有一个认知诊断模型进行诊断,然后再通过选题策略,选择与学生能力相匹配的题目,通过少量的题目能够快速诊断出学生的能力。同时避免了对一些低水平的同学,题目太难,使学生丧失信心,或者对于一些高水平的学生,题目太简单, 使学生变得无聊。
右图展示的是个性化测评题集,首先由两个同学e1、e2开始作答,第一题给相同的题目,根据两个同学的答题情况,e1同学答对了,那么就会从题库里选择比较难一点的题目。e2同学答错了,那么下一道题就从题库选择简单的题目。真正做到千人千面,不同的学生所对应的题目也有差异。
2.2、CAT流程
基于一个给定的题集,设计出题策略,其能够根据被测者的做题结果及底层认知诊断模型的输出,动态出下一道题,评估学生的知识掌握情况。
可以看到上图,首先初始化学生的能力估计值,先用选题策略从测评题库选出题目给学生作答,根据学生的作答情况,通过认知诊断模型更新的学生的能力值,再根据诊断结果再给学生选题,然后再诊断再选题,这样周而复始,这就是自适应测试的过程。
2.3、CAT关键要素
- 底层的认知诊断模型:在已有的测试数据下,能最大程度准确估计学生能力,且根据学生交互式的做题数据,快速更新模型。
- 选题策略:量化选题目标,基于底层认知诊断模型的输出,确定测试题
- 能力评估:估计能力参数的常用方法有极大似然估计法和贝叶斯期望后验估计(EAP)方法。
- 终止规则:固定测试长度,项目数累计到预设值即行停止;按预定的能力估计标准误的要求终止测验
3、CAT的发展
3.1、基于规则的方法
初代的自适应测评(CAT)更多的是出现在英语等专业类能力等级测评(比如语言的阅读、单词),比较有代表性的有熟知的流利说等语言类app ,那么,到底是基于什么规则呢?
基于二叉树或者多叉树的规则测试方法
对于测试前题库的准备
- 设置1-n个能力等级
- 每个skill level绑定奇数道试题(例如3)
在测试的过程中,可以看下图,首先然后预设好能力等级进行测试,然后符合能力状态更新的规则进行更新,最后满足终止条件输出学生的能力等级。
主要规则:若被测者在当前能力等级全错,则其能力降2级,大部分题错降1级;若全对,则升2级,大部分对升1级
对于上面的一个具体图片而言,每个block对应一种skill level,并绑定奇数道试题,假设是三道题目,初始的能力比如是等级4,若被测者在当前block的3道题全错,则其skill level降2级(等级2),若被测者在当前block对2道题,则其skill level升1级(等级5),若被测者在当前block对3道题,则其skill level升2级(等级6)
3.2、基于知识空间理论的方法
国外在数学学科方面比较有名的计算机自适应测评就是ALEKS,它是一家以研究为基础,在线学习计划,提供课程产品为数学,化学,统计,和更多。ALEKS植根于20多年的研究和分析中,是一个行之有效的在线学习平台,可帮助教育工作者和家长深入了解每位学生的知识和学习进度,并为每位学生提供获得精通的个性化支持。其中采用的就是基于知识空间理论的方法,下面就来介绍一下知识空间理论:
3.2.1、基本概念
知识域的理解可以是有限问题(知识点)的集合Q ={q1,q2,q3,q4}
试题之间的前提关系如右图所示:q1是q3的前提,q2是q3的前提,q3是q4的前提
知识空间:所有Q的子集
知识状态:问题之间的关系
知识结构:知识状态的集合,以右图q1、q2、q3、q4为例,单独的{q3}并不是一个知识状态,因为有q1、q2前驱,只有加上前驱,才能构成知识状态,最终知识状态的集合形成知识结构(Q,K)={{∅},{q1},{q2},{q1,q2},{q1,q3},{q2,q3},{q1,q2,q3},{q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}}
3.2.2、知识空间理论框架:
目标:已知知识域(题库)和知识结构,通过测试题序列确定被测者的知识状态
起始:被测者初始的知识状态为空,或者根据以前的做题历史得到初始知识状态
选题策略:通过计算知识状态的邻居以及边界,从边界中选择一道之前未测过的题作为下一道测试题
终止策略:边界中不存在以前未测过的试题,则终止
补充:知识状态k的邻居N(k):k’∈N(k) 当且仅当d(k,k’)=1, 其中d定义为集合对称差知识状态k’的集合,k’需满足k’和k只相差一个题目
知识状态k的边界F(k): F(k) =∪N(k)\∩N(k) 邻居的并集去掉邻居的交集
下面还以图q1,q2,q3,q4为例
已知:知识领域Q={q1,q2,q3,q4},知识结构(Q,K)={{∅},{q1},{q2},{q1,q2},{q1,q3},
{q2,q3},{q1,q2,q3},{q2,q3,q4},{q1,q3,q4},{q1,q2,q3,q4}},
被测者初始知识状态为∅
选择下一题:找到被测者当前知识状态∅的邻居,d(∅, {q1}) =1, d(∅, {q2}) =1, N(∅)={{q1},{q2}} , ∪N(∅)={{ ={q1,q2},∩N(∅)= ∅, 计算当前知识状态∅的边界F(∅)= ∪N(∅)\∩N(∅)={q1,q2}。从边界中选择题q1,或者q2。假设选择q2
根据下一题的作答情况更新被测者知识状态,假设q2答对,则知识状态变为{q2},否则仍然是∅
继续下一题的选择:假设当前的知识状态为{q2},依据上述的方法计算得到其边界为{q1,q2,q3},q1两次出现,所以其区分度高,作为下一道题
以此类推,如下图可以看出,测试从易往难,能力较弱者,测试提前结束,测试序列较短,能力较强者,测试序列较长,最后获得学生的知识状态。
3.2.3、诊断
那么获得学生的知识状态,如何得到学生掌握的技能情况?
下面就来诊断学生的技能掌握情况
基本概念