龙空技术网

教育知识图谱的概念模型与构建方法研究

闪念基因 1918

前言:

现在看官们对“词袋模型是如何构建的”大体比较关心,你们都需要知道一些“词袋模型是如何构建的”的相关资讯。那么小编也在网络上搜集了一些关于“词袋模型是如何构建的””的相关内容,希望各位老铁们能喜欢,大家快快来了解一下吧!

教育知识图谱的概念模型与构建方法研究

李振 周东岱

(东北师范大学信息科学与技术学院, 吉林长春130117)

正文字数 12520 字 建议阅读时间 36 分钟

导读

自适应学习系统是实现个性化学习的重要突破口,而领域知识建模一直是困扰该系统发展的一大难题。

目前,以深度学习、知识图谱为核心的新一代人工智能技术的回归,为其提供了新的发展契机。文章首先对已有的教育领域知识建模方法进行了梳理与总结,对其现存问题进行了对比分析;在此基础上,针对通用知识图谱迁移应用于教育领域所面临的知识粒度模糊、领域适应性不强两大问题,构建了一种教育知识图谱概念模型——EKGCM模型,该模型包括知识图示、认知图式两个层次,以及知识节点、知识关联、认知状态、学习路径四个基本要素;然后,针对图谱构建自动化程度不高的问题,文章提出一种基于智能处理技术的构建方法,具体包括知识元抽取、前驱后继关系挖掘、认知状态诊断、学习路径生成四个步骤;最后,采用理想智慧教育云平台中的教学资源和学习行为数据验证了上述方法的可行性。研究对于开展数据智能驱动的个性化自适应学习具有重要意义。

【关键词】 教育知识图谱; 概念模型; 知识元; 前驱后继关系; 认知状态; 学习路径;

【基金项目】2017 年度吉林省科技发展计划项目“ 智能移动终端教学软件平台构建的关键技术与应用示范” ( 项目编号:20170204001GX);2018 年度教育部人文社会科学研究青年基金项目“智慧学习环境中精准学习者模型构建研究”(项目编号:18YJCZH169)

【作者简介】李振(1989—),男,山东济宁人。博士研究生,主要从事自适应学习系统、教育知识图谱、个性化学习路径推荐等研究。E-mail:liz666@nenu.edu.cn。

引言

个性化学习是教育改革与发展的永恒主题,更是大数据和人工智能时代教育创新发展的重大命题,而自适应学习系统是促进个性化学习从理论走向实践的重要抓手和实践平台,其核心组件包括学习者特征模型、领域知识模型、适应性引擎三部分[1]。随着大数据、人工智能等技术的迅猛发展,互联网教育迈向智能教育新阶段,教育信息化迈入以人工智能技术为主要特征的2.0 时代[2],以深度学习、知识图谱为核心的新一代人工智能技术的回归,将对个性化自适应学习系统进行重塑和再造[3]。

知识图谱作为人工智能从感知智能向认知智能变迁的核心和基础, 已成为各行各业从网络化向智能化转型升级的关键技术之一, 也为个性化自适应学习系统中的核心和基础问题———领域知识建模提供了新的技术手段[4]。《新一代人工智能发展规划》明确提出,要研究知识图谱构建与学习技术, 要构建覆盖数亿级知识实体的多元、多学科、多数据源的知识图谱[5]。在此背景下, 构建教育领域的知识图谱成为智能教育发展的重要研究课题。鉴于此, 本研究以通用知识图谱为基础,构建了教育知识图谱的概念模型,并对其智能化构建方法进行了研究,为进一步开展个性化学习、精准化教学等智能教育应用提供基础。

教育领域知识建模研究现状

知识建模源于知识工程领域,其本质是将知识进行语义化和结构化表征,而教育领域的知识建模是将知识因子有序化和知识关联网络化的过程,其目标是使学科知识及学习资源处于有序化状态,为人工智能技术支持下的教育应用提供整序的知识服务。目前,在自适应学习系统中采用的知识建模方法主要有概念图、知识地图、认知地图、知识图谱等。

概念图是采用节点(概念)和连线(概念间关系)组织知识的图示化方法,其理论基础是奥苏伯尔提出的有意义学习理论。概念图的构建过程大致可分为四个步骤:概念抽取、概念分类、定位中心概念、连接交叉概念[6]。在应用方面,概念图既可以用于表达领域知识,也可以用于评估学习者对概念的认知状况,如自适应学习系统中的LAOS 模型就采用了概念图来对领域知识进行建模[7],而Yi-Ting 等人将概念图与多因素模糊推理相结合来评估学习绩效[8]。

知识地图是对知识及其存在方位的图形化表示,是一种面向知识搜索和导航的建模方法。知识地图也经常被用在自适应学习系统中来组织和表征学科知识及其关联的资源, 并作为学习者认知加工的支架。在知识地图的构建过程中,需将概念图与包含概念的知识资源进行链接[9],该过程主要由教师和教育专家手工完成[10]。

认知地图是1948 年由美国心理学家托尔曼提出的,其本质是一种通过概念及其因果关系表征个人认知结构的图式方法。在认知地图的教育应用方面,余胜泉等人针对在线学习存在的“学习迷航”问题,提出了“学习认知地图”的解决方案,但其构建过程主要由学科专家进行手工编制[11]。早期的认知地图缺乏概念及其因果关系的定量描述, 因此,Kosko 等人将模糊集理论融入认知地图之中,提出了“模糊认知地图”的概念,使得认知地图能够从概率角度表示相关概念的关联程度[12]。在此基础上,Konstantina 等人将其运用于个性化自适应学习系统中来构建领域知识模型,地图中的节点表示学习资源所包含的领域概念,并采用模糊集理论计算概念间的依赖关系及“影响强度”[13]。

当下学术界谈及的知识图谱主要有两大类:一类是应用于文献分析的“科学知识图谱”,属于信息资源管理领域;另一类是Google 公司于2012 年提出的“大规模知识图谱”,属于计算机科学领域[14]。其中,Google 提出的知识图谱(以下简称“知识图谱”)作为一种新型的、结构化的语义知识网络,能够描述现实世界中的各种实体(概念)及其复杂的语义关系,并能够实现自动化或半自动化的构建[15],已成为当前大数据智能时代的前沿研究方向。

目前, 公开的通用知识图谱库主要有GoogleKnowledge Graph、Microsoft Concept Graph、DBpedia、Freebase、知立方、知心等。在教育领域, 美国的Knewton 公司利用知识图谱构建了包含概念及其先决关系的跨学科知识体系[16];Wolfram Research 公司通过融合Mathematica 和各垂直网站的知识, 构建了面向智能知识检索的知识库引擎Wolfram Alpha;可汗学院也将知识图谱作为数学、科学与工程、计算机等学科课程的基本组织架构。在国内,微软研究院和清华大学联合发布了“开放学术图谱”,百度公司提出要构建K12 教育知识图谱,北京师范大学余胜泉教授团队研发了基于育人知识图谱的“AI 好老师”智能助理系统[17],华中师范大学的研究团队开展了基于潜在语义分析的学科知识图谱构建研究[18]。

综合而言,知识图谱相比概念图、知识地图、认知地图,能够表达更加广泛的知识内容以及语义关联关系[11-14],而且构建的自动化程度较高。但经过文献分析发现,当前知识图谱在教育领域的应用尚处于初步探索阶段,在知识粒度、领域适应性、构建方法等方面仍存在以下问题:(1)知识粒度方面,现有知识图谱中的知识节点多用于表示概念、知识点抑或现实中的实体,其粒度大小模糊,尚未深入到知识的最小独立单元———知识元;(2)领域适应性方面,缺乏教育教学的针对性和语用情境,尚未体现出学习者个体对知识认知程度的差异性,未能模拟和反应学习者个体认知所达成的状态;(3)构建方法方面,构建过程过于依赖学科专家,自动化程度不高,不同专家对同一知识点的认知偏差使得科学性与一致性难以保证[19]。

教育知识图谱的概念模型构建

(一) 教育知识图谱的概念界定

目前,对于教育知识图谱这一概念,学术界还没有形成统一的定义,学者们从不同的研究视角对其进行了阐述,现有研究大致可分为以下三大类:

(1)从知识组织视角出发,教育知识图谱可看作一种由知识点及其语义联系形成的知识网络图[20],其表征的教育领域知识既包含个体知识结构, 也包含群体的智慧[21]。

(2)从学习者认知视角出发,教育知识图谱旨在表达教学过程中涉及的不同元素以及各类具有教育意义的认知关系[22],在知识图谱的基础上叠加学习者对知识掌握的状态信息, 能够形成学习者的认知图式[11]。

(3)从知识服务视角出发,教育知识图谱在表征学科知识和知识关系的基础上,能够在大数据、人工智能等技术支持下形成面向知识学习和能力培养的学习路径[23];教育知识图谱也能够将学科知识与教学资源实体以规范化、形式化的方式进行语义连接,从而实现在线教育资源的有效组织[24]。

综合上述观点, 本研究认为, 教育知识图谱(Educational Knowledge Graph,简称EduKG)是知识图谱在教育领域的拓展应用, 是一种以知识元为节点,根据其多维语义关系进行关联,在知识层面和认知层面上表示学科领域知识和学习者认知状态,可用于知识导航、认知诊断、资源聚合、路径推荐的知识组织与认知表征工具。

(二) 教育知识图谱的概念模型构建

鉴于知识图谱在教育领域应用中存在的知识粒度模糊和领域适应性不强两方面的问题,本研究从结构和要素两个视角出发,设计了教育领域知识图谱的概念模型(Educational Knowledge Graph Concept Model,简称EKGCM)。如图1 所示,EKGCM 模型包括两个层次、四个基本要素。

图1 教育知识图谱的概念模型(EKGCM)

1.模型结构视角———两种图示

认知主义学习理论认为,学习就是形成内部认知结构的过程,学习者通过学习会对某一领域知识在头脑里形成一个内部的认知状态。因此,教育领域的知识建模既要考虑学科的领域知识,又要考虑个体差异化的认知状态。余胜泉教授研究团队也指出,教育知识图谱应当能够表征教学过程中涉及的不同元素以及元素间的各类认知关系[22]。基于此,本研究采用经典的分层设计理念,将认知层置于知识层之下,形成了教育知识图谱的两种图示———知识图示和认知图式。

(1)知识图示

知识图示继承了通用知识图谱具有的知识表示、传递和共享功能,能够很好地表征教育领域的学科知识体系,是教育领域知识结构的语义化、图示化组织方式。EKGCM 模型中的知识图示由知识节点和知识关联组成,记为DKG =(N,R),其中N 表示知识节点集合,R 表示知识关联集合。

(2)认知图式

皮亚杰的图式理论认为, 个体的发展是在同化和顺应过程中改变认知图式(结构)的动态过程[25]。安德森认为,认知结构是主体内部的一种动态的、可变的图式,并且可以利用知识图来外显学习者的认知结构[26]。EKGCM 模型中的认知图式就是对学习者个体认知结构的可视化表征。认知图式是以知识图示为基础,通过对学习者认知状态的诊断、评测,以可视化方式进行展现。认知图式体现了学科知识到个体认知的生成,是实现基于认知差异的个性化资源推荐与学习路径规划的基础。

2.模型要素视角———四大基本要素

托尔曼提出的认知地图包括五大要素:标志、节点、道路/路径、区域、边界[27]。余胜泉教授提出的学习认知地图包括知识点内容、知识点关系、学习认知状态、知识关系权重、学习路径和服务推荐六个方面的内容[11]。基于此,本研究认为教育知识图谱主要由知识节点、知识关联、认知状态、学习路径四大基本要素构成。

(1)知识节点

根据联通主义理论,学习是知识网络结构中知识节点和知识关系建立和重构的过程[28]。因此,可以认为知识节点和知识关联是教育知识图谱最基本的要素。为细粒度地表征教育领域知识,本研究引入知识元作为知识节点的基本单位。知识元是表达概念、方法、规则、公理等知识元素的最小独立单元,是表征教育知识图谱知识节点的理想基元。

(2)知识关联

人类知识原本是系统化、结构化的整体,但海量、异质、碎片化的数字化学习资源形态割裂了其内在联系。知识关联是重建知识内在固有逻辑结构的关键,是教育知识图谱语义化组织的关键要素,也是学科领域知识和个体认知结构可视化展现的基础。知识之间的关联关系复杂多样, 对教学具有重要作用的关系有:父子关系、前驱后继关系、兄弟关系、平行关系、参考关系等[29]。在上述关联关系中,前驱后继关系是教师制定教学设计和教学策略的依据,也是实现知识导航和学习路径规划的前提。

(3)认知状态

所谓认知状态就是有关学习者对知识的认知水平以及掌握程度。个体的发展是在同化和顺应过程中改变认知图式的动态过程,认知图式作为学习者已有知识经验的网络,是学科知识结构与学习者个体心理结构相作用的产物,由学科知识结构“内化”而来。在知识图示基础上,对学习者知识节点的认知状态进行量化分析,形成个体的认知图式。

(4)学习路径

“互联网+教育”时代,海量的学习资源、碎片化的学习时间、复杂的学习情境以及师生分离的教学空间形态,加剧了学习者的“知识迷航”和“知识过载”问题。研究发现,自适应学习系统中,如果没有导航性的学习路径支持,学习者很难达成既定的学习需求和学习目标[30]。因此,结合学习者的认知状态和学习目标,为其智能规划和推荐适合的学习路径,是提升自适应学习系统个性化服务质量的关键所在。EKGCM 模型中的学习路径是在学习者的认知状态以及知识图示的基础上,通过智能优化算法对知识元动态规划与重组而生成的。

教育知识图谱的构建方法

在EKGCM 模型基础上,本研究提出一种基于智能处理技术的教育知识图谱构建方法,具体包括知识元抽取、前驱后继关系挖掘、认知状态诊断、学习路径生成四个步骤。

(一) 知识元抽取

知识元抽取是将教学资源中的概念、定义、定理、性质、公式等领域术语提炼出来的过程。该问题可以转化为信息抽取领域中的序列化标注问题(SequenceLabeling),即对教育资源文本序列中的每个知识元打上一个标签类别。目前,解决该类问题的方法主要有三种:基于词典的识别方法、基于规则的识别方法以及机器学习识别方法。其中,前两种方法需要领域专家和语言学者手工制定词典和规则,存在耗时、耗力、领域迁移性欠佳等问题,而基于机器学习的方法能够实现自动识别。

条件随机场模型(Conditional Random Fields,简称CRF) 是机器学习领域中的一种判别式概率模型,广泛应用于自然语言处理中的分词、词性标注、命名实体识别等序列标注任务,因此,可将其应用于知识元抽取中。基于条件随机场模型的知识元抽取过程主要包括知识元特征选择和知识元序列标注两个步骤。

(1)知识元特征选择

特征选择是知识元抽取的关键,通过分析,我们发现教师在进行教学设计时通常遵循科学性、层次性、条理性、思想性的原则,形成的教学资源具有明显的词法、语法特征,比如:教学设计中的教学目标通常采用“使学生掌握……知识”“培养学生……能力”“通过学习,能说出……”“通过学习,能理解……”“通过学习,能分析归纳……”“通过学习,将形成……”等语法结构。本研究在参考学科词汇表的基础上,根据学科专家的指导,从统计特征和语义特征两方面来定义知识元的特征。其中,统计特征包括前词Pre、后词Suf、停用词Stop、词性POS、词长Wordlen、词距离Distance等词语级别的统计特征;语义特征指的是句子级别的语义特征, 采用连续词袋模型将句子表示成词向量,记为

并基于词向量计算句子的语义相似度Simi,最终将总体特征表示为如式1 的向量形式:

(2)知识元序列标注

应的标注序列,即状态序列。知识元的抽取问题可转化为:已知观察序列X 的条件下,求解P(Y/X) 取最大值的状态序列,该状态序列即为知识元抽取问题的标注结果,计算方法如式(2)所示:

其中,Z(x)表示归一化因子,fk表示特征函数,λk表示权重参数。

在知识元正式标注前,需采用BIEO 规范对训练语料进行编码,B 代表知识元的首部,I 代表知识元的中部,E 代表知识元的尾部,O 代表无关词。在进行条件随机场模型训练时,将前述总体特征向量F 作为输入,通过极大似然估计来实现模型的参数学习。其计算如式(3)所示:

(二) 前驱后继关系挖掘

如前所述,前驱后继关系是知识之间最重要的关联关系,也是教育知识图谱语义化特征的体现。知识空间理论指出,前驱后继关系作为知识间的一种自然依赖而存在,是形成学习者认知空间的基础[31]。此外,布卢姆等人提出的掌握学习理论也表明:学习者在学习后续知识之前,对先决知识的掌握程度必须达到一定的水平。具体来说,如果知识元b 依赖于知识元a(即a 是b 的前驱),那么学习者在学习知识元b 之前需要掌握知识元a。例如:“一元二次方程的一般形式”是“一元二次方程求根公式”的前驱知识元,学习知识元“一元二次方程求根公式”之前,应掌握其前驱知识元“一元二次方程的一般形式”。

基于上述分析可知, 当学习者掌握知识元b 时,其前驱知识元a 也一定被学习者所掌握;反之,当学习者没有掌握知识元a 时,其后继知识元b 就难以学会。这一结论与Apriori 算法的先验原理是一致的,该原理认为:如果某个项集是频繁的,那么它的所有子集也是频繁的;相反,若一个项集是非频繁的,则它的所有超集也是非频繁的。因此,本研究提出基于学习者测评数据, 并结合Apriori 关联规则算法来自动挖掘前驱后继关系。从关联规则挖掘的角度来看,前驱后继关系可以表示为:

(三) 认知状态诊断

目前, 认知状态诊断所采用的主要模型包括DINA、DINO、NIDA 等, 但这些模型在整个评估过程中是静态的,并且潜在状态是高阶的,因此,需要估计大量的参数也不能动态变化[32],这导致学习者知识与技能的可视化表示、基于诊断结果的适应性支持效果都会降低[33]。而根据心理学和教育测量学的观点,学习者对于知识元的认知状态或掌握程度通常被视为一种潜在变量,一般需要借助学习者测评过程中的外在行为对其进行估测。在机器学习领域,隐马尔可夫模型是一种能够描述不可观测变量或隐藏变量的时序概率模型,因此,本研究采用该模型对学习者的认知状态进行诊断。

图2 教育知识图谱中的认知状态诊断过程

如图2 所示,该诊断过程以教育知识图谱中的知识图示为基础,结合学习者在测评过程中的答题行为进行诊断。假设学习者依据知识图谱进行个性化学习时遵循马尔科夫过程,即学习者在t+1 时刻的认知状态只与其t 时刻的认知状态有关,而与之前的认知状态无关。基于此,可以得到学习者认知状态随时间的转移概率公式:

此外,学习者在诊断过程中存在失误或猜测的可能, 也存在单一时刻作答反馈不确定和随意性等问题,因此,应综合考虑学习者的认知能力以及失误概率和猜测概率等认知属性,并采用滑动样本窗口的方法来提升认知状态诊断的效果,最终可将学习者对知识元的认知状态表示为:

(四) 学习路径生成

学习路径生成的本质是根据学习者的学习目标和认知状态对待学习的知识元进行排序的过程。按照学习路径生成的方式, 可将其分为学习者自主控制式学习路径、教师引导式学习路径以及算法生成式学习路径三种类型。随着大数据、人工智能技术的发展,算法生成式学习路径正在被越来越多的学者所关注, 如基于AprioriAll 算法来自动生成个性化的学习路径[30]。

目前,在线学习系统中已有的算法生成式学习路径主要考虑学习风格和学习情境两方面的因素,大多忽略了学习者的认知结构与知识的内在依赖关系,而理想的学习路径生成需要建立在学习者已有认知状态以及知识拓扑结构基础上。Knewton 公司在知识图谱领域的初步尝试也表明,知识图谱所承载的在线学习路径更能精准匹配学习者的个性化学习需求[16]。

图3 基于知识图谱的学习路径生成机制

学习路径生成问题可以描述为:在已知学科知识元及其拓扑关系、学习者的学习目标及先验知识结构前提下,对学习者待学习的知识元进行排序,生成覆盖目标知识元的优化序列。基于前面的研究工作,本研究提出了基于知识图谱的学习路径生成机制,如图3 所示。

该学习路径生成机制主要包括三个阶段:(1)先验知识子图生成阶段。基于学习者观看视频、参与社区互动以及在线测评等行为数据,采用前文所述的隐马尔可夫模型对学习者的认知状态进行测量,结合知识图谱中知识元之间的前驱后继关系,构建学习者的先验知识子图。(2)学习目标子图生成阶段。学习目标子图是由学习者待学习的知识元及其前驱后继关系组成的子图,即将知识图谱所有节点集合A 与学习者先验知识子图中的节点集合B 进行差集运算(集合A减去集合B)。(3)学习路径生成与优化阶段。对学习目标子图进行拓扑排序,将学习目标子图中所有待学习的知识元排成线性序列, 形成学习路径候选集;而后,综合考虑知识元中心度、学习难度以及前驱后继关系,采用单源最短路径算法、蚁群优化算法对学习路径进行优化。

实验设计与结果分析

(一) 实验数据采集与预处理

数据是知识图谱构建的基础,教育知识图谱构建的数据源大致可分为两类:(1) 教育大数据中海量的数字化教学资源。教学资源作为知识的载体,是生成教育知识图谱中知识图示的重要依据,主要包括电子教材、教学设计、网络课件、试题试卷等文本资源。(2)教育大数据中的学习行为数据,具体包括学习者观看视频、参与社区互动以及在线测评的行为数据,学习行为数据是认知状态诊断所依赖的数据源。

1.实验数据采集

本研究采用的数据来源于理想智慧教育云平台(),该平台集教学、管理、研训等功能于一体, 积累了海量的教学资源以及学习行为数据。目前,平台拥有各学科的电子教材、教学设计、网络课件、试题试卷等教学云资源约80TB,基于xAPI 规范采集的在线学习行为数据约60GB/天。本研究以初中数学学科为例,从云资源中提取该学科的教学设计、试题、试卷等文档共计5500 份,并从平台采集的学习行为数据中随机抽取了30 名初中生作为研究对象。

2.实验数据预处理

教育领域大量的教学设计、试题试卷等数字化教学资源属于半结构化或非结构化文本,因此,需要对这些文本进行中文分词、词性判别、去除干扰词等预处理工作, 采用的工具包括Jieba、ICTCLAS、FudanNLP。而后,由三名学科专家根据公认的宾州中文树库(Penn Chinese Proposition Bank,PCTB)标注规范,采用文本标注工具BRAT[34]对教学资源中的知识元及其语义关系进行部分标注, 以此作为模型的训练数据。

(二) 实验过程与结果

1.基于条件随机场模型的知识元抽取实验在上述预处理基础上,将文本以句子为单位进行分割,并转换成BIEO 标注体系。为了充分评价模型的性能,本实验将数据集按照8∶2 的比例随机分成训练集和测试集。训练时,数据集的比例从10%逐渐增加到90%,并选用F1 值(F1-Score)作为模型的评价指标。

图4 F1-Score 值随测试数据集变化的曲线

本研究使用CRF++工具进行知识元抽取,采用了两种特征模板:模板1 的特征包括前词Pre、后词Suf、停用词Stop、词性POS、词长Wordlen、词距离Distance、语义相似度Simi;模板2 在此基础上增加了领域词典。在研究样本中共提取到知识元781 个,F1-Score 值随测试数据集的变化曲线如图4 所示。从图中可以看出,随着训练集的增加,模型的精准度逐渐上升,表明训练语料的大小对模型具有重要影响。此外,特征模板2 相比模板1 的效果更好,表明融入领域词典的预测效果更佳。

2.基于Apriori 算法的前驱后继关系挖掘实验

对于知识元前驱后继关系的挖掘,采用的实验数据主要是理想智慧教育云平台中初中数学学科的微测数据和总测数据, 微测数据由小节或单元练习产生,总测数据记录了期中或期末的测评结果。

为验证机器标注的效果, 本研究聘请了两位学科专家对机器标注的关系进行人工确认, 并采用Kappa 统计量对机器标注与专家标注的结果进行一致性分析,这里的“一致”是指两位学科专家对知识元a 和知识元b 之间关系的标注结果都与机器标注结果一致。

Kappa 统计量是一种比较两个或多个观测者对同一事物的两次或多次观测结果是否一致的方法[35],Kappa 值介于0~1 之间。一般认为,若Kappa 值大于0.75,则说明一致性程度较好。本实验采用SPSS 交叉表操作计算出的Kappa 值为0.843,因此,可以认为本研究提出的关系挖掘方法与专家标注的结果具有较高的一致性。表1 所示为初中数学学科部分知识元关系挖掘的结果。

3.基于隐马尔可夫模型的认知状态诊断验证实验

本实验以实数知识点的测评数据作为案例对前文所述的认知状态诊断方法进行验证, 数据集包含30 名学生在120 个测验题目上的作答反应。表2 展示了部分测验题目与知识元之间的对应关系,以及学生在相应题目上的作答结果。其中,表格中的1 代表题目考察了相应的知识元,0 代表题目没有考察相应的知识元。

图5 090 号学生的认知状态诊断报告单

实验采用Python 版本的hmmlearn 库[36],实现了基于隐马尔可夫模型的认知状态诊断方法。参数设置方面,知识的遗忘概率、学习概率、失误率和猜测率都初始化为0.1, 并采用最大期望算法对隐马尔可夫模型进行参数估计,实验终止条件为似然值不再变化或达到迭代上限次数(1000 次)。图5 呈现了某学生的认知状态诊断报告单,从诊断报告中能够清晰地看出该生在各个知识元上的掌握概率以及与全体学生平均水平的对照情况。根据该诊断报告,教师或个性化自适应学习系统能够开展有针对性的补救教学。

4.学习路径生成机制验证实验

为验证路径生成机制的有效性,本实验以随机抽取的30 名初中学习者为研究对象, 对其2 个月的学习过程数据进行了分析,具体分析步骤如下:(1)以学习者的编号为基础对其学习记录进行分组,并按时间顺序对学习记录进行排序, 从而形成知识元学习序列。(2)去除学习者在连续时间内重复学习同一个知识元的学习记录,仅保留最后一条学习记录。(3)从去重后的数据记录中提取出学习者实际的学习路径Lr。(4)以学习路径Lr 中最后一个知识元为学习目标,根据学习者的先验知识子图,采用蚁群优化算法自动生成学习路径Lp。(5)比较每个学习者实际学习路径Lr与自动生成的学习路径Lp 上的知识元顺序, 相同的次数记为P1,不同的次数记为P2,则生成路径的使用频率可表示为P=P1/(P1+P2)。

图6 090 号学生的学习路径生成图示

依据上述分析过程,对30 名学习者使用学习路径的频率进行统计分析,结果显示:生成的学习路径平均使用频率在75%以上, 从而验证了基于知识图谱的学习路径生成机制具有一定的实用性。图6 展示了平台为090 号学生生成的一条个性化学习路径。

结语

领域知识建模是构建个性化自适应学习系统的关键和基础,也是该系统研究和发展过程中长期面临的瓶颈问题。本文以知识图谱为切入点,针对通用知识图谱迁移应用于教育领域所面临的知识粒度模糊、领域适应性不强、构建自动化程度不高等问题,从结构和要素两个视角构建了其概念模型,提出了一种基于智能处理技术的构建方法,为基于知识图谱的自适应学习系统开发和实现奠定了基础。

但本文的研究仍存在以下两个方面的不足之处:(1) 从人工智能的发展趋势来看,人机协同的混合智能将成为新的研究热点,因此,如何通过人机协同,将学科专家、教育技术专家等人类智慧与智能处理技术相融合,构建更加适合个性化学习、精准教学等教育情境的知识图谱,还有待进一步深入研究。(2)现有自适应学习系统中的领域知识建模主要面向可编码、可量化的显性知识,但没有考虑隐性知识[37],因此,如何利用知识图谱对学习过程中的隐性知识进行表示和建模,将成为未来教育知识图谱研究和发展的重点内容。

参考文献:

[1] 高虎子,周东岱. 自适应学习系统学习者学习风格模型的研究现状与展望[J]. 电化教育研究,2012(2):32-38.

[2] 李振,周东岱,刘娜,等. 人工智能应用背景下的教育人工智能研究[J]. 现代教育技术,2018,28(9):19-25.

[3] 牟智佳. “人工智能+”时代的个性化学习理论重思与开解[J]. 远程教育杂志,2017,35(3):22-30.

[4] 刘春雷. 基于本体的教育领域学科知识建模方法研究[D]. 重庆:重庆大学,2008.

[5] 国务院. 国务院关于印发新一代人工智能发展规划的通知[EB/OL].[2018-12-14].http://.

[6] 赵呈领,杜静,万力勇,等. 知识组织技术与方法的研究及其应用[J]. 中国电化教育,2014(4):77-86.

[7] 黄伯平,赵蔚,余延冬.自适应学习系统参考模型比较分析研究[J]. 中国电化教育,2009(8):97-101.

[8] KAO Y T,LIN Y S,CHU C P. A multi -factor fuzzy inference and concept map approach for developing diagnostic and adaptive

remedial learning systems[J]. Procedia-social and behavioral sciences,2012,64(1):65-74.

[9] CASTLES R,LOHANI V K,KACHROO P.Knowledge maps and their application to student and faculty assessment[C/OL]//2008 IEEE Frontiers in Education Conference,New York:Saratoga Springs,October 22 -25,2008. [2019 -06 -14]..

[10] 高燕,秦志刚. 基于知识地图实现动态学习流建模[J]. 电化教育研究,2010(1):39-43.

[11] 万海鹏,余胜泉. 基于学习元平台的学习认知地图构建[J]. 电化教育研究,2017(9):83-88.

[12] 张凌,乔晓东,朱礼军. 认知地图分析方法研究[J]. 情报理论与实践,2014,37(6):34-39.

[13] CHRYSAFIADI K,VIRVOU M. A knowledge representation approach using fuzzy cognitive maps for better navigation support in an adaptive learning system[J]. SpringerPlus,2013,2(1):1-13.

[14] 冯新翎,何胜,熊太纯,等. “科学知识图谱”与“Google 知识图谱”比较分析———基于知识管理理论视角[J]. 情报杂志,2017,36(1):149-153.

[15] 徐增林,盛泳潘,贺丽荣,等. 知识图谱技术综述[J]. 电子科技大学学报,2016,45(4):589-606.

[16] Knewton. Knewton adaptive learning building the world's most powerful education recommendation engine [DB/OL]. (2013-10-04)

[2019-02-25].https://.

[17] 余胜泉,彭燕,卢宇. 基于人工智能的育人助理系统———“AI 好老师”的体系结构与功能[J]. 开放教育研究,2019,25(1):25-36.

[18] 孙小欣. 基于潜在语义分析的学科知识图谱构建[D]. 武汉:华中师范大学,2013.

[19] 李振,周东岱,董晓晓,等. 我国教育大数据的研究现状、问题与对策———基于CNKI 学术期刊的内容分析[J]. 现代远距离教育,2019(1):46-55.

[20] 杨开城. 论课程的易理解性与知识建模技术[J]. 电化教育研究,2011(6):12-16.

[21] 崔京菁,马宁,余胜泉.基于知识图谱的翻转课堂教学模式及其应用———以小学语文古诗词教学为例[J].现代教育技术,2018,28(7):44-50.

[22] 余胜泉,李晓庆. 区域性教育大数据总体架构与应用模型[J]. 中国电化教育,2019(1):17-27.

[23] 钟绍春,唐烨伟. 人工智能时代教育创新发展的方向与路径研究[J]. 电化教育研究,2018, 39(10):17-22,42.

[24] 张波,金玉鹏,张倩,等. 试论一种新型在线教育资源大数据组织框架[J]. 中国电化教育,2018(3):41-46.

[25] 张丽霞. “信息技术”课程教学中挑起“认知失衡”的策略[J]. 电化教育研究,2009(12):110-112.

[26] 曲兆华. 基于流程图法的高中生良好数学认知结构特征研究[D]. 济南: 山东师范大学,2018.

[27] 孙时进,王金丽. 心理学概论[M] .上海: 复旦大学出版社,2012:236-237.

[28] 王佑镁,祝智庭. 从联结主义到联通主义:学习理论的新取向[J]. 中国电化教育,2006(3):5-9.

[29] 肖建琼,高江锦. 适应性学习系统中知识点本体的研究与构建[J]. 智能计算机与应用,2013,3(5):14-19.

[30] 姜强,赵蔚,李松,等. 大数据背景下的精准个性化学习路径挖掘研究———基于AprioriAll 的群体行为分析[J]. 电化教育研究,2018,39(2):45-52.

[31] DOIGNON J P,FALMAGNE J C. Spaces for the assessment of knowledge[J]. International journal of man-machine studies,1985, 23(2):175-196.

[32] 李振,周东岱,刘娜,等. 教育大数据的平台构建与关键实现技术[J]. 现代教育技术,2018,28(1):100-106.

[33] 王珏,解月光.基于前概念体系的学习者认知诊断方法研究———以初中物理“力与运动”主题为例[J].电化教育研究,2017(9):124-130.

[34] Brat Contributors. Brat rapid annotation tool[EB/OL].(2012-11-08)[2019-06-04].http://brat.nlplab.org/.

[35] 李国辉,耿辉,冯静. 课堂教学的专家评价与学生评价一致性分析[J].高等教育研究学报,2016,39(3):40-44.

[36] Hmmlearn Developers. Hmmlearn user guide [EB/OL].(2015-05-09)[2019-06-04].https://hmmlearn.readthedocs.io/en/latest/.

[37] 佩特·约翰内斯,拉里·拉格斯多姆,张永胜. 自适应学习:溯源、前景与误区[J]. 中国远程教育,2018,522(7):45-55,82.

作者:李振 周东岱

来源:微信公众号:教育大数据国家工程研究中心

出处:

标签: #词袋模型是如何构建的