学习论坛交互文本质量评价模型的构建与实践 ——以cMO

一、问题提出随着“互联网+”时代的到来，在线学习已经成为了当前的一种主流学习趋势，而在日益发展的在线学习中，存在大量的交互行为。交互是教育的本质，是影响在线学习效果的关键因素（熊秋娥，2005）。联通主义认为，交互是学习的核心与关键（王志军，陈丽，2014），是教与学再度整合的关键（Keegan，1993），知识源于各个实体的交互和连接的建立（王志军等，2014）。交互逐渐成为构成在线学习的关键因素（戴心来，王丽红，崔春阳，李玉斌，2015），占据举足轻重的地位，对在线学习中交互的研究有助于推动远程教育的发展。在线学习中，交互主要依赖于以文本为基础的同步或异步沟通（熊秋娥，2005），对交互文本的质量进行研究可以有效分析在线学习过程中的交互质量。在线学习环境中大量的教学交互特别是师生交互、生生交互，主要以论坛讨论的形式发生（冯晓英，郑勤华，陈鹏宇，2016）。论坛是在线学习中学习者与教师、其他学习者之间在线交流与知识共享的重要平台，在MOOCs中至关重要，是学习者在线学习过程的重要体现。文本是最普遍的交互载体。对论坛交互文本的质量分析可以帮助教师对学习者进行形成性评价，把握学生的学习情况，从而为其提供个性化的学习支持服务。但是，现阶段仍只有少量学者利用内容分析法对论坛交互文本质量进行研究，该方法主要通过人工来完成，十分耗时耗力，对研究者的能力要求较高（冯晓英等，2016）。因此，面对学生数量较大、发帖数量较多的MOOCs 课程，教师很难对论坛文本质量进行评判。基于以上情况，本研究采用学习分析的思路探索论坛交互文本质量的评价指标，并依据层次分析法，确定各指标的权重，最终构建出针对交互文本质量的评价模型，并以cMOOC 课程“‘互联网+’教育：理论与实践的对话”第二期为例进行了实践。该模型可以有效弥补当前对交互文本质量研究的不足，帮助教师更好地提供个性化指导和学习支持，及时把握学习者的学习进度和学习效果，并可以为MOOCs课程的最终评价提供一定的参考依据。二、文献综述（一）交互质量评价模型研究现状国内外对在线学习交互质量评价模型的主流研究思路是通过文献调研总结归纳出交互质量评价标准，再通过实证研究，检测某网络课程的在线交互质量，从而检验该模型的有效性。在已有研究中，对交互质量的评价主要集中在两方面，一是网络课程中在线交互质量的评价，二是论坛中社会性交互质量的评价。在网络课程中在线交互质量的评价研究中，较有代表性的是Roblyer和Wiencke（2003）的研究，该研究建构了以教师为中心的远程学习交互模式，从社会性交互的设计、交互的教学设计、技术资源的交互性、教师参与度、学生参与度五个维度来评价课程的在线交互质量，并通过访谈和实践进一步检验其信度和效度。Roblyer等人设计的量规主要面向远程教育课程，在课程内容、媒体形式、课程活动设计等方面比较宽泛。针对网络课程，Laurillard（2002）提出了一种会话模型，将教师、学习者、学习环境三方通过媒介进行交互的情况作为评价对象，评价了各种学习工具的交互性，以此考察该在线学习环境的优劣。该研究着重分析各学习工具，较少对教与学行为进行分析。杨卫明（2010）提出了网络教学的“主客体”交互模式，提出了网络课程交互的形成性评价指标体系，共分为七个维度，并应用德尔菲法来确立指标权重，再通过与已有的专家编制的交互质量评价体系实践结果进行比对确立该体系的有效性。但是，该研究所建构的指标体系描述较为笼统，缺少操作性定义，所设想的评价软件也未完成，无法为现如今的网络课程提供参考依据。魏志慧、陈丽和希建华（2004）提出了从媒体界面的交互性、学生和学习资源的交互等五个维度47个指标的网络课程教学交互质量模型，该研究将这些指标编制成李克特五点量表让学习者评定，并没有对课程材料、交互文本进行分析。在对论坛中社会性交互质量的评价的研究中，研究者主要集中于评价在线学习中学习者与学习者以及教师之间的社会性交互，对论坛文本质量的评价准则很大程度上取决于评价者评价的目的。 Rourke、Anderson、Garrisont和Archer（1999）认为学生参与在线讨论形式的交互有利于批判性思维的发展，进而从激发物、知识扩展、知识整合和问题解决四个层次来评价论坛中学生交互时的批判性思维水平，以此来评判交互质量。Polhemus、Shih和Swan（2001）设计了一个有七项指标的评价方案对异步论坛中学生交互时社会存在进行了评价研究，发现社会存在对发展同学间和睦关系、增加学习团体凝聚力至关重要。Hawkes和Dennis（2003）认为在线交互中学习者反思性思维水平越高则在线交互质量越高，该研究从七个层次对学生论坛中的反思性交互水平进行评价。这些研究都着重分析了在线学习交互中的某一维度，未能反映学习者在论坛中社会性交互的整体质量。熊秋娥（2005）在建构主义学习理论的指引下提出了评价异步社会性交互质量的五个维度，但并未确定具体的操作性评价标准，并且，该研究并未对该模型进行实践。Mckenzie和Murphy（2000）从参与性、交互性、认知和元认知四个维度对学习者的讨论脚本进行内容分析，得出学习者交互质量高低。李爽、陈丽和郑勤华（2001）使用塞尔曼的观点采择能力发展模式，对学习者网上讨论的交互质量水平进行了研究。陈丽（2004）对在线讨论中社会性交互质量进行了较全面的评价，研究了交互中学习者的参与度及其他核心参与者并进行了内容分析。这几个研究通过文献分析、专家访谈等方法各自设计了独特的论坛社会性交互的评价方法，再结合某课程进行个案分析，其研究目的并不是对论坛社会性交互的模型进行构建后再通过实践不断打磨修改，而是着力于为部分网络课程提供指导性意见。（二）交互文本质量评价方式研究现状目前国内外对交互文本质量进行评价的方式主要有三种，即人工评价、机器评价和人工机器相结合的评价。人工评价是指用人工的方式对课程材料及交互内容进行读、听、看，并在此基础上进行人工编码及分析，最终做出评判的过程。机器评价指借助程序或软件对交互内容进行编码及分析，例如自然语言处理技术等。人工评价耗时长，过程繁琐，受评价者主观影响较大，但评价过程更加灵活；机器评价速度快，效率高，评价过程客观公正，但无法对个别特殊情况进行辨别，现有的自然语言处理技术还不能像人工分析一样准确。 Roblyer等（2003）所提出的课程交互质量的评价量规主要依据人工评价进行实践，通过远程教育专家、教学人员以及学生对具体课程进行评价。熊秋娥（2005）在构建了评价异步社会性交互质量的模型后，建议在实践的时候以两位编码者同时进行人工编码的方式进行。李爽等人的研究中采用的是人工观察的方式（2001）。孙洪涛（2012）使用机器评价的方式，基于社会网络分析法和内容分析法，对学习者行为数据进行分析，得出学习者的交互中心。戴心来、王丽红、崔春阳和李玉斌（2015）采用人工和机器相结合的评价方式，两位评判员对论坛帖子共同进行筛选、整理和编码，并采用分析工具SNAPP和UCINET对网络课程的社会性交互进行研究。现如今，自然语言的处理的技术还未成熟，还存在不合理分词、语义理解错误等等细节问题，机器和人工相结合的评价方式可以在一定程度上弥补人工评价的不足，提高评价效率，降低机器评价的错误率，提高评价的针对性，提高评价结果的质量。三、理论模型与数据模型（一）联通主义指导下的网络课程由乔治·西蒙斯提出的联通主义学习理论是互联网时代下非常重要的学习理论。基于联通主义开设的开放网络课程所提供的学习内容只是学习者们交互的起点，学习者通过交流贡献更多的内容，共同营造复杂的网络（王志军等，2014）。学习存在于学习者与内容互动时所留下的批注、评论等内容中（Siemens，2005）。交互在学习过程中是非常重要的，而论坛文本正是交互发生的主要载体，对交互文本质量的评价是对整个在线学习过程评价的重要组成部分。根据现有的在线学习环境的特点，对交互文本质量的评价可以从帖子被浏览、被回复、被点赞、被收藏这四个方面进行评价。在联通主义指导的网络课程中，学习的过程不仅仅存在于观看专家教师直播的视频，还发生在与其他学习者进行讨论交流的过程中。专家教师直播的内容与学习者进行讨论交流的内容并不一定会完全一致。因此在分析联通主义理论指导的网络课程的论坛文本质量时，不仅仅要考虑该文本与专家教师直播视频内容的关系，即与直播视频内容匹配程度，还需要考虑该文本与其他学习者的发帖内容之间的关系，即与所有帖子内容匹配程度。（二）数据模型基于联通主义学习理论，本研究提出以下数据模型。图1 交互文本质量数据模型层次图表1 交互文本质量层次结构模型社会性交互B1交互文本质量评价模型被浏览次数B11被回复次数B12被点赞次数B13被收藏次数B14知识建构层次B2与直播视频内容匹配程度B21与所有帖子内容匹配程度B22 （三）cMOOC 论坛交互文本质量评价模型层次分析法（Analytic Hierarchy Process）是由美国运筹学家Saaty于 20 世纪 70 年代提出的一种定性分析和定量分析相结合的系统分析方法（邓雪，李家铭，曾浩健，陈俊羊，赵俊峰，2012）。在本研究中，决定论坛文本质量的因素繁多，而各个因素之间并不是同等重要的。本研究意图通过层次分析，使用特征向量计算方法，得到评价论坛文本质量时各个因素的权重。本研究根据层次分析的理论模型设计问卷，并向8 位北京师范大学知名的cMOOC课程研究设计的专家学者发放调查问卷。通过对调查问卷的收集与整理，依据托马斯·塞蒂的“1-9标度法”，对专家的比较判断矩阵打分结果进行统计分析。由此，可以获得专家关于cMOOC 论坛文本质量评价模型的指标的分别得分情况，即专家评分。再通过对指标体系中各级指标相对于总目标权重的计算，最后得出指标体系的合成权重，如表2所示。表2 交互文本质量评价指标体系的合成权重准则层B1 B2 各指标相对总目标的权重0.3333 0.6667 B11 0.0562 0.0187 B12 0.2808 0.0936 B13 0.1149 0.0383 B14 0.5480 0.1826 B21 0.8000 0.5334 B22 0.2000 0.1333指标层由于准则层和知识建构层次维度都是由两个指标组成，所以不需要进行一致性的检验。对社会交互性的指标层一致性检验情况如下。由于C.R=0.0581/0.9=0.0646＜0.1，即该矩阵保持显著水平，对比矩阵是保持一致的，总排序结果具有满意的一致性。四、研究设计与方法（一）研究对象本研究以cMOOC 课程“互联网+教育：理论与实践的对话”第二期为实践对象，大量教育技术领域的学习者、研究者、实践者参与了该课程。本课程以联通主义理论作为基础而开发，关注于教育信息化的新阶段：“互联网+”教育，从理论和实践两个视角来深入讨论并交流如何利用互联网推动教育变得更好。本课程分为五个主题开展，学习者的学习形式包括观看每周六位专家教师直播的视频，以及随时随地与其他课程参与者讨论交流。此外，课程平台为学习者提供了良好的互动交流空间，在观看直播之后，学习者们可以撰写博客、案例、资源，并对上述这些种类的帖子进行浏览、评论、点赞、收藏的操作，还可以针对特定话题发表观点或回复他人。通过开展丰富的学习活动以及提供充足的学习支持服务，该课程旨在帮助学习者系统地、深入地理解“互联网+”教育，构建起“互联网+”教育的知识网络。本研究选取的是该课程在2019年3月20日至4月16日之间所产生的数据，共包含两个主题的学习，分别是“‘互联网+’教育的哲学基础”以及“线上线下学习空间融合”。按照课程的安排，3月20日至4月2日是主题一的学习时间，共产生了两次专家教师直播的视频，以及共计825条周报、活动、博客、案例、资源、话题数据。2019年4月3日至4月16日是主题二的学习时间，共产生两次专家教师直播视频，以及 398 条周报、活动、博客、案例、资源、话题数据。其中周报、活动与话题都是由课程的主办方设置的导学者所创设或者引导的，博客、案例、资源是体现学习者们讨论交流的主要内容。（二）研究内容本研究基于联通主义学习理论，运用层次分析的方法，提出了交互文本评价模型，并运用特征向量法计算出各指标的权重，再将该模型实践于cMOOC 课程“‘互联网+’教育：理论与实践的对话”中，由此展开讨论与分析。（三）关键概念的操作化定义社会性交互指学员在MOOC学习过程中与他人的交流互动，包括浏览帖子、点赞帖子、收藏帖子、回复帖子这四种行为。对于每一个帖子来说，该帖子的社会性交互质量分为四个维度来评估，即被浏览、被点赞、被收藏、被回复的次数。每个帖子的知识建构层次分为两个维度来评估：与直播视频内容匹配的程度和与所有帖子内容匹配程度。将专家教师的直播视频内容转化为文本材料，进行高频关键词的提取以及人工处理，获得关键词集。将每一个帖子进行分词处理，比对该帖子中提到关键词集中词语的次数，该次数即为该帖子与直播视频内容的匹配程度。对筛选后所有帖子的文本集合进行高频关键词的提取以及人工处理，获得关键词集。将每一个帖子进行分词处理，比对该帖子中提到关键词集中词语的次数，该次数即为该帖子与所有帖子内容的匹配程度。（四）数据处理说明及量化方法 1.论坛文本的筛选根据 cMOOC课程“‘互联网+’教育：理论与实践的对话”第二期的特点，博客、案例、资源是体现学习者们讨论交流的主要内容，并且每一条数据也就是每一条论坛文本都有publish（已发布）、draft（草稿）、trash（回收站）、pending（待审核）四种状态。根据本研究的需要，选择类别为博客、案例、资源，且状态为 publish（已发布）的论坛文本。最终在主题一选取197 个论坛文本，主题二选取202 个论坛文本。 2.关键词集的构建本研究所选择的 MOOC 课程是分主题开展的，每个主题间的内容有些许差异，围绕的重点不同，因此构建关键词集以及评价论坛文本质量都是分主题进行的。 1）直播视频内容对应的关键词集每个主题有两次专家教师直播的视频，总计约为 4 小时，将该视频通过讯飞听见转录成文本材料。讯飞听见的识别准确率高达 95%+，但由于该课程视频内容存在较多学术名词，并且部分专家教师有口音，导致讯飞听见转录的结果存在一定的错误，由此研究者们对文本材料进行了人工校对。再通过精确模式的结巴分词，将文本材料中的句子精准切分开（邢彪，根绒切机多吉，2018），并统计词频。借用孙清兰提出的高频词低频词界分公式（1）（孙清兰，1992），其中D代表不同关键词的个数，经排除无意义关键词后，得到了高频关键词集。通过分词统计词频获得的高频关键词多为一些常用词，虽然这些词语与教学内容息息相关，但是却缺少非常重要的一些学术专有名词，不能全面深入地反应专家教师直播的视频的内容，影响对论坛文本质量评价的结果。因此，本研究根据专家教师直播视频中的主题以及所给参考文献，在中国知网上查找相关的文献，按照被引数选择前 100 篇文献（部分关键词文献数量不足 100），再通过 CiteSpace 做共现关键词网络分析，将节点数大于 2 的关键词纳入直播视频内容对应的关键词集中。最终确定主题一直播视频内容对应关键词集共有105 词，主题二有119 词。 2）所有帖子内容对应的关键词集通过精确模式的结巴分词，将每个主题筛选过后的所有论坛文本进行分词处理，并统计词频，再根据上述高频词低频词界分公式（1）得到高频词数量，再通过人工排除无意义关键词确定高频关键词集。主题一所有帖子内容对应的关键词集共有87 词，主题二有102 词。 3.实现计算匹配程度匹配程度即某一帖子中提到关键词集中词语的次数，为计算匹配程度，本研究自行编写 Python 程序，经过预实验发现该程序计算效果良好，准确无误。通过该程序，将筛选后每一论坛帖子与关键词集进行匹配，得到了每一帖子与直播视频内容匹配程度以及与所有帖子内容匹配程度。五、研究结果根据本研究构建的交互文本质量评价模型，计算得到“‘互联网+’教育：理论与实践的对话第二期”课程中学习者在主题一、主题二学习时间内所发表的每一个帖子的相对质量。主题一经过筛选得到197个帖子，主题二经过筛选得到的202个帖子。所有学习者在主题一时间内共发表197个论坛帖子，其论坛文本质量的描述性统计见表3。表3 第二期主题一论坛文本质量的描述性统计统计维度值个案数有效 197缺失 0平均值 0.0000中位数 -0.1854标准差 0.7340范围 4.1139最小值 -0.8984最大值 3.2155 所有学习者在主题一时间内共发表202个论坛帖子，其论坛文本质量的描述性统计见表4。表4 第二期主题二论坛文本质量的描述性统计统计维度值个案数有效 202缺失 0平均值 -0.0054中位数 -0.1757标准差 0.7658范围 8.5475最小值 -0.6716最大值 7.8760 （一）论坛文本质量分布根据上述主题一、主题二所有论坛文本质量的数据，利用SPSS绘制直方图，观察其分布情况。 1.主题一从图2中可知，主题一论坛文本质量水平呈正偏态分布，说明相对低质量的论坛文本占据所有文本的大部分，而相对高质量的论坛文本占比很少。 2.主题二从图3可知，主题二的论坛文本质量呈十分接近正态分布的正偏态分布，说明相对低质量的论坛文本虽然多于相对高质量的论坛文本，但差距比较小。论坛文本质量呈现正偏态分布，整体质量偏低，可能是由以下原因造成的。图2 主题一论坛文本质量分布图3 主题二论坛文本质量分布参与“‘互联网 +’教育：理论与实践的对话第二期”课程的学习者背景参差不齐，该课程学习者不仅有教育技术学专业的教师、研究生和本科生，也有很多“互联网+”教育行业的实践者，同时也有其他专业的学生或社会人员，这导致了学习者对知识的理解和应用存在差异。这种差异虽然是学习者进行多角度学习的重要途径，但也可能导致各种不同背景的学习者在论坛交互不够有效。其次，部分社会人员的参与，意味着部分学习者没有固定的时间投入到课程中，对于每周六的直播课程和论坛讨论，部分学生可能只是观看每周的文字总结或教师的演示文稿内容而已，但是很多的直播课重点都在教师的口头的表达中，这会导致学习者发布的帖子内容不能够与教师直播课内容相匹配，导致很多的帖子质量偏低。该cMOOC课程要求学习者论坛交互达到一定数量，才可获得结业证书，其具体要求包括：每个主题至少编撰一篇博客，或分享一个相关资源与案例；每个主题有2次以上的深度讨论（评论他人+被回复1次+被点赞3次）。从中可以看出该课程对于每个主题的深入讨论的要求较低，很多学习者为了结业证书只完成最低要求的深度讨论，这会导致很多帖子的社会交互性的相关指标较低，相对质量也较低。该课程的管理者会对学习者编撰的博客、资源或案例进行审核，以剔除无意义帖子，但该评判过程并未公开具体要求，依靠的是管理者的主观判断。为了不打消学习者积极性，很多与该时段主题匹配程度较低的帖子，只要其内容有意义，就会被课程管理者识别为质量通过，这会导致很多帖子知识建构层次的相关指标较低，相对质量也较低。此外，很多单纯想要结业证书的学习者集中在课程即将结束时发布所有主题的帖子并补足深度讨论，导致本研究在课程中期收集到的论坛文本数据并不是全体数据。该课程要求学习者填写发布自我介绍，以便大家找到志同道合者，很多的学习者会关注与自己背景相仿的或者在这个领域有权威的其他学习者。因此在课程学习过程中，存在有些学习者只与自己关注的人在论坛中交互的现象，导致有些学习者的帖子缺乏关注，缺乏社会性交互，相对质量也偏低。（二）论坛文本实例比较本研究将相对论坛文本质量在平均值+/-标准差的区间内的帖子定义为中质量，而低于这个区间的帖子定义为低质量，高于这个区间的帖子定义为高质量。主题一包含17份低质量帖子、156份中质量帖子、24份高质量帖子。主题二包含0份低质量帖子、190份中质量帖子、12份高质量帖子。每个主题分别选取相对高中低质量的三个帖子进行人工审核。 1.主题一“互联网+”教育的哲学观低质量：选择帖子质量为-0.476的博客：也谈互联网的“开放性”。本文提出了一个问题：我们在互联网所看到的信息是否因为基于大数据、云计算的推荐功能变得更加封闭、有限？针对这个问题，有3位学者在评论区表达了自己的意见，并在与发帖人的讨论中得出了该问题的一个可能性答案。中质量：选择帖子质量为0.0356的文章《“互联网+”推动教育变革的案例分享——以华文教育技术为例》该帖子介绍了在“互联网+”教育的大背景下，教育技术行业逐渐兴起，一系列针对学习的设备和APP逐渐受到重视，教育从传统的教师讲授变为信息互通的自主学习的过程，并着重介绍了华文教育的技术：华文教育从语音、汉字、词汇、语法四个方面，带动学生进行听说读写，并运用文字、图像、音频、视频等多媒体技术加强学生的学习趣味性和能动性。同时，本文以《小学华文》新教材的使用案例、“华文一百分”自我测评软件两个案例详细介绍了“互联网+”推动教育变革的具体实践。高质量：选择帖子质量为2.3427的文章：学习支持服务案例——成都七中网校远程教学。该帖子详细介绍了成都七中网校远程教学的实践概况以及该项目对老师、学生、学校和地区的影响，并从自身角度出发，总结了该项目理论思想、所满足的教育需求、核心思路和实际效果。对比这三个帖子可以发现，高质量的帖子列点明确，在紧扣主题的过程中，不仅分享了一些高质量的学习资源，同时总结归纳了自己的观点。中质量的帖子整篇帖子图文结合，分享了与主题紧密相关的案例，而低质量的帖子只是针对主题提出了自己的问题，缺乏材料的支撑和自己独到的见解，但引发了他人的讨论。所以对这三个不同层次的帖子来说，高质量的帖子的确明显比中质量、低质量的帖子的文本内容更加充实。 2.主题二线上线下空间融合主题二没有低质量帖子。中质量：选择帖子质量为-0.0388的文章《“一起小学”APP》。该帖子详细介绍了小学英语同步学习“一起小学”APP的基本功能。高质量：选择帖子质量为1.1471的文章《Classin：空间或场景思维，打破线上线下阻隔》该帖子详细介绍了Classin平台，阐述了为什么要提倡线上教育、在线教育的发展模式、空间时代和未来发展。从这两个帖子的对比中可以得出，两种质量的帖子都紧扣主题，且都分享了一个相关的案例，但是高质量的帖子更加详细具体，且在展示案例的同时阐述了自己独到的观点。经过人工审核发现，低质量的帖子确实有不足之处，高质量的帖子确实有很大优点，说明本研究所构建的交互文本质量评价模型效果良好。六、讨论和建议（一）cMOOC的过程性评价指标过程性评价是新课程改革中的重点（高凌飚，2004），该评价既重视学习成果的判断，也重视学习过程对学习质量水平的影响，是学习动机、过程和效果三位一体的评价（上超望，韩梦，杨梅，2018）。在MOOCs中不仅存在测验、成绩、学分等结构化数据，也存在很多非结构化数据，例如学习者发帖内容、评论内容等。特别是基于联通主义的cMOOC，以自组织的形式开展，强调知识的分享和传递、学习者间的交互，教与学的方式发生了很大变化，如果依然采用传统评价方式中的标准化成绩衡量学习者的学习成果是不全面的，应该重视课程中产生的非结构化数据，重视学习过程的重要作用。论坛内容是MOOCs学习过程中的重要数据，对论坛文本质量的评价是MOOCs过程性评价的重要组成部分。本研究构建了cMOOC论坛文本质量评价模型，从社会性交互数据和知识建构层次两方面对论坛的文本质量进行评价，并经初步实践检验，该评价模型的效果良好。该模型中的社会性交互数据“被回复数”“被点赞数”“被收藏数”“被浏览数”和知识建构层次数据“与教师直播视频内容匹配度”“与其他帖子内容匹配度”可以纳入MOOCs的过程性评价指标。需要强调的是，本研究层次分析结果表明，在评价“互联网+教育：理论与实践的对话”第二期课程论坛文本质量时，专家认为知识建构层次数据要比社会性交互数据更能反映出文本质量的高低。对于这门课来说，对学习者学习过程和效果的评价，不能过分关注学习者发布论坛的“被点赞数”“被回复数”等极为简单和表象的数据，应该更重视论坛内容的质量，提高其在评价过程中的权重。不同的MOOCs课程组织形式、内容、参与的学习者等各方面都存在一定差异，在应用该评价模型时，应该根据具体情况，有针对性地对各个评价指标体系进行再次赋权，不能一概而论。课程的管理组织者可以依据具体内容和学习目标对学习者提出较为明确的要求，如论坛内容必须要有自己新颖的观点和看法，或进行量化指标的要求，如论坛至少被点赞1次、被回复3次等，这些量化指标在一定程度上也可以督促学习者提升自己论坛内容的质量。同时，明确的评价规则可以有效激励和引导学习者更好地参与到课程交互过程中，并帮助学习者提升认知水平（孙洪涛，郑勤华，2016）。（二）人工作用的不可替代性在本研究的初始阶段，在对“互联网+教育：理论与实践的对话”第二期课程进行分析时，我们曾尝试用机器直接获取教师直播视频中出现的高频词，在筛选后作为每个学习主题的关键词，但结果不尽人意。经过与教师的直播视频进行比对，我们发现机器获取的高频词并不能很好地概括教师讲课的内容，更不能做到与课程主题高相关性，例如在获取的高频词集中，诸如“教育”“学习”“知识”等中性词的频次非常高，而相较之下，与主题密切相关的“联通主义”“寻径”“意会”等词的频次很低，原因可能在于该课程中绝大部分学习者对所学内容都有一定了解，教师不需要在直播教学中对某些与主题相关的关键词进行多次强调，或者由于某些关键内容在教师的PPT中呈现，在对教师视频进行语音转录时忽略了这部分内容。因此，本研究重新考虑了人工作用，参考主题相关领域优质文献进行关键词集的提取，并进行人工筛选，保障了该研究使用的关键词集与课程主题和内容均具有较强的相关性。大数据近年来发展迅速，对各行各业产生了巨大影响，教育大数据也对教育发展与变革起到重要作用。但与电子商务、交通等领域相比，教育大数据在数据构成上有很大不同，音视频等非结构化数据占比很大，这些非结构化数据记录了教学活动、资源等，具有高度的复杂性（Anderson，2009）。目前看来，机器在面对结构化数据时，拥有超强的处理能力，无论速度还是质量都可以远超人类，但对于教育领域的非结构化数据来说，机器在处理复杂的师生关系、教学资源交互、灵活多变的教学过程、教与学过程中产生的各类质性数据时，不能进行非常准确的分析和判断。因此，在对教育大数据进行分析处理时，我们不能过度依赖机器处理，要有人工的介入，特别是要借助教育领域专家的作用。七、研究局限与展望（一）数据获取的限制性本研究采用“互联网+教育：理论与实践的对话”第二期课程网站上产生的数据，但该课程除课程网站外还设有微信交流群，而本研究忽略了在微信群中的社会性交互数据，仅考虑了网站平台内部的数据集。未来如果客观条件允许，对于MOOCs课程社会性交互的评价还可以获取网站平台外的交互数据，甚至线下交流的数据，更为全面地评价交互文本的质量。（二）模型验证不够充分 MOOCs包含cMOOC和xMOOC，但本研究受时间等资源的限制，仅使用一门cMOOC课程的数据来验证构建出的交互文本质量评价模型的有效性，数据样本较小，覆盖面不够广泛。日后可以采集更多课程的数据样本，继续修改和完善该评价模型。 [1] 陈丽（2004）.网络异步交互环境中学生间社会性交互的质量——远程教师培训在线讨论的案例研究[J].中国远程教育，（13）：19-22+78. [2] 戴心来，王丽红，崔春阳，李玉斌（2015）.基于学习分析的虚拟学习社区社会性交互研究[J].电化教育研究，36（12）：59-64. [3] 邓雪，李家铭，曾浩健，陈俊羊，赵俊峰（2012）.层次分析法权重计算方法分析及其应用研究[J].数学的实践与认识，42（7）：93-100. [4] 冯晓英，郑勤华，陈鹏宇（2016）.学习分析视角下在线认知水平的评价模型研究[J].远程教育杂志，34（6）：39-45. [5] 高凌飚（2004）.过程性评价的理念和功能[J].华南师范大学学报（社会科学版），（6）：102-106+113-160. [6] 李爽，陈丽，郑勤华（2001）.基于网上教学的案例研究──对网络交互质量的分析[J].中国电化教育，（7）：54-57. [7] 上超望，韩梦，杨梅（2018）.基于大数据的在线学习过程性评价设计研究[J].现代教育技术，28（10）：94-99. [8] 孙洪涛，郑勤华（2016）.教育大数据的核心技术、应用现状与发展趋势[J].远程教育杂志，34（5）：41-49. [9] 孙洪涛（2012）.学习分析视角下的远程教学交互分析案例研究[J].中国电化教育，（11）：40-46. [10] 孙清兰（1992）.高频词与低频词的界分及词频估算法[J].中国图书馆学报，（2）：78-81+95-96. [11] 王志军，陈丽（2014）.联通主义学习理论及其最新进展[J].开放教育研究，20（5）：11-28. [12] 魏志慧，陈丽，希建华（2004）.网络课程教学交互质量评价指标体系的研究[J].开放教育研究，（6）：34-39. [13] 邢彪，根绒切机多吉（2018）.基于jieba分词搜索与SSM框架的电子商城购物系统[J].信息与电脑（理论版），（7）：104-105+108. [14] 熊秋娥（2005）.在线学习中异步社会性交互质量评价指标体系研究[D].南昌：江西师范大学. [15] 杨卫明（2010）.网络课程中交互质量研究[D].保定：河北大学. [16] Anderson, T. (2009). The dance of technology and pedagogy in self-paced distance education [DB/OL].（2013-6-23）[2019-6-105].http://hdl.handle.net/2149/2210. [17] Hawkes, M., Dennis, T. (2003). Support and assessing online interactions in higher education [J]. Educational Technology, 43(4):52-56. [18] Keegan, D. (1993). Reintegration of the teaching acts [M]//Keegan, D. (Ed) (1993). Theoretical principles of distance education. London: Routledge:113-134. [19] Laurillard, D. (2002). Rethinking university teaching: A conversational framework for the effective use of learning technologies [M]. London: Routledge. [20] Mckenzie, W., Murphy, D. (2000). “I hope this goes somewhere”: evaluating of an online discussion group [J]. Australian Journal of Educational Technology, 16(3):239-257. [21] Polhemus, L., Shih, L. F., & Swan, K. (2001). Virtual interactivity: The representation of social presence in an online discussion [R]. Paper presented at the annual meeting of the American Educational Research Association, Seattle: WA. [22] Roblyer, M.D., Wiencke, W.R. (2003). Design and use of a rubric to assess and encourage interactive qualities in distance courses [J]. The American Journal of Distance Education, 17(2):77-98. [23] Rourke, L., Anderson, T., Garrison, D. R., & Archer, W. (1999). Assessing social presence in asynchronous textbased computer conference [J]. Journal of Distance Education, 14(2):50-71. [24] Siemens, G. (2005). Connectivism: A learning theory for the digital age [J]. International Journal of Instructional Technology and Distance Learning, 2(1): 3-10. 邹沁含，北京师范大学教育学部教育技术学院本科生。研究方向：在线学习分析。庞晓阳，北京师范大学教育学部教育技术学院本科生。研究方向：在线学习分析。黄嘉靖，北京师范大学教育学部教育技术学院本科生。研究方向：在线学习分析。刘司卓，北京师范大学教育学部教育技术学院本科生。研究方向：在线学习分析。一、问题提出随着“互联网+”时代的到来，在线学习已经成为了当前的一种主流学习趋势，而在日益发展的在线学习中，存在大量的交互行为。交互是教育的本质，是影响在线学习效果的关键因素（熊秋娥，2005）。联通主义认为，交互是学习的核心与关键（王志军，陈丽，2014），是教与学再度整合的关键（Keegan，1993），知识源于各个实体的交互和连接的建立（王志军等，2014）。交互逐渐成为构成在线学习的关键因素（戴心来，王丽红，崔春阳，李玉斌，2015），占据举足轻重的地位，对在线学习中交互的研究有助于推动远程教育的发展。在线学习中，交互主要依赖于以文本为基础的同步或异步沟通（熊秋娥，2005），对交互文本的质量进行研究可以有效分析在线学习过程中的交互质量。在线学习环境中大量的教学交互特别是师生交互、生生交互，主要以论坛讨论的形式发生（冯晓英，郑勤华，陈鹏宇，2016）。论坛是在线学习中学习者与教师、其他学习者之间在线交流与知识共享的重要平台，在MOOCs中至关重要，是学习者在线学习过程的重要体现。文本是最普遍的交互载体。对论坛交互文本的质量分析可以帮助教师对学习者进行形成性评价，把握学生的学习情况，从而为其提供个性化的学习支持服务。但是，现阶段仍只有少量学者利用内容分析法对论坛交互文本质量进行研究，该方法主要通过人工来完成，十分耗时耗力，对研究者的能力要求较高（冯晓英等，2016）。因此，面对学生数量较大、发帖数量较多的MOOCs 课程，教师很难对论坛文本质量进行评判。基于以上情况，本研究采用学习分析的思路探索论坛交互文本质量的评价指标，并依据层次分析法，确定各指标的权重，最终构建出针对交互文本质量的评价模型，并以cMOOC 课程“‘互联网+’教育：理论与实践的对话”第二期为例进行了实践。该模型可以有效弥补当前对交互文本质量研究的不足，帮助教师更好地提供个性化指导和学习支持，及时把握学习者的学习进度和学习效果，并可以为MOOCs课程的最终评价提供一定的参考依据。二、文献综述（一）交互质量评价模型研究现状国内外对在线学习交互质量评价模型的主流研究思路是通过文献调研总结归纳出交互质量评价标准，再通过实证研究，检测某网络课程的在线交互质量，从而检验该模型的有效性。在已有研究中，对交互质量的评价主要集中在两方面，一是网络课程中在线交互质量的评价，二是论坛中社会性交互质量的评价。在网络课程中在线交互质量的评价研究中，较有代表性的是Roblyer和Wiencke（2003）的研究，该研究建构了以教师为中心的远程学习交互模式，从社会性交互的设计、交互的教学设计、技术资源的交互性、教师参与度、学生参与度五个维度来评价课程的在线交互质量，并通过访谈和实践进一步检验其信度和效度。Roblyer等人设计的量规主要面向远程教育课程，在课程内容、媒体形式、课程活动设计等方面比较宽泛。针对网络课程，Laurillard（2002）提出了一种会话模型，将教师、学习者、学习环境三方通过媒介进行交互的情况作为评价对象，评价了各种学习工具的交互性，以此考察该在线学习环境的优劣。该研究着重分析各学习工具，较少对教与学行为进行分析。杨卫明（2010）提出了网络教学的“主客体”交互模式，提出了网络课程交互的形成性评价指标体系，共分为七个维度，并应用德尔菲法来确立指标权重，再通过与已有的专家编制的交互质量评价体系实践结果进行比对确立该体系的有效性。但是，该研究所建构的指标体系描述较为笼统，缺少操作性定义，所设想的评价软件也未完成，无法为现如今的网络课程提供参考依据。魏志慧、陈丽和希建华（2004）提出了从媒体界面的交互性、学生和学习资源的交互等五个维度47个指标的网络课程教学交互质量模型，该研究将这些指标编制成李克特五点量表让学习者评定，并没有对课程材料、交互文本进行分析。在对论坛中社会性交互质量的评价的研究中，研究者主要集中于评价在线学习中学习者与学习者以及教师之间的社会性交互，对论坛文本质量的评价准则很大程度上取决于评价者评价的目的。Rourke、Anderson、Garrisont和Archer（1999）认为学生参与在线讨论形式的交互有利于批判性思维的发展，进而从激发物、知识扩展、知识整合和问题解决四个层次来评价论坛中学生交互时的批判性思维水平，以此来评判交互质量。Polhemus、Shih和Swan（2001）设计了一个有七项指标的评价方案对异步论坛中学生交互时社会存在进行了评价研究，发现社会存在对发展同学间和睦关系、增加学习团体凝聚力至关重要。Hawkes和Dennis（2003）认为在线交互中学习者反思性思维水平越高则在线交互质量越高，该研究从七个层次对学生论坛中的反思性交互水平进行评价。这些研究都着重分析了在线学习交互中的某一维度，未能反映学习者在论坛中社会性交互的整体质量。熊秋娥（2005）在建构主义学习理论的指引下提出了评价异步社会性交互质量的五个维度，但并未确定具体的操作性评价标准，并且，该研究并未对该模型进行实践。Mckenzie和Murphy（2000）从参与性、交互性、认知和元认知四个维度对学习者的讨论脚本进行内容分析，得出学习者交互质量高低。李爽、陈丽和郑勤华（2001）使用塞尔曼的观点采择能力发展模式，对学习者网上讨论的交互质量水平进行了研究。陈丽（2004）对在线讨论中社会性交互质量进行了较全面的评价，研究了交互中学习者的参与度及其他核心参与者并进行了内容分析。这几个研究通过文献分析、专家访谈等方法各自设计了独特的论坛社会性交互的评价方法，再结合某课程进行个案分析，其研究目的并不是对论坛社会性交互的模型进行构建后再通过实践不断打磨修改，而是着力于为部分网络课程提供指导性意见。（二）交互文本质量评价方式研究现状目前国内外对交互文本质量进行评价的方式主要有三种，即人工评价、机器评价和人工机器相结合的评价。人工评价是指用人工的方式对课程材料及交互内容进行读、听、看，并在此基础上进行人工编码及分析，最终做出评判的过程。机器评价指借助程序或软件对交互内容进行编码及分析，例如自然语言处理技术等。人工评价耗时长，过程繁琐，受评价者主观影响较大，但评价过程更加灵活；机器评价速度快，效率高，评价过程客观公正，但无法对个别特殊情况进行辨别，现有的自然语言处理技术还不能像人工分析一样准确。Roblyer等（2003）所提出的课程交互质量的评价量规主要依据人工评价进行实践，通过远程教育专家、教学人员以及学生对具体课程进行评价。熊秋娥（2005）在构建了评价异步社会性交互质量的模型后，建议在实践的时候以两位编码者同时进行人工编码的方式进行。李爽等人的研究中采用的是人工观察的方式（2001）。孙洪涛（2012）使用机器评价的方式，基于社会网络分析法和内容分析法，对学习者行为数据进行分析，得出学习者的交互中心。戴心来、王丽红、崔春阳和李玉斌（2015）采用人工和机器相结合的评价方式，两位评判员对论坛帖子共同进行筛选、整理和编码，并采用分析工具SNAPP和UCINET对网络课程的社会性交互进行研究。现如今，自然语言的处理的技术还未成熟，还存在不合理分词、语义理解错误等等细节问题，机器和人工相结合的评价方式可以在一定程度上弥补人工评价的不足，提高评价效率，降低机器评价的错误率，提高评价的针对性，提高评价结果的质量。三、理论模型与数据模型（一）联通主义指导下的网络课程由乔治·西蒙斯提出的联通主义学习理论是互联网时代下非常重要的学习理论。基于联通主义开设的开放网络课程所提供的学习内容只是学习者们交互的起点，学习者通过交流贡献更多的内容，共同营造复杂的网络（王志军等，2014）。学习存在于学习者与内容互动时所留下的批注、评论等内容中（Siemens，2005）。交互在学习过程中是非常重要的，而论坛文本正是交互发生的主要载体，对交互文本质量的评价是对整个在线学习过程评价的重要组成部分。根据现有的在线学习环境的特点，对交互文本质量的评价可以从帖子被浏览、被回复、被点赞、被收藏这四个方面进行评价。在联通主义指导的网络课程中，学习的过程不仅仅存在于观看专家教师直播的视频，还发生在与其他学习者进行讨论交流的过程中。专家教师直播的内容与学习者进行讨论交流的内容并不一定会完全一致。因此在分析联通主义理论指导的网络课程的论坛文本质量时，不仅仅要考虑该文本与专家教师直播视频内容的关系，即与直播视频内容匹配程度，还需要考虑该文本与其他学习者的发帖内容之间的关系，即与所有帖子内容匹配程度。（二）数据模型基于联通主义学习理论，本研究提出以下数据模型。图1 交互文本质量数据模型层次图表1 交互文本质量层次结构模型社会性交互B1交互文本质量评价模型被浏览次数B11被回复次数B12被点赞次数B13被收藏次数B14知识建构层次B2与直播视频内容匹配程度B21与所有帖子内容匹配程度B22（三）cMOOC 论坛交互文本质量评价模型层次分析法（Analytic Hierarchy Process）是由美国运筹学家Saaty于 20 世纪 70 年代提出的一种定性分析和定量分析相结合的系统分析方法（邓雪，李家铭，曾浩健，陈俊羊，赵俊峰，2012）。在本研究中，决定论坛文本质量的因素繁多，而各个因素之间并不是同等重要的。本研究意图通过层次分析，使用特征向量计算方法，得到评价论坛文本质量时各个因素的权重。本研究根据层次分析的理论模型设计问卷，并向8 位北京师范大学知名的cMOOC课程研究设计的专家学者发放调查问卷。通过对调查问卷的收集与整理，依据托马斯·塞蒂的“1-9标度法”，对专家的比较判断矩阵打分结果进行统计分析。由此，可以获得专家关于cMOOC 论坛文本质量评价模型的指标的分别得分情况，即专家评分。再通过对指标体系中各级指标相对于总目标权重的计算，最后得出指标体系的合成权重，如表2所示。表2 交互文本质量评价指标体系的合成权重准则层B1 B2 各指标相对总目标的权重0.3333 0.6667 B11 0.0562 0.0187 B12 0.2808 0.0936 B13 0.1149 0.0383 B14 0.5480 0.1826 B21 0.8000 0.5334 B22 0.2000 0.1333指标层由于准则层和知识建构层次维度都是由两个指标组成，所以不需要进行一致性的检验。对社会交互性的指标层一致性检验情况如下。由于C.R=0.0581/0.9=0.0646＜0.1，即该矩阵保持显著水平，对比矩阵是保持一致的，总排序结果具有满意的一致性。四、研究设计与方法（一）研究对象本研究以cMOOC 课程“互联网+教育：理论与实践的对话”第二期为实践对象，大量教育技术领域的学习者、研究者、实践者参与了该课程。本课程以联通主义理论作为基础而开发，关注于教育信息化的新阶段：“互联网+”教育，从理论和实践两个视角来深入讨论并交流如何利用互联网推动教育变得更好。本课程分为五个主题开展，学习者的学习形式包括观看每周六位专家教师直播的视频，以及随时随地与其他课程参与者讨论交流。此外，课程平台为学习者提供了良好的互动交流空间，在观看直播之后，学习者们可以撰写博客、案例、资源，并对上述这些种类的帖子进行浏览、评论、点赞、收藏的操作，还可以针对特定话题发表观点或回复他人。通过开展丰富的学习活动以及提供充足的学习支持服务，该课程旨在帮助学习者系统地、深入地理解“互联网+”教育，构建起“互联网+”教育的知识网络。本研究选取的是该课程在2019年3月20日至4月16日之间所产生的数据，共包含两个主题的学习，分别是“‘互联网+’教育的哲学基础”以及“线上线下学习空间融合”。按照课程的安排，3月20日至4月2日是主题一的学习时间，共产生了两次专家教师直播的视频，以及共计825条周报、活动、博客、案例、资源、话题数据。2019年4月3日至4月16日是主题二的学习时间，共产生两次专家教师直播视频，以及 398 条周报、活动、博客、案例、资源、话题数据。其中周报、活动与话题都是由课程的主办方设置的导学者所创设或者引导的，博客、案例、资源是体现学习者们讨论交流的主要内容。（二）研究内容本研究基于联通主义学习理论，运用层次分析的方法，提出了交互文本评价模型，并运用特征向量法计算出各指标的权重，再将该模型实践于cMOOC 课程“‘互联网+’教育：理论与实践的对话”中，由此展开讨论与分析。（三）关键概念的操作化定义社会性交互指学员在MOOC学习过程中与他人的交流互动，包括浏览帖子、点赞帖子、收藏帖子、回复帖子这四种行为。对于每一个帖子来说，该帖子的社会性交互质量分为四个维度来评估，即被浏览、被点赞、被收藏、被回复的次数。每个帖子的知识建构层次分为两个维度来评估：与直播视频内容匹配的程度和与所有帖子内容匹配程度。将专家教师的直播视频内容转化为文本材料，进行高频关键词的提取以及人工处理，获得关键词集。将每一个帖子进行分词处理，比对该帖子中提到关键词集中词语的次数，该次数即为该帖子与直播视频内容的匹配程度。对筛选后所有帖子的文本集合进行高频关键词的提取以及人工处理，获得关键词集。将每一个帖子进行分词处理，比对该帖子中提到关键词集中词语的次数，该次数即为该帖子与所有帖子内容的匹配程度。（四）数据处理说明及量化方法1.论坛文本的筛选根据 cMOOC课程“‘互联网+’教育：理论与实践的对话”第二期的特点，博客、案例、资源是体现学习者们讨论交流的主要内容，并且每一条数据也就是每一条论坛文本都有publish（已发布）、draft（草稿）、trash（回收站）、pending（待审核）四种状态。根据本研究的需要，选择类别为博客、案例、资源，且状态为 publish（已发布）的论坛文本。最终在主题一选取197 个论坛文本，主题二选取202 个论坛文本。2.关键词集的构建本研究所选择的 MOOC 课程是分主题开展的，每个主题间的内容有些许差异，围绕的重点不同，因此构建关键词集以及评价论坛文本质量都是分主题进行的。1）直播视频内容对应的关键词集每个主题有两次专家教师直播的视频，总计约为 4 小时，将该视频通过讯飞听见转录成文本材料。讯飞听见的识别准确率高达 95%+，但由于该课程视频内容存在较多学术名词，并且部分专家教师有口音，导致讯飞听见转录的结果存在一定的错误，由此研究者们对文本材料进行了人工校对。再通过精确模式的结巴分词，将文本材料中的句子精准切分开（邢彪，根绒切机多吉，2018），并统计词频。借用孙清兰提出的高频词低频词界分公式（1）（孙清兰，1992），其中D代表不同关键词的个数，经排除无意义关键词后，得到了高频关键词集。通过分词统计词频获得的高频关键词多为一些常用词，虽然这些词语与教学内容息息相关，但是却缺少非常重要的一些学术专有名词，不能全面深入地反应专家教师直播的视频的内容，影响对论坛文本质量评价的结果。因此，本研究根据专家教师直播视频中的主题以及所给参考文献，在中国知网上查找相关的文献，按照被引数选择前 100 篇文献（部分关键词文献数量不足 100），再通过 CiteSpace 做共现关键词网络分析，将节点数大于 2 的关键词纳入直播视频内容对应的关键词集中。最终确定主题一直播视频内容对应关键词集共有105 词，主题二有119 词。2）所有帖子内容对应的关键词集通过精确模式的结巴分词，将每个主题筛选过后的所有论坛文本进行分词处理，并统计词频，再根据上述高频词低频词界分公式（1）得到高频词数量，再通过人工排除无意义关键词确定高频关键词集。主题一所有帖子内容对应的关键词集共有87 词，主题二有102 词。3.实现计算匹配程度匹配程度即某一帖子中提到关键词集中词语的次数，为计算匹配程度，本研究自行编写 Python 程序，经过预实验发现该程序计算效果良好，准确无误。通过该程序，将筛选后每一论坛帖子与关键词集进行匹配，得到了每一帖子与直播视频内容匹配程度以及与所有帖子内容匹配程度。五、研究结果根据本研究构建的交互文本质量评价模型，计算得到“‘互联网+’教育：理论与实践的对话第二期”课程中学习者在主题一、主题二学习时间内所发表的每一个帖子的相对质量。主题一经过筛选得到197个帖子，主题二经过筛选得到的202个帖子。所有学习者在主题一时间内共发表197个论坛帖子，其论坛文本质量的描述性统计见表3。表3 第二期主题一论坛文本质量的描述性统计统计维度值个案数有效 197缺失 0平均值 0.0000中位数 -0.1854标准差 0.7340范围 4.1139最小值 -0.8984最大值 3.2155所有学习者在主题一时间内共发表202个论坛帖子，其论坛文本质量的描述性统计见表4。表4 第二期主题二论坛文本质量的描述性统计统计维度值个案数有效 202缺失 0平均值 -0.0054中位数 -0.1757标准差 0.7658范围 8.5475最小值 -0.6716最大值 7.8760（一）论坛文本质量分布根据上述主题一、主题二所有论坛文本质量的数据，利用SPSS绘制直方图，观察其分布情况。1.主题一从图2中可知，主题一论坛文本质量水平呈正偏态分布，说明相对低质量的论坛文本占据所有文本的大部分，而相对高质量的论坛文本占比很少。2.主题二从图3可知，主题二的论坛文本质量呈十分接近正态分布的正偏态分布，说明相对低质量的论坛文本虽然多于相对高质量的论坛文本，但差距比较小。论坛文本质量呈现正偏态分布，整体质量偏低，可能是由以下原因造成的。图2 主题一论坛文本质量分布图3 主题二论坛文本质量分布参与“‘互联网 +’教育：理论与实践的对话第二期”课程的学习者背景参差不齐，该课程学习者不仅有教育技术学专业的教师、研究生和本科生，也有很多“互联网+”教育行业的实践者，同时也有其他专业的学生或社会人员，这导致了学习者对知识的理解和应用存在差异。这种差异虽然是学习者进行多角度学习的重要途径，但也可能导致各种不同背景的学习者在论坛交互不够有效。其次，部分社会人员的参与，意味着部分学习者没有固定的时间投入到课程中，对于每周六的直播课程和论坛讨论，部分学生可能只是观看每周的文字总结或教师的演示文稿内容而已，但是很多的直播课重点都在教师的口头的表达中，这会导致学习者发布的帖子内容不能够与教师直播课内容相匹配，导致很多的帖子质量偏低。该cMOOC课程要求学习者论坛交互达到一定数量，才可获得结业证书，其具体要求包括：每个主题至少编撰一篇博客，或分享一个相关资源与案例；每个主题有2次以上的深度讨论（评论他人+被回复1次+被点赞3次）。从中可以看出该课程对于每个主题的深入讨论的要求较低，很多学习者为了结业证书只完成最低要求的深度讨论，这会导致很多帖子的社会交互性的相关指标较低，相对质量也较低。该课程的管理者会对学习者编撰的博客、资源或案例进行审核，以剔除无意义帖子，但该评判过程并未公开具体要求，依靠的是管理者的主观判断。为了不打消学习者积极性，很多与该时段主题匹配程度较低的帖子，只要其内容有意义，就会被课程管理者识别为质量通过，这会导致很多帖子知识建构层次的相关指标较低，相对质量也较低。此外，很多单纯想要结业证书的学习者集中在课程即将结束时发布所有主题的帖子并补足深度讨论，导致本研究在课程中期收集到的论坛文本数据并不是全体数据。该课程要求学习者填写发布自我介绍，以便大家找到志同道合者，很多的学习者会关注与自己背景相仿的或者在这个领域有权威的其他学习者。因此在课程学习过程中，存在有些学习者只与自己关注的人在论坛中交互的现象，导致有些学习者的帖子缺乏关注，缺乏社会性交互，相对质量也偏低。（二）论坛文本实例比较本研究将相对论坛文本质量在平均值+/-标准差的区间内的帖子定义为中质量，而低于这个区间的帖子定义为低质量，高于这个区间的帖子定义为高质量。主题一包含17份低质量帖子、156份中质量帖子、24份高质量帖子。主题二包含0份低质量帖子、190份中质量帖子、12份高质量帖子。每个主题分别选取相对高中低质量的三个帖子进行人工审核。1.主题一“互联网+”教育的哲学观低质量：选择帖子质量为-0.476的博客：也谈互联网的“开放性”。本文提出了一个问题：我们在互联网所看到的信息是否因为基于大数据、云计算的推荐功能变得更加封闭、有限？针对这个问题，有3位学者在评论区表达了自己的意见，并在与发帖人的讨论中得出了该问题的一个可能性答案。中质量：选择帖子质量为0.0356的文章《“互联网+”推动教育变革的案例分享——以华文教育技术为例》该帖子介绍了在“互联网+”教育的大背景下，教育技术行业逐渐兴起，一系列针对学习的设备和APP逐渐受到重视，教育从传统的教师讲授变为信息互通的自主学习的过程，并着重介绍了华文教育的技术：华文教育从语音、汉字、词汇、语法四个方面，带动学生进行听说读写，并运用文字、图像、音频、视频等多媒体技术加强学生的学习趣味性和能动性。同时，本文以《小学华文》新教材的使用案例、“华文一百分”自我测评软件两个案例详细介绍了“互联网+”推动教育变革的具体实践。高质量：选择帖子质量为2.3427的文章：学习支持服务案例——成都七中网校远程教学。该帖子详细介绍了成都七中网校远程教学的实践概况以及该项目对老师、学生、学校和地区的影响，并从自身角度出发，总结了该项目理论思想、所满足的教育需求、核心思路和实际效果。对比这三个帖子可以发现，高质量的帖子列点明确，在紧扣主题的过程中，不仅分享了一些高质量的学习资源，同时总结归纳了自己的观点。中质量的帖子整篇帖子图文结合，分享了与主题紧密相关的案例，而低质量的帖子只是针对主题提出了自己的问题，缺乏材料的支撑和自己独到的见解，但引发了他人的讨论。所以对这三个不同层次的帖子来说，高质量的帖子的确明显比中质量、低质量的帖子的文本内容更加充实。2.主题二线上线下空间融合主题二没有低质量帖子。中质量：选择帖子质量为-0.0388的文章《“一起小学”APP》。该帖子详细介绍了小学英语同步学习“一起小学”APP的基本功能。高质量：选择帖子质量为1.1471的文章《Classin：空间或场景思维，打破线上线下阻隔》该帖子详细介绍了Classin平台，阐述了为什么要提倡线上教育、在线教育的发展模式、空间时代和未来发展。从这两个帖子的对比中可以得出，两种质量的帖子都紧扣主题，且都分享了一个相关的案例，但是高质量的帖子更加详细具体，且在展示案例的同时阐述了自己独到的观点。经过人工审核发现，低质量的帖子确实有不足之处，高质量的帖子确实有很大优点，说明本研究所构建的交互文本质量评价模型效果良好。六、讨论和建议（一）cMOOC的过程性评价指标过程性评价是新课程改革中的重点（高凌飚，2004），该评价既重视学习成果的判断，也重视学习过程对学习质量水平的影响，是学习动机、过程和效果三位一体的评价（上超望，韩梦，杨梅，2018）。在MOOCs中不仅存在测验、成绩、学分等结构化数据，也存在很多非结构化数据，例如学习者发帖内容、评论内容等。特别是基于联通主义的cMOOC，以自组织的形式开展，强调知识的分享和传递、学习者间的交互，教与学的方式发生了很大变化，如果依然采用传统评价方式中的标准化成绩衡量学习者的学习成果是不全面的，应该重视课程中产生的非结构化数据，重视学习过程的重要作用。论坛内容是MOOCs学习过程中的重要数据，对论坛文本质量的评价是MOOCs过程性评价的重要组成部分。本研究构建了cMOOC论坛文本质量评价模型，从社会性交互数据和知识建构层次两方面对论坛的文本质量进行评价，并经初步实践检验，该评价模型的效果良好。该模型中的社会性交互数据“被回复数”“被点赞数”“被收藏数”“被浏览数”和知识建构层次数据“与教师直播视频内容匹配度”“与其他帖子内容匹配度”可以纳入MOOCs的过程性评价指标。需要强调的是，本研究层次分析结果表明，在评价“互联网+教育：理论与实践的对话”第二期课程论坛文本质量时，专家认为知识建构层次数据要比社会性交互数据更能反映出文本质量的高低。对于这门课来说，对学习者学习过程和效果的评价，不能过分关注学习者发布论坛的“被点赞数”“被回复数”等极为简单和表象的数据，应该更重视论坛内容的质量，提高其在评价过程中的权重。不同的MOOCs课程组织形式、内容、参与的学习者等各方面都存在一定差异，在应用该评价模型时，应该根据具体情况，有针对性地对各个评价指标体系进行再次赋权，不能一概而论。课程的管理组织者可以依据具体内容和学习目标对学习者提出较为明确的要求，如论坛内容必须要有自己新颖的观点和看法，或进行量化指标的要求，如论坛至少被点赞1次、被回复3次等，这些量化指标在一定程度上也可以督促学习者提升自己论坛内容的质量。同时，明确的评价规则可以有效激励和引导学习者更好地参与到课程交互过程中，并帮助学习者提升认知水平（孙洪涛，郑勤华，2016）。（二）人工作用的不可替代性在本研究的初始阶段，在对“互联网+教育：理论与实践的对话”第二期课程进行分析时，我们曾尝试用机器直接获取教师直播视频中出现的高频词，在筛选后作为每个学习主题的关键词，但结果不尽人意。经过与教师的直播视频进行比对，我们发现机器获取的高频词并不能很好地概括教师讲课的内容，更不能做到与课程主题高相关性，例如在获取的高频词集中，诸如“教育”“学习”“知识”等中性词的频次非常高，而相较之下，与主题密切相关的“联通主义”“寻径”“意会”等词的频次很低，原因可能在于该课程中绝大部分学习者对所学内容都有一定了解，教师不需要在直播教学中对某些与主题相关的关键词进行多次强调，或者由于某些关键内容在教师的PPT中呈现，在对教师视频进行语音转录时忽略了这部分内容。因此，本研究重新考虑了人工作用，参考主题相关领域优质文献进行关键词集的提取，并进行人工筛选，保障了该研究使用的关键词集与课程主题和内容均具有较强的相关性。大数据近年来发展迅速，对各行各业产生了巨大影响，教育大数据也对教育发展与变革起到重要作用。但与电子商务、交通等领域相比，教育大数据在数据构成上有很大不同，音视频等非结构化数据占比很大，这些非结构化数据记录了教学活动、资源等，具有高度的复杂性（Anderson，2009）。目前看来，机器在面对结构化数据时，拥有超强的处理能力，无论速度还是质量都可以远超人类，但对于教育领域的非结构化数据来说，机器在处理复杂的师生关系、教学资源交互、灵活多变的教学过程、教与学过程中产生的各类质性数据时，不能进行非常准确的分析和判断。因此，在对教育大数据进行分析处理时，我们不能过度依赖机器处理，要有人工的介入，特别是要借助教育领域专家的作用。七、研究局限与展望（一）数据获取的限制性本研究采用“互联网+教育：理论与实践的对话”第二期课程网站上产生的数据，但该课程除课程网站外还设有微信交流群，而本研究忽略了在微信群中的社会性交互数据，仅考虑了网站平台内部的数据集。未来如果客观条件允许，对于MOOCs课程社会性交互的评价还可以获取网站平台外的交互数据，甚至线下交流的数据，更为全面地评价交互文本的质量。（二）模型验证不够充分MOOCs包含cMOOC和xMOOC，但本研究受时间等资源的限制，仅使用一门cMOOC课程的数据来验证构建出的交互文本质量评价模型的有效性，数据样本较小，覆盖面不够广泛。日后可以采集更多课程的数据样本，继续修改和完善该评价模型。参考文献[1] 陈丽（2004）.网络异步交互环境中学生间社会性交互的质量——远程教师培训在线讨论的案例研究[J].中国远程教育，（13）：19-22+78.[2] 戴心来，王丽红，崔春阳，李玉斌（2015）.基于学习分析的虚拟学习社区社会性交互研究[J].电化教育研究，36（12）：59-64.[3] 邓雪，李家铭，曾浩健，陈俊羊，赵俊峰（2012）.层次分析法权重计算方法分析及其应用研究[J].数学的实践与认识，42（7）：93-100.[4] 冯晓英，郑勤华，陈鹏宇（2016）.学习分析视角下在线认知水平的评价模型研究[J].远程教育杂志，34（6）：39-45.[5] 高凌飚（2004）.过程性评价的理念和功能[J].华南师范大学学报（社会科学版），（6）：102-106+113-160.[6] 李爽，陈丽，郑勤华（2001）.基于网上教学的案例研究──对网络交互质量的分析[J].中国电化教育，（7）：54-57.[7] 上超望，韩梦，杨梅（2018）.基于大数据的在线学习过程性评价设计研究[J].现代教育技术，28（10）：94-99.[8] 孙洪涛，郑勤华（2016）.教育大数据的核心技术、应用现状与发展趋势[J].远程教育杂志，34（5）：41-49.[9] 孙洪涛（2012）.学习分析视角下的远程教学交互分析案例研究[J].中国电化教育，（11）：40-46.[10] 孙清兰（1992）.高频词与低频词的界分及词频估算法[J].中国图书馆学报，（2）：78-81+95-96.[11] 王志军，陈丽（2014）.联通主义学习理论及其最新进展[J].开放教育研究，20（5）：11-28.[12] 魏志慧，陈丽，希建华（2004）.网络课程教学交互质量评价指标体系的研究[J].开放教育研究，（6）：34-39.[13] 邢彪，根绒切机多吉（2018）.基于jieba分词搜索与SSM框架的电子商城购物系统[J].信息与电脑（理论版），（7）：104-105+108.[14] 熊秋娥（2005）.在线学习中异步社会性交互质量评价指标体系研究[D].南昌：江西师范大学.[15] 杨卫明（2010）.网络课程中交互质量研究[D].保定：河北大学.[16] Anderson, T. (2009). The dance of technology and pedagogy in self-paced distance education [DB/OL].（2013-6-23）[2019-6-105].http://hdl.handle.net/2149/2210.[17] Hawkes, M., Dennis, T. (2003). Support and assessing online interactions in higher education [J]. Educational Technology, 43(4):52-56.[18] Keegan, D. (1993). Reintegration of the teaching acts [M]//Keegan, D. (Ed) (1993). Theoretical principles of distance education. London: Routledge:113-134.[19] Laurillard, D. (2002). Rethinking university teaching: A conversational framework for the effective use of learning technologies [M]. London: Routledge.[20] Mckenzie, W., Murphy, D. (2000). “I hope this goes somewhere”: evaluating of an online discussion group [J]. Australian Journal of Educational Technology, 16(3):239-257.[21] Polhemus, L., Shih, L. F., & Swan, K. (2001). Virtual interactivity: The representation of social presence in an online discussion [R]. Paper presented at the annual meeting of the American Educational Research Association, Seattle: WA.[22] Roblyer, M.D., Wiencke, W.R. (2003). Design and use of a rubric to assess and encourage interactive qualities in distance courses [J]. The American Journal of Distance Education, 17(2):77-98.[23] Rourke, L., Anderson, T., Garrison, D. R., & Archer, W. (1999). Assessing social presence in asynchronous textbased computer conference [J]. Journal of Distance Education, 14(2):50-71.[24] Siemens, G. (2005). Connectivism: A learning theory for the digital age [J]. International Journal of Instructional Technology and Distance Learning, 2(1): 3-10. 邹沁含，北京师范大学教育学部教育技术学院本科生。研究方向：在线学习分析。庞晓阳，北京师范大学教育学部教育技术学院本科生。研究方向：在线学习分析。黄嘉靖，北京师范大学教育学部教育技术学院本科生。研究方向：在线学习分析。刘司卓，北京师范大学教育学部教育技术学院本科生。研究方向：在线学习分析。

文章来源：学习论坛网址: http://xxlt.400nongye.com/lunwen/itemid-16884.shtml

上一篇： 暂无
下一篇： 安全科学与灾害防治论文_观看量620万，吸引力来自哪儿

点击在线投稿