6分钟读|《网络心理学

人工智能现在可以预测学生的教育成果基于tweet

引用这
(2020年10月22日)。人工智能现在可以预测学生的教育成果基于tweet。在《网络心理学Psychreg。//www.mums-channel.com/educational-outcomes-based-on-tweets/
阅读时间:6分钟

伊凡斯米尔诺夫,实验室的研究员计算社会科学研究所的HSE教育大学,创造了一个计算机模型,该模型可以区分高从低的基于他们的学术成就社交媒体职位。预测模型使用数学文本分析,注册用户的词汇表(它的范围和概念的语义领域),字符和符号,文章长度和长度。

每一个字都有自己的评级(一种智商)。科学和文化主题,英语单词,词汇和文章排名很靠前的时间长和作为的良好指标学业成绩。丰富的emojis,单词或短语用大写字母写的,和词汇与星座有关,开车,和军事服务显示在学校低年级。与此同时,文章可以很短;甚至微博相当丰富。的研究由俄罗斯科学基金会的资助支持(RSF),和一篇文章详细介绍了该研究的结果发表在EPJ科学数据。

斯米尔诺夫的研究使用了一个代表性样本数据从HSE大学纵向队列研究小组的研究,教育和职业轨迹(TrEC)。这项研究跟踪的职业道路42俄罗斯地区的4400名学生从高中参加PISA(国际学生评估项目)。关于学生的研究数据还包括数据VK账户(3483的学生参与者同意提供这些信息)。

因为这类数据,结合数字痕迹,是很难获得,这几乎是从未使用过,“斯米尔诺夫说。与此同时,这种数据集允许您开发一个可靠的模型,该模型可以应用于其他设置。结果可以外推到其他学生,高中学生和中学生。

文章从公开可见的VK页面被用作训练样本;这包括从2468年共有130575个帖子主题2012年PISA测试。测试允许研究人员来评估一个学生的学术能力以及他们在实践中应用知识的能力。这项研究只包括公开可见VK的参与者的帖子。

在开发和测试模型从PISA测试,只有学生的阅读成绩被用作学术能力的指标,虽然总共有三种测试:阅读、数学和科学。PISA阅读素养的定义是“理解、使用、反思和与书面文本为了实现一个人的目标开发一个人的知识和潜力,参与到社会活动中去。的考试有六个熟练水平。学生得分2被认为只能满足基本的最低水平,而那些得分5或6被认为是强有力的学生。

在这项研究中,非监督机器学习与词向量表示进行VK post语料库(共计19亿字,250万个独特的单词)。结合一个简单的监督机器学习模型在个人立场和教训练预测PISA成绩。

“我们代表300维向量的每个帖子平均超过所有的单词组成的向量表示,“斯米尔诺夫写道。这些被用来训练后表示线性回归模型预测PISA成绩帖子的作者。”

“预测”,研究者并不指未来的预测,而是计算结果之间的相关性和真正的PISA考试分数的学生获得,以及他们使用分数(即网上公开的聚合形式。,每个学校平均成绩)。在初步阶段,学习了如何预测比萨数据模型。在最后的模型,计算反对使用检查结果的高中毕业生和大学进入者。

最终的模型应该是能够可靠地识别是否强学生还是弱的学生写了一个特定的社会媒体发布,或者换句话说,区分受试者根据他们的学业成绩。训练阶段结束后,该模型能够区分所写的文章上的学生得分高或低比萨(5 - 6水平和级别0 - 1)与93.7%的准确性。至于比萨的可比性和使用,虽然这两个测试不同,研究表明,学生的成绩的两个测试相互一一对应。

使用比萨数据训练模型,我们研究了预测和真正的PISA成绩之间的相关性(在TrEC的研究),“斯米尔诺夫解释道。的使用情况变得更加复杂:因为模型不知道任何关于统一考试,它预计PISA成绩。但如果我们假设使用和比萨测量同一件事——学业成绩——然后预测PISA的结果越高,使用结果应该越高。’,这一事实模型学会预测一件事,可以预测另一个本身很有趣,斯米尔诺夫笔记。

然而,这也需要验证,那么该模型应用于914年俄罗斯高中(位于圣彼得堡,萨马拉托木斯克;这组包括近39000用户创造了110万个岗位)和一百年俄罗斯最大的大学(115800人;650万的帖子)来衡量学生的学业表现在这些机构。

原来的预测学业成绩密切相关,用分数,“斯米尔诺夫说。之间的相关系数是0.49和0.6。在大学的情况,当预测学业成绩和使用大量的应聘者比较(HSE信息正在进行的大学招生质量监控研究),那么结果也展示了一种强烈的联系。的相关系数为0.83,显著高于高中,因为有更多的数据。

但该模型可以应用于其他社交媒体网站吗?“我检查会发生什么,而不是VK的帖子,我们给模型所写的微博用户,“斯米尔诺夫说。“原来模型的质量没有显著减少。但因为足够数量的Twitter账户只能为大学数据集(2836),只在这组执行的分析。

成功是很重要的模型工作在数据集不同的社交媒体网站,如VK和Twitter,从而证明是可以有效的在不同的上下文中。这意味着它可以应用广泛。此外,该模型可以用来预测截然不同的特点,从学生学业成绩的收入或抑郁。

斯米尔诺夫的研究使用了一个代表性样本数据从HSE大学纵向队列研究小组的研究,教育和职业轨迹(TrEC)。这项研究的职业道路42俄罗斯地区的4400名学生从高中参加PISA(国际学生评估项目)。关于学生的研究数据还包括数据VK账户(3483的学生参与者同意提供这些信息)。

词向量表示,嵌入或词,是一个固定大小的数值向量描述了一些功能的一个词或序列。嵌入通常用于自动化的文字处理。斯米尔诺夫的研究,fastText系统因为它是特别有利于使用俄语文本。

结果

首先,斯米尔诺夫强调一般帖子的文本特征与它们的作者的学术表现。资本的使用单词(-0.08),emojis(-0.06),和感叹词(-0.04)被发现与学业成绩负相关。使用拉丁字符,平均和字长,词汇量大小和熵用户的文本,另一方面,积极发现与学业表现(分别从0.07到0.16)。

也证实,不同层次的学生的学业表现有不同的词汇范围。斯米尔诺夫探索得到的模型通过选择400个单词出现的最高和最低分数至少5次训练语料库。主题确定了集群和形象化。

分数最高的集群(橙色)包括:

  • 英语单词(上面说,你必须);
  • 文学相关的词汇(例如布拉德伯里,华氏度,奥威尔,赫胥黎,福克纳,纳博科夫,布罗斯基,加缪,Mann);
  • 阅读相关概念(阅读、出版书籍、体积);
  • 与物理学相关术语和名称(宇宙、量子理论,爱因斯坦,牛顿,霍金);
  • 语言与思维过程(思维、记忆)。

分数较低的集群包括拼写错误的单词,受欢迎的电脑游戏的名字,军事服务的相关概念(陆军,誓言,等等),星座(白羊座、射手座),和文字有关的驾驶和交通事故(碰撞、交通警察、轮子、调优)。

斯米尔诺夫计算的系数向量模型的250万字,可用于进一步的研究。有趣的是,甚至单词,很少发现在训练数据集可以预测学业成绩。例如,即使这个名字“纽特”(如《哈利·波特》人物,纽特Scamander)从来没有出现在训练数据集,该模型可能会分配一个更高等级的帖子包含它。这将发生如果模型学习单词的小说系列所使用的高分学生,而且,通过无监督学习,“直觉”这个名字“纽特”属于这个类别(即词与其他概念密切位于从哈利波特在向量空间)。


Psychreg目的主要是为信息;材料在这个网站不是为了替代专业建议。不要忽视专业建议或延迟寻求治疗,因为你读过这个网站。阅读我们的完整的免责188博金宝体育声明

Baidu
map