除了背诵:文本生成器可能抄袭以外的“复制粘贴”| Psychreg

引用这

Psychreg新闻团队,(2023年2月16日)。除了背诵:文本生成器可能剽窃超出“复制和粘贴”。Psychreg教育和学习。//www.mums-channel.com/beyond-memorisation-text-generators-may-plagiarise-beyond-copy-paste/

阅读时间:3分钟

学生可能会三思而后行使用聊天机器人来完成他们的下一个任务。语言模型,生成文本响应用户提示剽窃内容以不止一种方式,根据潘国家主导的研究团队,研究首次直接进行检查的现象。

说:“剽窃有不同口味Dongwon李教授,宾夕法尼亚州立大学信息科学和技术。“我们想看看语言模型不仅复制粘贴,诉诸于更复杂的形式的剽窃而没有意识到这一点。”

研究人员专注于识别三种形式的剽窃:逐字,或直接复制粘贴的内容;套用或说辞和重组的内容没有引用原始来源;使用的主要思想和想法,或从文本没有适当的归因。他们建造了一个管道自动剽窃检测和测试它对OpenAI GPT-2因为语言模型的在线训练数据可用,允许研究人员比较生成的文本800万文档用于pre-train GPT-2。

210000年科学家们使用生成的文本检测剽窃pre-trained语言模型和调整语言模型或模型训练进一步专注于特定的主题区域。在这种情况下,团队调整三种语言模型专注于科学文档,COVID-19相关学术文章和专利索赔。他们使用一个开源搜索引擎检索十大培训文档最接近每个生成的文本和修改现有的文本对齐算法更好地逐字的检测实例,解释和剽窃。

研究小组发现,语言模型提交所有三种类型的剽窃和更大的数据集和参数用于训练模型,剽窃行为发生的次数也越多。他们还指出,调整语言模型减少逐字剽窃抄袭,但增加的复述实例和想法。此外,他们发现了语言模型的实例暴露个人的私人信息通过这三种形式的剽窃。研究人员将现在他们的发现在2023年ACM Web会议,发生30日4月30日至5月4日在奥斯汀,德克萨斯州。

“人们追求大型语言模型,因为模型变得越大,发电能力增加,”作者Jooyoung Lee说,他是一个博士生在宾夕法尼亚州立大学信息科学与技术学院。“与此同时,他们是危害的创意和创造力训练语料库中的内容。这是一项重大发现。”

该研究凸显了需要更多研究文本生成器和他们带来的伦理和哲学问题,根据研究人员。

“尽管输出可能有吸引力,和语言模型似乎可以有趣和富有成效的某些任务,这并不意味着他们是实用,”泰国勒说,计算机和信息科学助理教授在密西西比大学开始在宾夕法尼亚州立大学博士生项目。“在实践中,我们需要照顾的伦理和版权问题文本发电机构成。”

尽管研究结果只适用于GPT-2,自动剽窃检测过程,研究人员建立了可以应用于新的语言模型像ChatGPT来确定这些模型和频率剽窃培训内容。检测剽窃,然而,取决于开发人员训练数据公开访问,研究人员说。

当前的研究可以帮助人工智能研究人员构建更健壮,可靠和负责任的语言模型在未来,据科学家。现在,他们敦促个人行使谨慎使用文本时发电机。

“人工智能研究人员和科学家们正在研究如何使语言模型更好、更强劲,与此同时,许多人在日常生活中使用语言模型对各种生产力的任务,”陈京辉说,宾夕法尼亚州立大学的助理教授信息科学和技术。“虽然利用语言模型作为一个搜索引擎或堆栈溢出来调试代码可能就行,其他的目的,由于语言模型可能产生抄袭内容,它为用户可能会导致负面影响。”

抄袭的结果不是出乎意料,Dongwon李补充道。

“作为一个随机的鹦鹉,我们教语言模型来模拟人体作品没有教他们如何不正常剽窃,”他说。“现在,该教他们写更恰当,我们还有很长的路要走。”