3分钟读|学术界

新闻发布会上

这个工具可以从文本中提取关键字在每个语言关于任何话题

引用这
新闻发布会上,(2022年1月11日)。这个工具可以从文本中提取关键字在每个语言关于任何话题。Psychreg在学术界。//www.mums-channel.com/tool-extract-keywords-texts-every-language-any-topic/
阅读时间:3分钟

它被称为雅客!(另一个关键字提取器),它已经由INESC TEC -系统和计算机工程研究所,技术和科学,在葡萄牙。它的开发者声称的工具可以用于文本大小,无论写的语言任何话题。雅客!使用统计数据了解下面哪句话更相关的文本,因此不需要其他语料的输入文本学习什么单词更重要——就像机器学习方法。

为什么我们需要关键词吗?

人们可能有一个大意,每天产生的数据量是巨大的。但你能真的图片的数量数据产生一分钟?2020的每一分钟例如,Instagram用户共享65000张照片,Twitter用户发布575000条推讯和谷歌进行了570万次搜索。根据Siteefy,至少175新创建的网站,每一分钟估计每天亚马逊发布超过7500 Kindle电子书。同样的发生在新闻文章:华盛顿邮报》仅发布在每天1200的故事

组织的需要,更重要的是,处理信息,是因为每天都产生大量的数据。一个工具如雅客!是一种珍贵的助手自动提取信息的过程中,通过获得一组相关的关键字,描述文本本身。说这样做手工真的不可能,里卡多·坎波斯,协作开发的雅客!。

如果你是一个学生,雅客!可以帮你总结文献或书籍章节你需要吗修改为您的下一个考试。你也可以受益于使用雅客!当发现一个趋势发表对一个特定的主题(例如新闻文章Covid甚至相互矛盾的观点演讲由一个特定的政治家在他们的授权。这些只是一些例子,这个工具可以帮你做什么,但你为什么要使用它来提取关键字?

一种新方法的信息

提取关键字是一个特别复杂的挑战,提出了相对低效率/性能。雅客!可以帮助任何人提取关键词和类很容易和快速的信息,”里卡多·坎波斯解释道。为什么这么快的原因之一是,它不需要以前的文本语料库正常工作,与机器学习解决方案。在我们的方法,我们发现有关关键字基于统计数据从文件中提取,而不是操作的文档集合,”他补充道。此外,雅客!工作,作为一个即插即用的解决方案,可用于任意大小的文档,语言,或主题。

这项技术是免费,包括网站可以从一个文本或网页中提取关键字,和一个吗安卓应用在游戏商店。对于开发人员来说,还有一个API,允许在其他工具的集成技术。

一般的指数和其他应用程序

雅客!被用于多个项目到目前为止,但没有一个接近的开发工作总索引。这个项目旨在目录1.07亿篇科学论文,对促进寻找它们所包含的信息。38 tb在10月推出的新数据库,它是一个巨大的190亿指数的关键词提取使用雅客!软件。

集合可以在互联网档案馆公共领域的许可下,世界上最大的内容保存数字档案。然而,这个工具被用于许多不同的上下文中执行不同的任务。这些包括总结教育文献为进一步理解问题的自动生成;澄清问题的一代问答系统的检测,热门关键字在推特上;使用文本挖掘事故报告;产生视觉代表词云公众舆论对于Covid在社交媒体上,甚至代的波斯诗歌从散文全集。

新整合到约翰·斯诺实验室“portfolioofopen-sourcesolutions,最广泛使用的自然语言处理和文字mininglibrary在商业领域,雅客!也是使用的吗芬兰国家图书馆,通过Chartbeat实验室——textacy,INESC TEC的范围内Conta-me史学家项目,包括在葡萄牙web存档,arquivo.pt

中使用的软件目前引用或超过270篇文章,有超过860颗恒星在Github和141个叉,占超过1000安装在Android系统。在2018年,它被授予“最佳短篇论文”最重要的欧洲会议信息检索,ECIR。

除了里卡多·坎波斯,团队开发的雅客!是由Alipio豪尔赫,西莉亚Nunes,亚当Jatowt,康Mangaravite阿里乌斯派信徒Pasquali


Psychreg目的主要是为信息;材料在这个网站不是为了替代专业建议。不要忽视专业建议或延迟寻求治疗,因为你读过这个网站。阅读我们的完整的免责188博金宝体育声明

Baidu
map