基于语料库文本自动分类算法及应用比较研究

来源 :图书情报导刊 | 被引量 : 0次 | 上传用户：w7kny6194i

【摘要】

：

基于Python语言,利用公开中文语料库,测试不同算法模型对中文文本分类的效果。选择语料中不同数量的语料种类,首先对文本进行格式化读取、清洗等处理,而后以2∶1∶1的比例,分为训练集、验证集、测试集,最后依照文本表示、特征提取、分类算法选择、效果评估的步骤,依次在词袋、词嵌入、语言3种模型中选取典型代表进行中文文本分类。在深度学习模型的帮助下,文本分类得到了快速的发展,当前的主流分类方法基本都能满足不同任务的文本分类需求,特别是BERT语言模型可极大地提升文本分类的效果。

【作者】

：

许和旭王兰成

【机构】

：

国防大学政治学院

【出处】

：

图书情报导刊

【发表日期】

：

2021年6期

【关键词】

：

文本分类 TF-IDF Word2Vec BERT 深度学习

【基金项目】

：

中国索引学会重点课题“基于人工智能的自动索引编制研究”(项目编号:CSI20A02)。

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于语料库文本自动分类算法及应用比较研究

其他学术论文