微信公众号文本的类别标注方法研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:liongliong526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微信公众号作为一种被广泛使用的信息获取渠道,其文本涉及各行各业。对其文本进行合理的类别标注能帮助用户快速定位感兴趣的文章,方便分析用户行为偏好,进行用户画像,有重要的应用价值。但目前尚未发现关于微信公众号文本类别标注的相关研究,为此,本文利用分类方法进行了微信公众号文本的类别标注工作。(1)提出了主题词嵌入的文本表示方法,解决传统文本表示中存在数据维度高,缺乏词语之间的关系信息,无法区分一词多义等问题。首先利用LDA为每个文本分配主题;然后将主题以伪词的形式与语境中的词同时送入Skip-gram训练,得到每个词的词向量和每个主题的向量;最后将主题和词的向量级联作为文本的向量。(2)使用组合半监督SVM,结合模拟退火算法自动选择参数,解决半监督方法训练阶段需要设置的参数繁多的问题。在初始化SVM阶段固定内部标准SVM的参数γ,只验证C;在迭代更新过程中C*的选择由模拟退火算法自动处理,因此整个过程只需要手工设定少量参数。(3)使用聚类方法将大量无标签数据分簇,按比例选择用于训练的无标签样本,解决了一般标记数据与无标签数据分布存在偏差,随机添加无标签数据的半监督分类算法可能无法适用到全局数据的问题。有选择的添加训练数据使得分类器即使在样本分布不均匀的情况下也能达到很好的效果。(4)建立公众号类别知识库。同一微信公众号发布的文章类别相对固定,公众号来源对于标注具有参考意义。在半监督分类器的训练阶段,使用知识库辅助判断无类标样本能否加入训练集;在标注阶段,使用知识库辅助判断分类结果,以决定是否需要人工参与。(5)提出了基于知识库与半监督的微信公众号文本类别标注方法。实验表明本文的方法不仅提高了微信公众号下文章标注的准确率,而且减少了人工干预次数。
其他文献
<正>学生的知识迁移能力对学生学习数学极为重要。而类比教学可以有效提高学生的知识迁移能力,提高学生的思维品质。类比教学利用学生的已有知识学习新知,在数学教学中,只有
采用教师职业认同量表、工作满意度量表和离职倾向量表对川渝地区286名特教教师进行调查,结果发现特教教师的职业认同与离职倾向呈显著负相关,工作满意度和离职倾向呈显著负
<正>化学是一门在原子、分子水平上研究物质的组成、结构、性质、变化规律及其应用的基础自然科学,是信息科学、材料科学、能源科学、环境科学、海洋科学、生命科学和空间技
目的阐明三峡工程运行后,鄱阳湖区水文情势的新特点,及其对这一地区血吸虫病流行的影响。方法调查收集三峡工程蓄水信息、2002-2012年鄱阳湖都昌水文站日均水位资料和同期鄱
用不同浓度的中性盐(NaCl)和碱性盐(NaCl、NaHCO3、Na2SO4、Na2CO3)溶液处理1 a生刺槐和绒毛白蜡,研究了两树种叶片中叶绿素a、叶绿素b和总叶绿素含量的动态变化以及叶绿素和
<正>2016年8月26日,由中共中央编译局国家高端智库建设试点工作领导小组办公室和中央编译局世界发展战略研究部主办,中央编译局国家高端智库"国家治理体系和治理能力现代化"