论文部分内容阅读
微信公众号作为一种被广泛使用的信息获取渠道,其文本涉及各行各业。对其文本进行合理的类别标注能帮助用户快速定位感兴趣的文章,方便分析用户行为偏好,进行用户画像,有重要的应用价值。但目前尚未发现关于微信公众号文本类别标注的相关研究,为此,本文利用分类方法进行了微信公众号文本的类别标注工作。(1)提出了主题词嵌入的文本表示方法,解决传统文本表示中存在数据维度高,缺乏词语之间的关系信息,无法区分一词多义等问题。首先利用LDA为每个文本分配主题;然后将主题以伪词的形式与语境中的词同时送入Skip-gram训练,得到每个词的词向量和每个主题的向量;最后将主题和词的向量级联作为文本的向量。(2)使用组合半监督SVM,结合模拟退火算法自动选择参数,解决半监督方法训练阶段需要设置的参数繁多的问题。在初始化SVM阶段固定内部标准SVM的参数γ,只验证C;在迭代更新过程中C*的选择由模拟退火算法自动处理,因此整个过程只需要手工设定少量参数。(3)使用聚类方法将大量无标签数据分簇,按比例选择用于训练的无标签样本,解决了一般标记数据与无标签数据分布存在偏差,随机添加无标签数据的半监督分类算法可能无法适用到全局数据的问题。有选择的添加训练数据使得分类器即使在样本分布不均匀的情况下也能达到很好的效果。(4)建立公众号类别知识库。同一微信公众号发布的文章类别相对固定,公众号来源对于标注具有参考意义。在半监督分类器的训练阶段,使用知识库辅助判断无类标样本能否加入训练集;在标注阶段,使用知识库辅助判断分类结果,以决定是否需要人工参与。(5)提出了基于知识库与半监督的微信公众号文本类别标注方法。实验表明本文的方法不仅提高了微信公众号下文章标注的准确率,而且减少了人工干预次数。