基于多层面文体特征的博客作者身份识别研究1$

来源 :情报学报 | 被引量 : 0次 | 上传用户:shrimpdragon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文体风格特征模型不适用于当前大量涌现的网络文本。本文针对以博客为代表的网络文本篇幅短小、表达方式丰富灵活的特点,以内容无关为原则,分别抽取字符特征、词汇特征、句法特征和文本布局等特征,建立了由词汇特征、浅层句法特征、深层句法特征和结构特征组成的多层面文体风格特征模型,并选取朴素贝叶斯、决策树、序列最小优化支持向量机和大规模线性分类支持向量机算法在公开博客语料上进行对照实验。实验结果验证了各个层面特征在作者身份识别中的作用,表明了本文方法的准确性、通用性及其在短文本上的鲁棒性。关键词
其他文献
利用单羟基的MPEG,含有三键的碳酸酯单体与丙交酯,采用溶液分步聚合法合成了两亲性的三嵌段共聚物.在水溶液中,自组装形成核表面含有三键的核壳结构球状胶束.从而可以与叠氮
目的 分析心理护理联合运动疗法在妊娠糖尿病护理中的应用效果.方法 选择在2016年4月~2018年11月本院产科接收的妊娠糖尿病患者82例,用随机方法分组,对照组单纯给予临床常规护
调查研究是我们党的优良传统和基本工作方法。面对构建社会主义和谐社会的新形势、新任务,调查研究工作如何贴近,如何创新,需要我们深入思考,不断探索。我认为,做好新形势下
2019年首月,多数龙头房企销售额大幅下挫,腰斩的也不鲜见,这仿佛让持币观望的购房者看到了希望。然而,要看清楼市前景,必须读懂两个关键指标:代表市场需求的房地产业GDP和代表供给的房地产开发投资增速。  历史上,房地产业GDP增速低点往往对应房地产市场需求疲弱的时期。例如,2018年四季度房地产业GDP增速仅为2%,在所有大类行业中处于最低水平。而自2008年以来,房地产业GDP与房地产市场需求端
期刊
期刊
本体是领域知识的有效组织和描述,本体学习则是实现本体自动构建的方法体系和技术集合。本文以本体学习理论为指导,提出了一种以文档-术语空间为核心、形式概念分析(FCA)为手段
我省海上搜救中心是福建海域突发事件的应急指挥机构.在省政府领导和中国海上搜救中心指导下,承担着我省海上搜救责任区的应急指挥工作,搜救中心办公室日常工作由福建省海事
当前,我国正处于改革发展的关键阶段,机遇前所未有,挑战也前所未有,机遇大于挑战.面对新形势、新任务,在省委的统一部署下,省科协深入学习实践科学发展观活动试点工作按照中
2008年11月9日,中国政治学会苏区精神研究专业委员会暨江西省苏区精神研究会(简称苏区精神研究会)在江西省赣州市成立.江西省委常委、宣传部长刘上洋在贺信中指出:成立苏区精
血管紧张素Ⅱ(AngⅡ)是肾素-血管紧张素-醛固酮系统(RAS)的主要活性成分,在人体血压与水-电解质平衡调节过程中起着关键作用。近年研究发现,除循环中存在RAS外,在一些恶性肿