基于短语模式的评论性文章情感分类研究

来源 :第七届中文信息处理国际会议 | 被引量 : 0次 | 上传用户:jxx168jxx168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前主要的文本分类技术都是基于针对这一问题,本文提出了一种面向语义的文本情感分类技术,通过分析文本中的特定短语模式来获得文本的情感特征,对于文章中的复杂句式进行语义层的深入分析。实验证明,这种方法很好地体现了文本中的语义信息,这种基于短语模式的分类算法准确率达到95%,召回率达到93%。
其他文献
随着Web2.0理念日益深入人心,博客作为一种网络日志的形式,成为网络上的主要应用之一.而主要出现在博客、网络相册等系统上的,依靠大量用户使用自由选择的词汇作为标签(Tag)来对事物进行标记的人工分类的"大众分类法"也逐渐成为研究热点。本文将焦点集中在中文博客标签上,着重考查其统计性质、齐夫定律和复杂网络性质,从多方面初步了解中文博客标签的性质和特点。
本文提出了一种新的基于规则的不依赖于分词的数量短语识别方法来实现中文数量短语的识别。首先对中文数量短语识别技术的现状进行了简要分析和概述,明确了中文数量短语识别的任务,然后,基于前人的工作提出了基于规则的方法及不作分词和词法分析,而根据数量短语的特征库直接进行提取和识别的方法。其基本思路是:通过识别器中的搜索器对句子进行搜索,得到一个具有特征的最大字符串,再通过内建的规则处理器对最大字符串进行中文
作为语义立根之本的大规模语义知识库的研究与建设,是当今计算语言学的重要发展方向之一.国内外现有语义知识库对概念的语用变体以及与概念变体相关的各种微观语义关系普遍关注不够,这种现状成了制约提高语义知识表示颗粒精细度与语义计算准确度的瓶颈。本文阐述概念及其变体之间的关系,主张在词网建构中应注重概念变体的属性描写,并提出描写的具体技术方案。
本文提出了一种依据图的"添加有选择性"来预测后续论文最有可能引用哪些现有的文章(热文)的方法,依据论文与参考文献间的内容相关性,利用主成分分析的方法对热文进行内容分析,进而达到对后续论文中的研究热点进行预测。实验证明这种方法是有效的。
蒙古文机器翻译研究,经过了几个阶段的,不同翻译方法的探索过程。在汉蒙机器翻译方面曾经做过基于规则的和基于实例的研究,并取得一定成果。近年也进行基于统计的汉蒙机器翻译的探索;在英蒙机器翻译方面进行过基于规则的研究和基于模板的研究;同时在蒙日、日蒙、蒙汉机器翻译方面也进行了一些探索性的研究。目前以蒙古语为目标语言的机器翻译研究相对多些,而以蒙古语言为源语言的很少.总结和归纳蒙古语机器翻译研究的经验教训
本文引入一种基于配价模式的依存句法分析方法,并使用XDG形式化体系和XDK软件包进行了汉语句法分析实验。在本文提出的配价模式中,不仅包括补足语,也包括说明语,不仅考虑了价语的支配能力,也考虑了其被支配的能力。
本文提出了一种全新的判定Web页面正文内容的方法--标签密度判定法。该方法基于Web页面由HTML标签组成这一本质特性,采用标签密度,即标签在Web页面文本中含量这一关键阈值,作为区分Web页面文本正文与广告、赞助商链接等其他内容的主要依据。对于大部分的新闻门户网站,只要标签密度阈值设置适当,此方法就能相当准确地提取出Web页面的正文内容。
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快.
"蒙古语语义词典"主要研究现代蒙古语词语语义关系的数据结构及其电子词典的建立.根据目前蒙古文文本处理中句法分析、句义分析、相似度计算等所需求的语义类型,我们对词典中收录的词条进行语义分类和语义关系分析两方面的详细描述。即首先要建立蒙古语语义分类系统的数据库和语义关系网的数据库两大库,词典由一个管理系统来进行维护和管理。该论文作为词典建设的初步研究主要探讨词典中两大数据库的建立及有关理论问题。
为研究基于转换的错误学习方法(TBL)以后处理方式提高分词精度的问题,分别用FMM和HMM两种初始分词器,在SIGHAN 2006 MSRA和UPUC语料上试验了基于字的一元、二元、三元及其组合等九套模板.结果表明在复合模板中包含基于字的二元模板比不包含的效果好,而一元二元复合模板效果最好且在初始精度很高的情况下仍带来明显性能提升,使HMM在SIGHAN 2006 MSRA开放测试上的名次由第六位