基于词汇语义色彩分析的文本倾向识别

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户：Eryuelan

【摘要】

：

文本倾向是指文本中所表达的对所描述主题的态度,从语言学上来看属于语用信息的范畴,涉及作者的主观意图,如何让计算机能进行自动识别是计算语言学的一个重要课题,高性能的自

【作者】

：

吴云

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2008年01期

【关键词】

：

全信息理论自然语言处理倾向识别语义倾向性 k-means聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本倾向是指文本中所表达的对所描述主题的态度,从语言学上来看属于语用信息的范畴,涉及作者的主观意图,如何让计算机能进行自动识别是计算语言学的一个重要课题,高性能的自动识别系统对于网络舆情监控等重要现实应用具有重要价值。本文主要进行了两个方面的研究工作。其一,设计了一个基于全信息的自动文本倾向识别系统。该系统从语法,语义,语用三个层次出发,去进行文本中的信息标注与抽取。最后将这些标注信息作为文本特征逐一添加到一个SVM文本分类器中去,进行文本分类计算,实验证明,当我们将语法、语义和语用三层信息综合利用之时,系统性能是最好的。其二,作者在上述实验过程中发现,通常作为语用信息使用的词汇语义倾向度量值缺乏合适的解释性与验证方法。为此,本文引入聚类算法,对词汇语义倾向度量值进行聚类,并将聚类结果重新作用于原始的文本倾向识别系统中去,实验表明,系统文本倾向识别率得到了提高。这一方面为词汇语义倾向度量提供了一个有效解释的途径,同时也为系统的改进提出了一种新思路。论文最后是结论和对未来进一步工作的展望。

其他文献

工频启动大功率电机与变频启动之间的切换

期刊

数据网格副本选择策略的研究

数据网格是网格环境下共享和管理存储资源和分布式数据资源的大规模、可扩展的框架结构，它适应数据密集型应用对网格环境下数据共享和处理的需要，给用户提供了透明访问远程异构

学位

数据网格副本副本管理副本选择

Turbo码编译器FPGA设计与实现

1993年，Turbo码的提出，以其接近Shannon极限的优异的性能在编码界引起了轰动，并成为研究的热点。随着研究的不断深入和技术的发展，目前，Turbo码已经应用到很多实际通信系统中。同

学位

Turbo码编译器编码结构译码算法子译码器时序控制

基于混沌映射的散列算法研究