论文部分内容阅读
本文对互联网舆情信息的获取和分析做了较深入的讨论。利用Rhino脚本解析引擎,有效地解决了互联网中JavaScript动态网页的获取问题。同时,结合基于向量空间的文本分类方法和基于语义的文本分类方法,对传统的文本倾向性分析进行改进,有效地提高了准确率和普适性。本文首先讨论了JavaScript动态网页的获取,回顾了网页获取领域的已有成果,列举了网页获取领域的基本知识,包括HTML语言、HTTP协议以及URL统一资源定位符等基本概念,以及动态网页方面的相关知识。同时指出了,随着网页技术的快速发展,网页获取技术需要做相应的改进。在回顾网页获取领域已有成果的基础上,本文针对其中的链接获取机制做了详细的说明。尽管传统的网页获取技术可以利用HTML语言的一些特点,提取出网页中包含的链接地址,然而由于网页技术的发展,越来越多的网页将链接地址隐藏在网页脚本中。鉴于此,本文通过认真分析,认为需要在网页获取技术中增加脚本解析环节。通过本文的测试验证,证明了增加脚本解析环节后,可以有效地提高网页的获取率。接着,本文还讨论了网页文本倾向性问题的研究,回顾了文本分类领域的已有成果,列举了文本分类领域中的几个重要知识,包括文本分词,文本表示,特征选择,以及分类方法。指出了随着技术的发展,文本倾向性分析将是文本分类的一个重要发展方向。在回顾文本分类领域已有成果的基础上,本文针对其中的分类方法做了详细说明。尽管现有的分类技术可以有效地将文本分为体育、娱乐、政治等类别,但是还不能有效地根据文本作者想表达的情感特征进行分类。本文通过认真分析,认为在基于向量空间模型的分类方法中可以适当地借鉴基于语义的分类方法中的权重设置方法。通过本文的测试验证,本文提出的综合的方法,可以有效地对文本进行倾向性分类。