互联网舆情信息获取与分析研究

被引量 : 0次 | 上传用户:z1750691
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对互联网舆情信息的获取和分析做了较深入的讨论。利用Rhino脚本解析引擎,有效地解决了互联网中JavaScript动态网页的获取问题。同时,结合基于向量空间的文本分类方法和基于语义的文本分类方法,对传统的文本倾向性分析进行改进,有效地提高了准确率和普适性。本文首先讨论了JavaScript动态网页的获取,回顾了网页获取领域的已有成果,列举了网页获取领域的基本知识,包括HTML语言、HTTP协议以及URL统一资源定位符等基本概念,以及动态网页方面的相关知识。同时指出了,随着网页技术的快速发展,网页获取技术需要做相应的改进。在回顾网页获取领域已有成果的基础上,本文针对其中的链接获取机制做了详细的说明。尽管传统的网页获取技术可以利用HTML语言的一些特点,提取出网页中包含的链接地址,然而由于网页技术的发展,越来越多的网页将链接地址隐藏在网页脚本中。鉴于此,本文通过认真分析,认为需要在网页获取技术中增加脚本解析环节。通过本文的测试验证,证明了增加脚本解析环节后,可以有效地提高网页的获取率。接着,本文还讨论了网页文本倾向性问题的研究,回顾了文本分类领域的已有成果,列举了文本分类领域中的几个重要知识,包括文本分词,文本表示,特征选择,以及分类方法。指出了随着技术的发展,文本倾向性分析将是文本分类的一个重要发展方向。在回顾文本分类领域已有成果的基础上,本文针对其中的分类方法做了详细说明。尽管现有的分类技术可以有效地将文本分为体育、娱乐、政治等类别,但是还不能有效地根据文本作者想表达的情感特征进行分类。本文通过认真分析,认为在基于向量空间模型的分类方法中可以适当地借鉴基于语义的分类方法中的权重设置方法。通过本文的测试验证,本文提出的综合的方法,可以有效地对文本进行倾向性分类。
其他文献
改革开放以后,我国的经济得到了快速的发展,在发展的过程中,金融业起到了非常重要的作用,同时也推动了自身的发展,在金融发展的过程中,金融结构能够直接反映出金融发展的状况
文章以中国微型汽车消费者为研究对象,基于统计学的逻辑斯谛和最优尺度回归模型对消费者特征对其信息搜寻范围的影响和在信息搜寻中消费者特征对因特网的使用的影响进行了研
目的:利用meta分析及临床病例回顾性分析对老年人股骨粗隆间骨折使用人工关节置换与PFN手术疗效进行比较研究。资料与方法:1、通过计算机检索1999~2008年期间关于人工关节置
采用何氏捏腹推顶手法配合远端指针点穴治疗急性腰椎小关节紊乱 2 2 7例 ,在松解腰部外在肌肉痉挛的情况下 ,利用内在的自身引力 ,借力调整以达到腰椎内外力学平衡 ,使小关节
中小企业融资难题困扰着我国中小企业的发展,其中一个重要因素就是金融机构与中小企业之间的信息不对称。内部评级法被认为是解决中小企业贷款信息不对称问题的渠道之一,本文
除草剂近年在平遥县应用种类多,推广面积大,使用效果好。但随着除草剂的广泛应用与推广,市场出现了许多型号的除草剂品种。同时使用除草剂后,有的作物不同程度受到药害,且有
目的研究三叶青扦插育苗技术。方法研究了生根剂、插穗年龄和基质对插穗生根的影响。结果生根剂、插穗年龄对插穗生根的影响明显,基质对插穗生根的影响不明显。结论 2~3年生
近年来,我国掀起了一股奢侈品消费的高潮。世界上80%的奢侈品牌已进驻中国,因为中国已占据了全球16%的市场份额,而且这个市场还有更多的潜力有待挖掘:根据世界四大会计事务所
随着办公自动化、软件开发进程的加快,软件项目信息管理以惊人的速度向电子化、数字化发展,软件项目信息管理将成为未来软件管理的重要组成部分。与此同时,信息技术的广泛应
井上靖与敦煌刘刘东京世田谷井上靖先生寓所和朋友聊起来,总爱感叹人生,感叹已走过的路,没有几件得意之举。但有一个例外,每当提起电视专题片《井上靖和敦煌》,却多少能带给人一点