论文部分内容阅读
随着信息技术的发展和互联网的日益普及,网络已经成为广大民众获取信息的主要渠道,同时网络也成为人们发表评论、表达民意的重要平台。面对互联网上飞速增长的新闻话题以及人们的评论信息,如何从海量信息中采集到满足特定需求的信息,如何将互联网信息组织整理成有效的机器数据,如何从采集到的数据中区分有用信息和无用信息等等这些问题都是信息科技发展所面临的难题。网络舆情是指民众通过互联网对政府管理以及现实社会中各种现象、问题所表达的政治信念、态度、意见和情绪的总和。网络舆情与社会舆情相互作用、相互影响。两者不仅在内容表现形态方面具有一致性,同时网络舆情在一定程度上会影响社会舆情的发展趋势,对社会影响巨大。因此,政府部门对网络舆情信息必须具备一定的监控能力,能够及时掌握一定时期内民众所关注的热点问题,了解民众对热点事件的看法和态度,从而做出正确的决策,主动引导舆论走向。本文在分析网络舆情热点信息发现和网络舆情热点信息倾向性研究现状的基础上,从舆情信息的来源入手,设计了详细的采集流程。针对大众和政府部门都比较关注的热点信息,本文根据热点信息的概念和特征建立了热点信息的判断标准,并将热点信息的特征定量化,构建数学模型,用算法来描述热点信息的发现和获取。针对热点信息的倾向性分析,本文首先手工构建了极性词典,并对极性词典进行了扩充和修正,将未登录词汇、否定词和强调副词对原始极性词的影响做了进一步分析,并提出相应的解决办法。对于普通的文本信息,用向量来进行表示,通过计算特征词的权重来选取文本的特征词条。由于中文句子以标点符号进行划分,本文对句子进行句法分析,解析出词语之间的依存关系,并对词语进行词性标注。本文建立了语义模板,通过语义模板的匹配来确定句子的语义模式,利用极性词典计算出词语的极性值,再结合句法分析和模式匹配得出其上下文极性。句子的倾向性由组成句子的主题词和极性词及其极性值决定,文本的倾向性由句子的倾向性和句子在整个文本中的权重计算得出。最后,本文对所做的研究工作进行了模拟实验,对实验结果进行了讨论与分析。