基于时间信息的舆情话题发现技术研究

被引量 : 0次 | 上传用户:weizai111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的继续指数级增长,以及互联网在全球范围内的日益普及,互联网已经成为全球最大最具潜力的社会舆论集中地。在这样的形势下,对舆情信息的监控和分析就显得越来越重要。互联网每天都会产生大量的信息,如何高效准确的挖掘出每天的热点话题和突发事件成为舆情监控的研究重点。中文时间表达式识别是近年来研究的热点,中文时间表达式识别多使用机器学习方法识别范围,使用规则的方法规范化,但是特征的选择和规则的制定都很不健全,本文提出一种特征选择算法,并人工制定了规范化规则。传统热点话题发现的研究对时间信息的考虑过于单一,本文针对这种情况,将时间粒度精确到分钟,并通过新闻的文本表示和聚类的相似度计算两方面将时间信息融入到了话题发现算法中。在突发事件识别方面,加入时间信息,考虑时间相近因素。本文以规范化的时间表达式为基础,研究舆情热点话题和突发事件识别技术,主要工作如下:1.提出一种中文时间表达式范围识别的特征选择算法。针对传统的特征选择算法难免会丢失最佳特征组合的缺陷,本文提出一种增减特征交集的特征选择方法,对这些特征进行了进一步的筛选,并用穷举实验结果对这种特征选择方法进行了验证。分别利用条件随机场、SVM、最大熵模型在TempEval-2中文语料上的实验结果进行了比较分析,并分析了标注错误的可能原因。利用本文的方法,最后识别的结果F1值比其他研究者的结果都要高。2.加入规则方法对中文时间表达式类型识别。本文在SVM方法的基础上,加入了规则的方法对中文时间表达式的类型进行了识别,通过在TempEval-2中文语料上的实验证明了方法的有效性,其正确率达到了96.88%,明显高于其他研究者的方法。3.提出中文时间表达式规范化格式和算法。本文以UTC时间为标准时间,将不同来源的新闻文本按照时区进行统一的映射。在参考时间概念里,为了对大规模的数据进行实时分析,加入了新闻获取时间的概念。人工定义了一些模糊时间词的范围,设计了中文时间DATE和TIME类型的规范化格式。在上述基础上设计了中文时间表达式的规范化算法。4.在舆情热点话题发现技术中融入时间信息。本文将时间信息以新闻表示模型和聚类相似度计算因子两种形式加入到Single-Pass算法中。本文用tfidf作为向量空间模型的权重表示新闻文本,并对其中的人名、地名、机构名、时间词、标题词、正文第一段词提高其权重,来更加准确全面有重点的表示新闻文本。这里的时间词是规范化后的时间表达式。在计算相似度的时候,本文除了利用传统的余弦相似度计算公式,还加入了时间距离的因素,并定义了时间距离的函数,将时间粒度缩小到分钟,比其他研究者的方法更加细致的反映了聚类中心的时间。利用上述改进,本文在真实网络环境下手工标注的10类话题的语料上进行了实验,验证了加入时间信息对于舆情热点话题发现的有效性。5.提出基于时间相近的突发事件识别算法。为了更加准确、及时的对突发事件进行告警,提出了基于时间相近的突发事件识别算法,并设计和实现了突发事件告警系统。
其他文献
“垃圾文化”一词,虽然近年始见诸载籍,若从史溯其源,可知其实由来已久。以余浅见:垃圾为人类于生产、生活中所产生之弃而无用之废物。可以说:自有人类即有垃圾。$$ “垃圾”一
报纸
目的探讨糖尿病足溃疡发生感染的相关因素。方法选取本院就诊的2型糖尿病患者120例,分为感染组与非感染组,对其临床资料进行分析。结果感染组与非感染组患者的年龄、糖尿病病
[目的]研究肾失气化证与慢性肾脏病肾小管病理损伤的相关性。[方法]观察临床辨证为脾肾亏虚、肾失气化证的8例慢性肾炎(肾病综合征)患者与同时辨证为其他证型6例对照,比较两
甬优9号系宁波市农科院与宁波市种子公司联合育成的籼粳杂交单季晚稻组合,2007年通过浙江省农作物品种审定委员会审定。2007年在天台试种,表现耐肥抗倒,熟期较迟,株高适中,每
出院流程繁琐复杂是患者满意度低的重要影响因素之一.一切以患者为中心,是医疗机构改善患者就医体验的有效途径.针对原出院流程复杂、医保审核方法陈旧、人力不足等问题,制定
目的:研究人体片形吸虫病ELISA检测试剂盒的检测效果。方法:采用云南大理本地采集的牛体片形吸虫成虫制备可溶性粗抗原,包被反应板,采用人体片形吸虫病ELISA法(FAWA-ELISA)进行研究
员工建言是组织学习和创新的推动力、领导者决策的智力资源、组织绩效提升的可靠保障。鉴于员工建言对于组织发展的重要意义,员工建言行为的研究一直是当前企业管理者与学术
目的探讨腹腔镜胃癌根治术中实施人性化护理干预的效果观察及其系统评价。方法选择72例行腹腔镜胃癌根治术患者分为两组,分别施以常规护理和人性化护理,观察两组患者住院时间
在生产条件下的铸造过程中,用冲入法制备了改性纳米SiC粉体强韧化的高锰钢。改性纳米SiC粉体加入量分别为0.01%,0.05%,0.07%,0.1%。同时浇注了未添加SiC粉体的高锰钢对比试块。试
目前国内多数油田主力单元开发已经进入高含水和特高含水期,采出污水中含有大量的表面活性剂,油珠乳化严重,微小油珠很难凝聚,增加了油水分离的难度。针对油田含乳化油污水的