论文部分内容阅读
在当前社会环境和web环境日趋复杂的条件下,网络舆情已经对社会的稳定和众多上网的人们产生了重大的影响。舆情是在一定的社会范围内,围绕热点话题和社会事件等的发生、发展和变化而产生的,主要是指民众由于该事件而对社会管理者产生和持有的社会政治态度。网络舆情与一般的舆情不同,它发生范围广,传播速度快,且爆发点不易发现和控制,这使得网络中舆情的热点发现与监控变得尤为重要。目前,基于中文的网络舆情监控系统已经有相关的研究成果,例如:北大方正技术研究院推出的智思舆情辅助决策支持系统,但藏文舆情方面的研究还处于初步阶段,未见相关研究,原因在于藏文信息化处理水平的整体相对较为滞后。本文在考察了中英文舆情分析、话题发现与识别的发展现状的基础上,简要介绍了常用话题识别的模型和算法,对各种模型比较分析后结合藏文信息处理特点提出了基于藏文web舆情分析的热点发现算法。本文重点从藏文话题识别、热点发现算法和热点话题呈现三个部分对系统进行阐述,文章采用向量空间模型对文本进行表示,话题识别采用增量聚类的方法;为提高热点发现的准确率和效率,特引入格语法与统计相结合的藏文命名实体识别算法;热点话题计算分别从话题报道频率、时间跨度、点击量和评论数四个方面进行量化,并给出话题关注度的计算公式;藏文热点话题呈现分别从话题标题、话题相关文档、话题相关词群三个方面予以呈报,其中考虑到部分用户不懂藏文的特点,系统借助藏汉对照翻译词典将话题标题和相关词群进行了词语的翻译。系统的热点发现算法在较小规模语料中到达了85%以上的准确率,已基本达到实用的要求。本文的工作为藏文舆情分析和藏文文本分类的后续研究奠定了一个较好的基础。