论文部分内容阅读
随着互联网技术的高速发展,互联网上的信息包括各种各样的财经新闻正以爆炸式的速度迅猛增长。毫无疑问,财经新闻中蕴含着大量的财富,它对用户做重要的经济决策、对企业把握市场的发展规律、对国家促进金融市场发展和经济结构转型,都具有十分重要的作用和战略意义。但是,深陷在信息的海洋漩涡之中,人们不得不面临着严峻的信息过载问题。因此,如何快速有效地帮助用户获取有价值的财经新闻成为了一个至关重要的问题。为了缓解信息过载的压力,搜索引擎和门户网站得到了快速的发展和应用。传统的基于关键词的搜索引擎如百度谷歌等,简单易用,用户只需要输入目标关键词,搜索引擎就会自动返回相关的结果。但是搜索引擎往往动辄返回数以万计的结果,因此准确率通常比较低。另外,有些用户只关心某些特定领域的新闻如房地产相关的新闻,虽然门户网站的出现弥补了这一问题,但是门户网站往往冗余庞大、而且只是简单的罗列新闻,无法发现隐藏在新闻内部的关系。例如,房价的新闻往往和房价调控政策以及建筑建材业的新闻有深入的关系。为此,针对财经新闻领域,本文展开了对面向财经新闻的智能搜索平台的研究与应用。本文的主要研究内容和贡献如下:1.本文结合传统搜索引擎和门户网站的优点,利用数据挖掘和自然语言处理领域的相关知识,提出了一种新的智能搜索平台框架。平台一共包含了六大模块,它不仅可以提供基于关键词的便捷搜索服务,而且还可以给用户提供分门别类的财经资讯。同时,为了给用户提供第一手的实时热点,平台集成了基于TDT的热点新闻发现算法。此外,为了发现隐藏在新闻内部的关系,本文基于新闻的主题设计并构建了动态知识网络,用于快速引导用户找到更加多样和有用的信息。2.在智能搜平台的基础上,本文重点针对基于SVM的自动分类算法和基于TDT技术的热点新闻发现算法做了改进。在文本表示阶段,本文重点考虑标题在财经新闻中的重要性,改进了特征词的权重公式。更进一步,考虑到时间对于热点事件至关重要。因此,本文通过融入时间因素改进了文档与主题的相似度公式。3.在真实的新闻数据集上的实验结果表明,通过引入标题因素,在合适的权重系数情况下,可以提高分类算法的正确率。同时,通过融入时间因素,热点新闻自动发现算法相比于传统的方法,可以更好的区分内容相似但是却不属于同一个主题的事件。