论文部分内容阅读
近年来,通用搜索引擎技术已经取得了长足的发展,其应用也非常广泛。但是,通用搜索引擎无法满足一些特定互联网用户的专业性搜索需求。尤其对于企业用户,他们将领域数据作为经营和分析的基础,对于领域数据有着更专业与全面的要求。为了解决这个问题,垂直搜索技术应运而生,并成为了业界研究的热点。垂直搜索引擎是针对某一个行业的专业搜索引擎。它通过主题判定和定向的结构化数据抽取来向用户返回具体的领域数据搜索结果。垂直搜索引擎能够彻底避免通用搜索引擎的噪音数据量大、查询不准确、查询深度不够等问题,因此得到了更多企业用户的关注。本文旨在针对垂直搜索引擎中的两项关键技术,主题判定和结构化数据抽取展开研究,并实现相关技术。含有丰富结构化数据的Web页面主题判定是垂直搜索引擎的核心,是结构化数据抽取的前提,具有重要的学术价值,工程应用也非常广泛。本文针对含有丰富结构化数据的Web页面,提出了复用结构化数据抽取模板来进行Web页面主题识别的分类框架。本文提出的方法避免了主题爬虫对URL格式严重依赖的问题,分类准确率也高于传统的文本分类方法。论文通过实验证明了框架在含有丰富结构化数据的Web页面分类方面的有效性。考虑到企业用户希望从垂直搜索引擎中获得大众的情感倾向用以辅助企业决策,本文研究了中文短信息的主题识别问题,为以后的情感分析提供基础。本文以短信息新闻与中文短信息的相似性为理论基础,提出基于5W (When, Where, Who, What, hoW)模型的中文短信息主题识别算法5WTAG。5WTAG算法首先对中文短消息进行语句切分,然后针对各个子句抽取5W关键词并创建候选主题标签,最后使用统计和语义分析的方法计算候选主题标签的推荐度。本文使用采集于新浪微博的真实数据对5WTAG算法在候选主题标签语义正确性、推荐度计算方法正确性等方面进行了评价。最后,为了解决垂直搜索引擎中的结构化数据抽取问题,提出了Web页面的结构化数据自动抽取技术。该技术使用结构化数据抽取模板对含有丰富结构化数据的Web页面进行结构化数据抽取。为了实现自动化,本文对MDR算法进行了改进,提出了针对含有丰富结构化数据的Web页面的数据区域探测算法,并通过该算法实现抽取模板的自动化生成。实验验证了Web页面的结构化数据自动抽取技术的有效性和准确性。