论文部分内容阅读
Web2.0概念的出现使互联网新媒体发展进入了新阶段。博客作为Web2.0概念下的典型应用正在推动整个互联网业的发展。近几年来,作为一种新兴事物,博客正处于高速的发展时期,互联网上的博客数量一直在急剧的增长。博客已经成为互联网上一种重要的信息源。如何组织、检索、有效的利用丰富的博客资源,挖掘有价值的信息引起了包括科研界和工业界的广泛关注,各种方法和技术的应用正在被探索中。这些工作对于掌握互联网的发展动态,改善各种网上服务,丰富用户网上生活,提高用户体验等都具有十分重要的现实意义和研究价值。利用博客内容的个性化和多样性的特点,本文开展了对博客内容进行分析和挖掘的工作,主要包括以下两个课题。通过挖掘博客的内容获得作者的个人信息,构建作者的兴趣集合。本文提出了一种基于分类技术的自动挖掘博客作者的兴趣的方法。在该方法中,本文采用多分类器联合的技术来提高分类精度和挖掘出的兴趣的可靠性。此外,本文采用自顶向下的层次化分类方法挖掘更加具体的博客作者的兴趣,并且兴趣可以以概念层次结构的形式展现。该课题在个性化搜索,新闻或广告的自动推荐以及用户社区的构建等互联网研究与应用领域有着广泛的应用。本文提出了对博客文章、博客进行信息型和情感型判定的问题。本文将该问题看作一个分类问题,并提出采用文本分类的技术解决此问题。本文检验了已有的文本挖掘技术在该问题上的适用性,其中包括分类算法和特征抽取算法。通过实验,本文发现支持向量机分类算法与信息增益特征提取算法的结合可以达到最好的分类效果。此外,基于该课题本文提出了三种应用:博客文章的情感、主题分类,意向驱动的博客搜索以及浏览系统,高信息量博客的推荐。这些工作都是当前博客研究的热点。该课题对于促进博客相关的研究与应用的发展有十分重要的意义。