论文部分内容阅读
伴随着互联网数据量的增加,人们对信息资源的检索提出了更高的要求。对于信息检索,人们不仅要求提高信息检索的准确率,还要求能检索到与之相关的信息资源。在对文本分类和网站标签标识技术进行研究之后,本文提出了改进后的算法。通过对网站内容的多标签标识进行研究,本文力求能在网站检索方面有所贡献。论文的主要成果包括:第一,提出了网站的信息层次结构。不同于网站的物理结构和逻辑结构,这个结构能够减少网站的信息冗余,准确的提取网站信息,提升网页的分类效果,并且系统的计算效率较高。第二,构建了方便对网站内容进行标识的标签库系统。通过对当前比较活跃的门户网站进行研究分析,提出了适合对此类网站进行标签标识的标签库系统。根据网站中不同网页的特点,提出了三级层级标签库,标签库与网站的主题相呼应。在标签库中,不同级数的标签,标识的方法也不尽相同。第三,提出了效率更好的网站内容多标签标识算法。在提出了网站的信息层次结构和多层级标签库的基础上,论文实现了网站内容多标签标识的算法。与传统的分类算法相比,该算法充分的考虑网站的结构特性和网站页面的正文内容,因此能够提高分类的准确率,从而使得标识的多标签更加准确高效。同时也使用本文提出的标识算法和SVM分类算法对同一数据集进行分类,然后计算分类结构的准确率、召回率和F值,并最终验证了本文算法的准确性。