论文部分内容阅读
为促进东亚地区植物遗传资源的保护和利用,国际植物遗传资源研究所(IPGRI)与东亚各国有关研究机构决定建立“东亚植物遗传资源协作网”(EA-PGR)Web信息管理系统。 EA-PGR的Web信息管理系统的信息是分类进行管理的,管理员要处理大量来自IPGRI的静态Web文本,然后把它们按类上传到Web信息管理系统中,这些Web文本的组织往往处于混乱的状态,采用人工分类,工作量既大,效率又低。正是出于需要对Web文本进行分类管理的目的,作者研究了Web文本的自动分类技术。本论文研究结果如下: (1) 分析了Web文本分类的三个重要技术:特征词提取、特征赋权、特征选择方法的IG、CHI、期望交叉熵等6种评估函数。对来自IPGRI的Web文本集进行了系统测试,分析了各种评估函数对不同分类器的优劣。 (2) 研究了Web文本分类算法:类中心向量、KNN、朴素贝叶斯、SVM等几种分类器,并对KNN和SVM两种分类器在标准语料库和来自IPGRI的Web文本集进行了实验比较分析,得出SVM是比KNN更好的分类器。 (3) 作为Web文本自动分类技术研究的结果,采用VC++设计与实现了基于内容的中英文Web文本自动分类系统。该系统具有支持KNN和SVM两种分类器、多种特征选择方法、兼类分类、自定义特征空间维数和分类结果评测曲线、直方图显示等特点。 (4) IPGRI为了在成员国之间开展多个领域的学术交流和合作活动,决定建立“东亚植物遗传资源协作网”的网站。作者用ASP. NET和ADO. NET技术,结合SQL Server 2000数据库系统,用C#语言开发了基于ASP. NET的信息管理系统。在此基础上,利用Web文本自动分类技术研究结果把分好类的Web文本和其他信息进行有效的发布和共享,实现了EA-PGR相关信息和数据的动态管理与发布。