Web挖掘技术在东亚植物遗传资源管理系统中的应用研究

来源 :中国农业大学 | 被引量 : 0次 | 上传用户:thonny007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为促进东亚地区植物遗传资源的保护和利用,国际植物遗传资源研究所(IPGRI)与东亚各国有关研究机构决定建立“东亚植物遗传资源协作网”(EA-PGR)Web信息管理系统。 EA-PGR的Web信息管理系统的信息是分类进行管理的,管理员要处理大量来自IPGRI的静态Web文本,然后把它们按类上传到Web信息管理系统中,这些Web文本的组织往往处于混乱的状态,采用人工分类,工作量既大,效率又低。正是出于需要对Web文本进行分类管理的目的,作者研究了Web文本的自动分类技术。本论文研究结果如下: (1) 分析了Web文本分类的三个重要技术:特征词提取、特征赋权、特征选择方法的IG、CHI、期望交叉熵等6种评估函数。对来自IPGRI的Web文本集进行了系统测试,分析了各种评估函数对不同分类器的优劣。 (2) 研究了Web文本分类算法:类中心向量、KNN、朴素贝叶斯、SVM等几种分类器,并对KNN和SVM两种分类器在标准语料库和来自IPGRI的Web文本集进行了实验比较分析,得出SVM是比KNN更好的分类器。 (3) 作为Web文本自动分类技术研究的结果,采用VC++设计与实现了基于内容的中英文Web文本自动分类系统。该系统具有支持KNN和SVM两种分类器、多种特征选择方法、兼类分类、自定义特征空间维数和分类结果评测曲线、直方图显示等特点。 (4) IPGRI为了在成员国之间开展多个领域的学术交流和合作活动,决定建立“东亚植物遗传资源协作网”的网站。作者用ASP. NET和ADO. NET技术,结合SQL Server 2000数据库系统,用C#语言开发了基于ASP. NET的信息管理系统。在此基础上,利用Web文本自动分类技术研究结果把分好类的Web文本和其他信息进行有效的发布和共享,实现了EA-PGR相关信息和数据的动态管理与发布。
其他文献
在科学技术飞速发展的今天,计算机给人们的生产和生活带来了极大的便利,随着人们对计算机依赖越来越大,计算机软件的安全问题也越来越引起人们的重视。计算机软件面临着盗版、攻
本文从采购计划如何降低采购成本入手,通过对基于成本最优为目标的采购计划编制算法的研究,以及对采购计划的评估指标进行分析,得出了通过采购计划实现企业主动控制采购成本
随着自动控制技术和网络通信技术的不断发展,通过网络实现工业企业远程监控、远程管理,以达到资源共享和管理决策的目的,已成国内外工业控制研究的热点。 本文通过对泵站远程
  在参与肇庆市一站式政务服务网的数据交换平台的课题开发时,本文作者面临着如何在物理上分离的,逻辑上是对等的业务系统通过Internet网络进行数据交换的问题,另外一方面,该一
视景仿真具有逼真的仿真效果,在工业设计、军事演习等方面已得到广泛的应用,但是大部分视景仿真都是针对某一特定的要求进行全程的设计,视景仿真的通用性并不强,仿真代码的重
随着信息化技术的发展和数字化产品的普及,以计算机技术、芯片技术和软件技术为核心的嵌入式系统再度成为当前研究和应用的热点,通信、计算机、消费电子技术合一的趋势正在逐步
随着空间数据获取技术的迅速发展,空间数据规模呈爆炸增长,但空间数据的利用率却较低。为了提高空间数据利用率,需充分研究空间数据的形状特征、拓扑关系和方位关系,进行空间对象
WLAN,即无线局域网,是将计算机网络用无线设备加以实现,并保证其相互通信的一门技术。它是于1990年之后出现的,并以方便、经济、简单实用为特点,使之迅速的发展起来。然而,由
传统的计算机网络安全解决方案包括对操作系统进行安全加固,使用防火墙和入侵检测系统,这些方法都有其自身的不足之处。 本文在分析了传统安全解决方案的不足之处的基础之
随着电子书、电子报纸、电子邮件、办公文件等文本电子出版物不断涌现,如何保证这些文本的正确性,显得越来越重要。汉语文本自动校对系统的研究已成为一项亟待解决的紧迫课题