探讨农业知识库的系统设计与实现

来源 :科学与财富 | 被引量 : 0次 | 上传用户:kisswc69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:农业由原来的小农经济模式向现代集成化迈进,不断产生农业系统知识,通过农业集成化,提出了农业知识库系统的架构设计这一个新型概念。同时,以农业知识库的设计为基础、引入新型的具有农业系统知识的人才,注重中文农业专业分词器以及查重器设计与实现,结合现代农业具体特点;并给出了中文农业专业分词算法评估和查重算法评估。
  关键词:中文分词器 农业网络 知识库 算法评估
  引言:农村科技信息综合服务平台是农业科技者创新出来在集成星火科技(12396)和农村远程教育网的基础上,依托互联网的强大的功能,实现互联互通,避免重复建设,融合科技特派工作网络,达到了信息资源共享的目的,这也符合了中国农业摆脱传统的模式向现代化和信息化的拓展。在网络互联的基础上构建了四位一体的农村信息立体网络综合服务体系,即“电话、短信、电视、广播(及时向农业生产者传递信息),网络互动、现场解答(有效的让农业科技者与广大的农业生产者进行及时,可视,更加专业的指导)。
  一、系统的结构
  在农业知识系统架构设计中,主要考虑可靠性、可维护性、稳定性以及可移植性,主要采用框架中分层结构体系和模块化设计。层间关系的形成需遵循一定的规则,就是分层结构可以将子系统从逻辑上划分成许多集合,通过集合有效减少子系统之间的依赖关系,达到易于维护的目的,有利于系统耦合方式更加松散与稳定。
  该系统重要解决下面4项的技术要点:
  1、由于农业词汇过于生僻,一般的中文词典较少收集关键词这类词汇,在中文分词过程中,只有准确提取农业关键词,才能进一步提取有效信息。
  2、查重器。需要对知识库的知识查重,数据录入时,通过相关软件减少数据冗余。
  3、查重速率。在检索过程中,通过对农业知识库中相关条目进行甄别,通过软件计算得到相关度。这是一个复杂的过程,而且对于软件的时间复杂度非常大,要求软件的维护性高。
  4、处理方言词汇。一个方言较多的省份,必须考虑方言词汇的转换。系统在分词时,需快速、准确地对方言词进行切分和翻译。
  二、中文农业专业分词器设计
  分词器的功能是提取关键词,对生僻的农业专业词汇和农业方言词汇,比较有效地提取关键词对增强查重的准确性和系统检索相当重要。用一般的农业词典无法准确地区分,分词器准确率自然很低。系统专门设计了农业专业分词器,以避免生僻的农业专业词汇和农业方言词汇。
  分词器对词典的频繁操作比如改、增、删的操作对于词典设计,通过使用汉字GB码来设计词典。方言要先翻译成书面语,所以在数据库里要建立方言词和农业专业词一对多的对应关系。将GB码中6 763个汉字的开头与6 763个区位建立一一相对的联系。
  中文农业专业分词算法评估。本系统实现了链表以及数组、树等分词方式,并将其与农业分词算法通过查插入、找、删的3个方面的时间复杂度和操作速率比上进行比较。通过比较表明:本文算法在以上3个方面的时间复杂度均为O(1),其它算法为O(n)或O(n)?O(㏒n)。笔者自行设计了一个哈希函数。其设计过程是:假设有一个词条word,如去掉首字后還剩n个字,用I[j][0]和I[j][1]分别表示第J个字的GB码高位和低位,和其他算法相比,Hash算法最有优势。
  三、专业设计农业知识库
  农业知识库主要包括棉花、水稻、玉米、油料等12个数据库。每个数据库根据常见的类型分为两个表:特色类型表和加工类型表。构建农业知识库时,需综合考虑知识的可扩展以及数据的安全和负载均衡。另外农产品实时价格数据,还增加了综合管理数据库信息数据库等。
  农业知识库中的每条记录由知识组成,而知识的信息主要包括问题的标题、标题分词组、关键词、方言关键词和成因等18个字段。
  1、对问答知识定位时,采用二叉树结构。这样可以确保知识库中每条记录有一个字段记录该二叉树的编码。
  2、在数据库的设计和使用时,需建立视图来确保数据库使用的稳定性。
  3、对每个产业,需构建知识问答、产业专家以及方言词汇转换等6大基本数据库。若该产业需要拓展6个数据库以外的信息,则可以增加一个该产业的子数据库。
  四、查重器的设计和实现功能
  查重器又名查重机,是用于数据查重的机器。在农业知识库的建立中,查重机担任减少知识库的知识冗余的重担,它控制着知识的入口,对于农业知识库至关重要。在系统中,知识库负责整个平台的咽喉——知识的“出”和“进”,是其核心部分。在知识库系统中,如果想录入知识,系统会对知识库内容查重。通过与库中相关记录的相似度比较,低于或高于某阈值时,该知识将被系统拒绝入库。
  1、匹配度的计算公式
  问句的问题与知识库记录的标题是否匹配是至关重要的,反向匹配度:设ND为记录词集中的特征项个数,则PD=N/ND。成为记录词集的匹配度。而匹配度为P=aPC+bPD。其中,a+b=l,a≥0,b≥0。所以应先定义正向和反向匹配度。正向匹配度:设NC为问题词集中特征项个数,N表示问题词集与记录词集相匹配的特征项个数,则PD=N/ND,成为问题词集的正向匹配度。
  最后,通过归一化算法查重。
  2、查重算法评估
  评估查重算法的准确率和召回率。在知识输入时,从知识库中检索到的记录个数与库中已有相关记录总个数的比率称为召回率,从知识库中快速查找数据的精确程度成为准确率。系统用现有常见问题数据库进行查重,结果为
  归一化查重:召回率≥0.024,准确率≥0.88
  向量间模型:召回率≥0.083 准确率≥0.72,
  五、实例列举——莆田农村科技信息网
  莆田市农村科技信息网是在农村、农资信息匮乏,农村信息不畅通的情况下应运而生的。它是以科技信息服务三农的信息平台,以网络信息作为基础,更大的宣传农技,农资,农市场情况,以便用最小的成本达到最大的宣传效果。它提供了六条途径供人们咨询农产品、农市场的基本情况,依次是快速查询,专家咨询,视频点播,信息发布,远程培训,短信订制。它从人们可能接触到的日常生活的几个途径入手,将短信,电话,网络等咨询途径集合在一起。而提供咨询的农作物品种多达十几种,有枇杷、荔枝、文旦柚、莆田黑猪、南江黄羊、莆田黑鸭、龙眼、乌骨鸡、黒鲍、皱纹盘鲍、九孔鲍等等。网站还联系本省的实际,加上了本省的相关的农资资讯和相关农产品的介绍。这些农产品的资讯不是想当然贴上去的,而是切合当地的农业特色。莆田地处福建沿海,当地的气候条件以及地域条件适合以上农产品的生长和发展,所以当地政府才在信息网上着重关注。莆田农村科技信息网在网页设计上有首页、远程教育、成果推荐、科普知识、农情信息、致富信息、科技特派员、政策法规、供求信息、市场行情、莆田特产几个板块。结合当地特色创建适合当地的农村科技信息网络平台才是建立农业知识库的基础。所以,农业知识库的系统的设计一定要结合实际,在技术的支持上实现适合当地特色的农业知识库的建立。
  结语:通过反复测试和实际应用,表明该农业系统的知识库设计合理、分词器和查重器使用效果良好。该系统的研究与开发为农业科技信息服务在深入农业改革的发展中,提供了大力的支持,具有广阔的应用前景。
  参考文献
  [1]吴胜远.一种中文分词方法[J].计算机研究与发展2009,33(4):306—312。
  [2]郑泽芝,张永奎.现代中文语义词典管理系统的设计与实现[J].计算机工程,2009,12(6):25—29。
  [3] 李庆虎,陈玉健.一种中文分词词典新机制一双字哈希机制[J].中文信息学报,2010,17(4):13—18。
其他文献
随着社会主义市场经济的不断发展,社会中的各行各业也都认识到了加强财务管理的重要性,林业作为国民经济重要的组成部分,财务管理的重要性不言而喻。经过调查,有些木兰林管局
探讨建立基于微信平台的具有实时性、互动性的电力类专业课程的自主学习和自主教学新模式,制作相应"微内容",通过微信平台推送给学生,提高学生学习兴趣及自主学习能力。同时
对框架结构中梁柱节点施工技术问题进行了探讨,并针对梁柱节点裂缝的问题提出相关的防治措施,以保证梁柱节点工程的施工质量。
目前国内测量巷道断面常是通过测量高、宽,然后按照不同断面形状套用公式,进行近似计算,这种方法测出来的断面面积有较大的误差。介绍长期以来煤矿中使用的各种测量方法,希望为断
摘要:本文根据学校“应用为本 学以致用”的办学理念,突出高素质技术应用型人才的培养,将CDIO工程教育模式应用到Java系列程序设计类课程中,采用项目为导向的能力培养模式,通过项目驱动、互动学习的教学模式,强化学生的工程实践能力培养。  关键词:CDIO;Java系列课程;项目驱动  1 前言  CDIO工程教育模式是近年来国际工程教育改革的最新成果。CDIO 的理念不仅继承和发展了欧美20多年来
职业道德对任何一个行业来说都是从业人员应该遵守的也是最基本的职业操守,对会计职业来说更为重要。从我国会计职业的道德现状出发,发现高校会计专业职业道德教育中所存在的问
对黄河科技学院非体音美专业和体音美专业2014级学生,关于自主学习能力进行问卷调查和分析,发现民办高校体音美专业学生因其专业特殊性,大学英语自主学习能力较非体音美专业