基于NB和CHI值的农业文本分类方法

来源 :江苏农业科学 | 被引量 : 0次 | 上传用户:WIN_Hardy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对采集自网络的农业文本进行自动化分类是进一步利用的前提。拟提出1种结合朴素贝叶斯(naiveBayes,简称NB)和χ2(Chi-square,简称CHI)特征词选取的农业文本分类方法,并用Python语言实现相应的文本分类程序和特征词选择程序。通过从农业信息网站获取已经过良好分类的文档,并对其进行净化、分词等预处理,构建含有4种文本的农业语料库。针对特征词选择数量、训练样本数等对分类识别率的影响及用标题进行网页文本分类的可行性问题开展研究。结果表明,文本分类的正确率主要由CHI值较高的少量特征词条决定,
其他文献
“洒”和“撒”是一对近义词,现在媒体上常常混用,值得一辨。我们以为,“洒”和“撒”的相同点有:
“大音希声”作为老子“喻道”的一个比喻,在经历历代文人的注释解读后,呈现出音乐美学思想不同视角下的美学命题。其既被道家音乐美学思想发扬,又被儒家“礼乐”、“中和”思想
对浩翰天体的观察,并将之秩序引入生活模式,这是上古文明的一大特点,而宇宙之乐的思想在许多文化中都有表现。强调太一(元气)与阴阳(虚实)之和则是中国的宇宙之乐的特点。老子的
根据拖挂车在弯道行驶的受力情况,推导出在车辆正常行驶和发生甩尾情况下车轮的行驶轨迹;并设计了状态感知向量及分量取值条件,以便驾驶员能对当前交通状况和外界环境的感知
针对肘杆式液压注塑机开模过程中存在的液压冲击现象,为减小开模时振动冲击对注塑机的影响以及更好地对开模过程的振动冲击进行控制,根据注塑机的工作原理,设计了压力与振动
职业院校学前教育专业学生是幼儿教师的预备力量,其信息素养直接关系到学前教育信息化水平。通过对湖南长沙地区职业院校学前专业学生进行调查,发现这一人群信息技能欠缺,不
在高职院校大力推广“同伴互助”的教学和科研团队是高职院校提升教师队伍专业能力和教学科研水平的必然选择,通过“同伴互助”的文献综述和市场调研的统计分析,提出高职院校
世人都说神仙好,但要修成神佛并非易事。而孙悟空这只野生石猴,为什么却能在短短的数百年间便迅速修成正果,被佛祖如来亲口封为斗战胜佛呢?近日笔者带着这样的疑问,再次认真
【正】 《契丹国志》是第一部通记辽朝一代之事的纪传体史书,也是目前除元修《辽史》之外最系统最具有参考价值的文献,但是关于这部书的来历却是一个使人们困惑已久的问题。
目的:探索高校医疗卫生机构(校医院)开展社区卫生服务的必要性和可行性。方法:分析高校社区具有的特点,研究高校开展社区卫生服务的形式和内容。结果:提出了健全高校社区医疗保健