一种改进的向量空间模型的文本表示算法

来源 :重庆理工大学学报(自然科学) | 被引量 : 0次 | 上传用户:king_63427501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本表示是将可阅读的文字转换成计算机可识别的数据结构的过程,是文本信息处理领域中关注的基础性问题。针对向量空间模型中文本表示的tf-idf算法仅考虑了词项特征与文档之间的关系,没有考虑与类别关联性的问题,引入数理统计卡方分布方法,以此改进了tfidf算法,构成为新算法tf-idf-cθ。该算法将词项的卡方分布值c作为文本表示的一个因子,用该c值来衡量词项在文本类中分布的差异,并且引入词性因子θ,得到改进向量空间模型的表示文本。对改进前后的2个算法进行文本分类实验,结果表明:改进后的算法得到了提升,部分解决
其他文献
果树苗木根瘤病是果树的一种重要根部病害,影响植株的正常生长,使其长势衰弱,甚至死亡,严重制约主产区果苗业的发展。因此广大苗农必须掌握果树苗木根瘤病的防控技术。1发病
由于“生成”理念的出现,课程也由此变成一种动态的,生长性的“生态系统”和完整文化。这种课程观的重大变革所带来的教学改革,被认为能够真正进入教育的内核,成为课程改革与发展
传统的惯性/天文位置组合导航系统中,由于天文定位观测输出耦合了水平观测平台基准误差,往往存在系统噪声与量测噪声不完全独立的问题。针对此问题,分析了利用天文观测量修正
<正> 对于一种客观的自然原则,自然科学的理论解释往往是多元的,从数学的角度看,可以很容易证明,这种理论性的解释有无穷多个。但是,人们为什么会选择某一个,而不去选择另一
研究产品的市场变化及发展规律是企业营销的关键.随着市场竞争的加剧,多元化的影响因素必然导致产品正常的市场寿命周期发生不同形态的变异.企业要获得竞争优势必须对其变异
为探索樱桃矮化砧木YT101嫩枝扦插的最优条件,解决该砧木扦插成活率低的难题,研究扦插时期、木质化程度、扦插基质对其扦插生根的影响。结果表明,5月上旬进行嫩枝扦插,扦插苗
绿豆(Vigna radiata)是印度重要的豆类作物。Solomon等(1957)曾首次报道过豆类的杂种优势,但关于绿豆的资料却有限。为了培育高产品种,在开辟一条把分散于不同基因型中的众
目的探讨高分辨率磁共振成像(HRMRI)在大脑中动脉狭窄或闭塞中的诊断价值。方法2012年4月一2013年3月收治47例缺血性脑血管病患者,先后行MRA、HRMRI及DSA检查,以DSA为金标准.结合M
分析目前中国农业机械化专业的办学现状,针对农机专业的办学困难,从创新办学模式、改革教学体系、兴建实训基地、加强师资团队建设,以及创新评价激励机制方面提出了专业建设
通过对BIT(Build in test,机内测试)技术在LCC(Life Cycle Costs,全寿命费用)中的影响分析,建立采用BIT技术后的LCC增量模型,研究了采用BIT技术对装备的全寿命费用产生的影响
期刊