基于关键字语义信息的XML文档分类

来源 :吉林大学学报(工学版) | 被引量 : 0次 | 上传用户:bbatdead
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对XML数据半结构化的特点及传统的tf-idf方法仅考虑关键字在文档中出现的频率和包含关键字的文档数,而未考虑XML文档中关键字语义信息的不足,提出了一种新的关键字权重度量方法。该方法充分考虑了XML文档中关键字所出现的路径、路径包含关键字的个数、包含路径的文档个数、路径的层次等影响关键字语义的因素,用于计算关键字权重,从而提高了关键字权重度量的准确性。在多个数据集上的实验结果表明,将该方法应用于XML文档的分类时,与传统的tf-idf方法和基于规则的方法相比,分类的查全率、查对率及F1均有所提高。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
以中国樱桃为原料进行了酿造樱桃发酵酒的实验。中国樱桃出汁率为78.2%,含糖量为15.3g/100g,含酸量为0.46g/100g,其它营养指标与葡萄相似,可以作为果酒发酵酒的原料。本实验
《论共产主义教育》是杰出的无产阶级战士、德高望露的老布尔什维克、工人出身的天才宣传鼓动家加里宁的代表作。这部著作汇集了作者从二十世纪二十年代至四十年代近二十年闻
<正> 1902年,在美国西北怀俄明州的一个边远小镇上,一个名叫吉姆&#183;彭尼的青年人开了一家店号叫“金律”的小布店。开张那一天,营业额好不容易才达到470美元。可是,有谁想
随着现代化高产高效大型矿井的建设,选煤厂的规模也在相应扩大,现代化大型选煤厂对选煤设备、方法和安全生产提出了更高的要求。通过分析选煤厂职工安全生产培训中存在的问题
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
文中发展了距离速率控制算法(RRCA),以致在轨道平面内的任意设置的方向上都可获得稳定的直线交会轨迹,即所谓全方位自主交会控制方法。论述中,采用了动力学和稳定性分析,最优
意识形态是个历史范畴,它孕育于启蒙运动,由特拉西最先创立,并随着拿破仑的批判而转变成一个否定性范畴。通过将自身思想发展与时代问题深层契合,马克思破除了传统意识形态范畴的
业已施行的《上海市外资内销平价住宅开发收购管理办法》及其相配套的《上海市外资内销平价住宅出售管理办法》,其内容主要有: ——凡在上海市三级以下(含三级)地段的危棚简
随着素质教育的实施及教学体制的变化,现阶段高校教育教学过程中越来越重视体育教学,在体育教学中篮球教学属于较为重要的组成部分,每个高校均会成立一支属于本校的篮球队,篮