用于Web文本分类的快速KNN算法

来源 :情报学报 | 被引量 : 0次 | 上传用户:lhtskl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
KNN算法是一种简单、有效、非参数的web文本分类方法。传统KNN方法的明显缺陷是样本相似度的计算量很大,使其在具有大量高维样本的web文本分类中缺乏实用性。本文提出一种快速查找精确的k个最近邻的FKNN(Fast-k-Nearest-Neighbor)算法。FKNN算法首先选择一个样本作为基准点,并将所有样本按照距基准样本的距离进行排序并建立索引表,然后根据索引表和有序队列查找k个最近邻,减小了查找范围,极大降低了相似度计算量。
其他文献
所以,路子不在吞并更不在直辖,而在飞地经济和大都市圈扩容。4月29日,深圳市发改委对外公布2020年工作计划,表示将加快推进深圳都市圈规划编制,明确提及将协调东莞、惠州、河
相关性是情报学尤其是信息检索研究巾最基本的概念。本文总结了早期相关性研究所取得的主要进展,重点对近期相关性的理论研究(特别是相关性类型及其关系、相关性评价研究)和实证
本文首先分析了目前网络链接研究在方法领域存在的问题,进而提出构建方法的原则和思路,并以对美国商学院网站链接特征的研究为例,从样本的选择、原始数据的获取、数据的提取
《新课程标准》提出,教育要“以人为本”,提升学生的课堂参与意识,帮助学生加强自我反思、调节,促使学生实现自我突破。这就要求教师在日常教学过程中加强培养学生的元认知能
目的 评价美沙拉嗪缓释颗粒治疗溃疡性结肠炎(UC)的疗效.方法 选取2015年2月~2016年1月我院收治的溃疡性肠炎患者76例作为研究对象,随机分为A、B两组,各38例.A组患者给予美沙拉
改革开放以来,我国的经济得到了突飞猛进的发展。政府要满足不断增长的社会公共需求、解决公共利益需要和财政保障之间的矛盾,推动政府预算支出绩效的不断提升实行预算管理。
我院急救中心自2004年1月~2008年5月,曾出车接收22起重特大车祸伤员,均采用院前急救-院内急救-病房或ICU一体化急救模式,取得了满意的效果。院前急救、院内急救、急诊ICU三者的互
<正>从对日本一个单元教学质量评价的截然不同的观点谈起。1992年中日学校体育大会上,有一位日本学者给中国同行放映了一段一所日本小学舞蹈教学的单元教学的录像片段。这位
杭州楼市,从来不缺话题与热度,无论是限价的突破,亦或者是火热的拍地潮,风云激荡之后,总有经典被诞生,又有多少浪沙随涛去。如何谋篇布局,打造更宜居、更凸显产品力的项目,是
用户满意度水平研究对网络数据库运营效率的提高有着重要意义,本文以ACSI为测评理论模型,依据网络数据库的具体情况,构建了一套评价体系,并对国内四大著名的数据库网站进行用