文档相似度量算法的研究与应用

来源 :淮海工学院学报(自然科学版) | 被引量 : 0次 | 上传用户:bocha007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对向量空间模型在文档相似度量方面的局限,提出了基于计算公共子串的文档相似度量算法。对求公共子串算法进行了改进,提高了空间效率。用XML存储学生毕业设计论文文档,通过Java提供的DOM API生成文档对象树。深度优先搜索树中结点,进行结点比较,计算论文文档中出现的雷同文本,结合文档的结构相似性,能有效计算文档相似度。
其他文献
中国有企业品牌,但无产品品牌。没有产品品牌的存在,企业品牌只不过是一个空壳。生产加工企业的工业产品出口利润正在不断下降,而外国品牌在中国的市场份额正在增加。因此,打
当代电子图书是依托于互联网技术而产生的新的文化知识载体,它对于我国的信息技术是一种考验,同时也是一种发展模式的改革。电子图书自在国外产生并发展以来,迅速引入我国,并
天降赤雪是一种极为罕见的自然现象,从南朝沈约开始,人们都将此视为赤祥,并进行了相应政治事应模式的建构。而宋朝孙甫却将其视作赤眚。孙甫从赤祥到赤眚的书写,反映了从南朝
目前原子荧光、电感耦合等离子体质谱(ICP—MS)检测方法已经广泛应用在食品安全检测领域,但是在实际检测工作中仍存在不足之处。针对牛奶中重金属汞与砷的检测方法进行了改进,从
以5份优良玉米自交系为试材,采用农杆菌侵染玉米萌动胚的方法转化蓝铜蛋白类似基因BcBCP1,同时优化遗传转化体系。结果表明,菌液浓度为OD600=0.8、侵染24h、共培养3d时,遗传
近期国内外一系列公司财务丑闻的陆续曝光,引起世人的极大关注,而注册会计师在很多案例中都扮演了不光彩的角色,本文通过若干模型,拟从经济人、道德人、全面发展人等人性假设理论
在高温超导体发现后不久的1989年,Uemura等提出了一个描述欠掺杂材料的Tc关系式,即ρs=BTc,其中B是常数,超流密度ρs≡ωρs^2=4πnse^2/m^*,而ωρs是超导态等离子体频率,ns是超导
消防执法是行政机关依据法律法规履行消防监督管理职能的行政行为,具有单向性和强制性。因此,通过立法建立完善的行政监督体制,对消防执法进行监督和制约是十分必要的。但目前我
音乐艺术自身的魅力会给人以积极向上、奋发进取的精神力量,给人以崇高的理想和高尚的品德。音乐与班级管理之间存在着特定的关系,本文通过笔者自己的实践,阐述了音乐在班级
【正】知识经济是一种以知识和信息的生产、分配、传播和使用为基础,以创造性的人力资源为依托,以高科技产业和智业为支柱的全新的经济形态。知识经济的兴起,将对人类社会的