【摘 要】
:
目前的研究大多把向量空间模型中特征项的选取与权重的计算分开,掩盖中文分词时产生的语义缺失,导致特征项区分度下降。为此,提出一种基于统计与规则的关键词抽取方法。利用
【机 构】
:
菏泽学院计算机与信息工程系,山东师范大学信息科学与工程学院,山东省分布式计算机软件新技术重点实验室
【基金项目】
:
国家自然科学基金资助项目(60873247), 山东省高新自主创新专项工程基金资助项目(2008ZZ28)
论文部分内容阅读
目前的研究大多把向量空间模型中特征项的选取与权重的计算分开,掩盖中文分词时产生的语义缺失,导致特征项区分度下降。为此,提出一种基于统计与规则的关键词抽取方法。利用句法规则提取出基本短语,以取代词袋模型中的词,考虑特征项位置、分布及语法角色等信息,综合加权计算特征项权重。实验结果表明,与现有方法相比,该方法能够更有效地进行文本信息过滤。
其他文献
在频谱共享环境下,基于译码转发协议和最佳中继选择方案提出一个含有直射信道的两跳中继选择通信系统,并对该系统进行性能分析。系统利用半双工的通信模式,信源及各个中继节点均
提出一种基于本体的Deep Web数据源发现方法,采用网页分类、表单内容分类、表单结构分类方式,确定符合某领域的DeepWeb查询接口。在网页分类和表单内容分类中引入本体的半自
线性递归序列的容错综合问题在流密码分析领域具有重要的理论分析与应用价值。利用伽罗华域上2个变元多项式F[x,Y]的齐次理想刻画齐次关键方程的解空间,通过齐次关键方程解决线
在块正交匹配追踪算法中,候选集匹配原子块的选择策略对信号重建具有重要作用,但是该算法在迭代选择原子块的过程中,每次选择当次最优迭代的原子块,并不能保证最终迭代性能是最优
目的观察益气补肾颗粒对髓系微小残留白血病患者的3、5年持续完全缓解率及生存率的影响。方法本研究为多中心随机双盲对照临床研究,治疗组予益气补肾颗粒,对照组予安慰剂炒麦
随着用户输入查询的自由度越来越高,导致已有半结构化数据检索模型无法满足用户需求。针对该问题,提出一种新的半结构化数据检索模型。在对原始查询进行分词后,把得到的词条