海量数据集上基于特征组合的关键词自动抽取

来源 :情报学报 | 被引量 : 0次 | 上传用户：chenliquanhao

【摘要】

：

关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇。小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现，但是大规模分布复杂的

【作者】

：

张庆国薛德军张振海张君玉

【机构】

：

中国学术期刊（光盘版）电子杂志社清华同方光盘股份有限公司,中国科学院研究生院数学系

【出处】

：

情报学报

【发表日期】

：

2006年5期

【关键词】

：

关键词自动抽取特征组合海量数据集 TF×IDF automatic keyword extraction feature combination

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇。小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现，但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及。本文利用现有的信息检索技术，对海量数据集上自动抽取关键词问题进行了研究，给出了一个基于特征组合的关键词自动抽取方法。该方法构造了一个大规模的关键词词典；基于TF×IDF值和其他特征，提出了更有效的关键词权重计算方法；根据关键词本身的特点，对候选关键词进行了后处理，使得抽取的关键词更符合读者的要求

其他文献

Cs（6^2D5/2）与H2反应生成的CsH分子的转动和振动态分布

利用激光泵浦-探测技术,在样品池条件下,研究了Cs（6D5/2）态与H2反应生成的CsH分子基电子态的转动和振动的量子态分布。在Cs-H2混合蒸气中,脉冲激光双光子激发Cs（6D5/2）态,另一台

期刊

激光化学三体反应激光诱导荧光布居数分布Cs-H2Laser chemistry Three body reaction Laser induced f

论标准在法律法规中的实施

标准化是一个包括制定标准、实施标准和对标准的实施情况进行监督和检查的过程,并通过这一过程,达到有序地组织和管理生产、控制产品质量、促进贸易和交流、保障健康和安全、

期刊

制定标准法律法规合理利用资源产业结构调整实施情况产品质量保护环境市场秩序科技成果标准化

文献计量法与内容分析法的综合研究（Ⅰ）——综合方法研究的可行性、思路与原则

交叉与综合是社会科学研究创新发展的新视野，定性方法与定量方法的综合研究是当前国际前沿研究的重大课题和新的趋势。文献计量法和内容分析法是图书情报学等领域的方法论体系

期刊

文献计量法内容分析法综合研究可行性研究思路方法论bibliometric method content analysis method synth

氮含量对高磁感取向电工钢初次再结晶行为及磁性能的影响

针对薄板坯连铸连轧流程结合同步脱碳与渗氮工艺所制备的低温HiB钢,采用光学显微镜、扫描电镜与EBSD技术等手段,系统研究了钢中氮含量对初次再结晶组织与织构以及成品磁性能

会议

取向电工钢低温板坯加热脱碳退火渗氮工艺初次再结晶行为磁性能氮含量

色彩转换膜对白色有机电致发光光谱的影响

利用蓝色有机发光二极管激发荧光色彩转换膜的方法,制备了一种新型的白色有机电致发光器件。蓝色有机发光二极管的发光层采用4,4’-Bis（carbazol-9-yl）biphenyl（CBP）主体掺杂高效

期刊

有机电致发光有机/无机复合色彩转换膜白光Organic light-emitting device Organic/inorganic color con

石墨粒度对6061铝性能的影响

选择6061A1为基体的铝合金，用同样质量分数的纳米级和微米级的石墨作为增强剂研究石墨粒度对6061A1性能的影响。分别从抗磨损、拉伸强度和阻尼性能几个方面对复合材料进行研究

期刊

纳米石墨(nano-Gr)微米石墨(micron-Gr)6061Al性能nano-graphite micron-graphite 6061A1 cha

基于GA和SCMWPLS算法的NIR光谱信息变量提取研究

光谱数据压缩、信息变量提取是近红外应用研究的热点，是简化模型、提高预测精度的重要手段。本文以杏可见／近红外光谱为例，采用二阶导数、标准化和正交信号校正（OSC）处理以滤除光

期刊

近红外光谱变量提取正交信号校正区间组合移动窗口偏最小二乘法遗传算法杏NIR spectroscopy Variable selection Orth

《本草纲目全本图典》书评

<正>《本草纲目全本图典》(陈士林主编,人民卫生出版社,2018年)是近年《本草纲目》药物研究的一部力作。该书正文收载大量精美的彩色摄影图片,多数药物图片能从不同角度反映

期刊

《本草纲目》

海量数据集上基于特征组合的关键词自动抽取

其他学术论文