【摘 要】
:
招聘信息检索与传统信息检索存在较大差异,传统检索方法不能实现良好的招聘信息检索效果。为解决该问题,本文提出二阶段招聘信息检索方法,针对招聘信息的标题文本和职位描述文本分两阶段分别进行不同的处理。第一阶段本文采用VSM模型对标题文本进行初步检索,将相关度较高的招聘信息视为种子;第二阶段,本文采用文本相似度度量方法和聚类分析方法,在招聘信息全集中寻找与种子相似度较高的招聘信息。通过结合“请求-文档”相
【机 构】
:
清华大学,计算机系,北京,100084 清华大学,信息技术研究院语音和语言技术中心,北京,1000
论文部分内容阅读
招聘信息检索与传统信息检索存在较大差异,传统检索方法不能实现良好的招聘信息检索效果。为解决该问题,本文提出二阶段招聘信息检索方法,针对招聘信息的标题文本和职位描述文本分两阶段分别进行不同的处理。第一阶段本文采用VSM模型对标题文本进行初步检索,将相关度较高的招聘信息视为种子;第二阶段,本文采用文本相似度度量方法和聚类分析方法,在招聘信息全集中寻找与种子相似度较高的招聘信息。通过结合“请求-文档”相关度和“文档-文档”相似度,最终计算相似招聘信息与搜索请求的相关度,完成检索结果综合排序。实验证明,这个方法能有效提高招聘信息检索系统的性能。
其他文献
该文介绍了该厂1#炉在大修期间对回转式空气预热器密封装置的技改及改造后空气预热器的运行状况,并分析了空气预热器的密封系统改造后所产生的效益。
建立了内燃机余热吸附制冷系统的集中参数数学模型,以吸附速度方程表示吸附剂对吸附质的非平衡吸附过程,分析了余热吸附制冷系统的动态特性,讨论了操作温度对内燃机余热固体吸附制冷系统性能的影响。数值模拟标明,COP具有一定的“鲁棒性”,而SCP比COP对外界操作条件的变化更为敏感。
本文基于大规模中介语语音语料库,运用实验语音学的方法和手段,以独立性、区分性、稳定性三项参考指标,对藏语卫藏方言区的30 位拉萨人和安多方言区的30 位西宁人所呈现出来的普通话单字调系统进行了分析,并在此基础上对藏语不同方言区的学习者在习得普通话过程中存在的声调缺陷和问题进行了概括:1、比较而言,去声独立性和稳定性最好,最容易掌握;2、对卫藏方言区的学习者来说,上声最难掌握,调值类型变体较多,且容
本文研究了自然语流中汉语普通话辅音[r]的声学特征。语料取自捷通华声语音数据库,通过对声音样本的对比研究,结果表明:1.从发音方法角度来看,可以把辅音[r]分成清擦音,浊擦音和通音三类;2.研究还发现[r]的声学特征不仅与所处的韵律位置有关,同时受上下文的影响,其中后韵母的影响明显,前韵母的影响较小;3.辅音[r]具有逆向作用,表现为在前音节以元音结尾时,其各次共振峰具有明显的指向[r]的类共振峰
日本学习者在学习汉语时常常有r、l 不分的问题。本文通过声学实验对中、日发音人产生的普通话的r、 l 声母进行考察和对比,并归纳总结了日本学习者产生“r、l”声母的主要偏误类型,分析了这些偏误的产生原因。本文的研究结果可以给对日汉语教学及计算机辅助发音学习提供一些方法或思路。
在与文本无关的说话人识别研究中,因子分析是减少信道影响的最有效的方法之一,但是因子分析复杂的运算使得因子分析在实时中很难得到应用。本文提出采用主成分分析的方法简化因子分析的过程。首先在模型域中估计出信道因子所在的空间,然后通过映射的方法在特征参数域中减去信道因子的影响。在2006年数据库上,采用本文推荐方法的系统相对基线系统在等错误率上有24%的降低。
随着音频处理技术的发展,对歌曲演唱进行自动评价逐渐引起了大家的兴趣。本文结合音频信号处理技术和动态规划的搜索算法,提出了一种利用音高序列和音符时长序列对清唱语音进行自动评价的方法,在此基础上,实现了清唱评分和清唱纠错系统。本文描述了该系统的框架和流程,并介绍了系统中用到的关键技术:音符切分,音高提取,节奏提取,得分归一化技术以及乐谱库的建立。实验结果验证了该方法的有效性。
本文分别采用了多元线性回归算法和反向传播算法对二语学习中英语口语的人工评分和三种机器评分之间的关系进行学习,实现了上述三种机器评分的融合,并从语音库、相应的人工评分和机器评分三个角度对数据集的建立进行了详细的介绍。实验结果表明,由以上两种融合方法得到的机器总分与人工评分之间的相关度相比于融合前的最佳机器评分在句子层次上分别提高了1.4%和1.7%,在说话人层次上提高了0.6%,并显著降低了两者之间
为了更好地研究普通话声调在连续语音中的变化规律,本文对普通话声调进行精细建模,即建立上下文相关的声调模型(Context Dependent Tone Model,CDTM)。该模型兼顾了当前音节的声韵母、前后音节的声调、后音节的声母以及当前音节在韵律词和短语中的相对位置等因素对各个声调的影响。实验结果表明,CDTM与传统的三音子模型(tri-phone model)在声调识别上的效果基本一致,但
在语音识别的HMM模型中对高斯分量进行共享(高斯绑定)是模型压缩中的重要技术,现有基于均匀分配的高斯绑定技术,不能有效地利用高斯,容易造成冗余。本文提出了基于非均匀分配的高斯绑定技术,给出了分别在最大似然准则、最小KLD准则和最大BIC准则下高斯成份数目的非均匀分配方法,在WSJ0数据库上进行实验,结果表明,该技术能够在模型总高斯数相同的条件下,与现有的基于均匀分配的高斯绑定技术相比,可以进一步提