【摘 要】
:
本文利用K-最近距离的方法对哈萨克语报纸进行分类,初步实现了利用统计词频信息和语言信息相结合的方法选择特征词,且计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度,经过训练和统计对哈萨克文文本形成特征的权重向量,之后根据K-最近距离判断测试文本的所属类别,从而实现了本文提出的哈萨克语报纸分类的目标。
【机 构】
:
新疆大学信息科学与工程学院 乌鲁木齐 830046 新疆大学 乌鲁木齐 830046
论文部分内容阅读
本文利用K-最近距离的方法对哈萨克语报纸进行分类,初步实现了利用统计词频信息和语言信息相结合的方法选择特征词,且计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度,经过训练和统计对哈萨克文文本形成特征的权重向量,之后根据K-最近距离判断测试文本的所属类别,从而实现了本文提出的哈萨克语报纸分类的目标。
其他文献
如何让计算机根据自然语言的语义表示消解句子乃至段落篇章中的人称代词,一直是自然语言处理的一大难题。本文依据HNC理论的句类表达式和语义块构成的相关知识,提出了一种基于语义结构平行的人称代词消解算法,通过定义句子语义块的层次结构,制定相关的人称代词消解规则和算法,实现了段落中人称代词的指代消解,经开放测试表明该方法具有较好的消解效果。
冠词选择需要综合考虑语言知识、语义知识以及世界知识,是汉英翻译中的一个难点。本文针对传统的基于规则和机器学习的方法只考虑名词短语前冠词选择的问题,将冠词看作一种标记,将该问题形式化的描述为一个序列标注任务,提出一种基于条件随机场的解决策略,选取特征时充分利用词、词性等多层次资源,并引入前后词的互信息。实验采用包含91106个冠词的专利摘要做测试语料,F值达到80%。
本文以实词作为特征,采用Na(i)ve Bayes和最大熵分类模型进行主客观句子的判别。在公开的评测语料MPQA上实验结果显示:Na(i)ve Brdyes相比于最大熵模型取得了较好的性能,两者对主客观句子的判别具有互补性。为了改善间接主观性句子的识别性能,文章提出了三类训练两类判别的分类框架,有效地改善了主客观句子的分析性能。
全自动的语义分析一直是自然语言理解的主要目标之一。通过深层语义分析,可以将自然语言转化为形式语言,从而使计算机能够与人类无障碍的沟通。为达此目的,人们已经进行了多年的努力,然而由于这一问题过于复杂,目前取得的效果并不理想。浅层语义分析是对深层语义分析的一种简化,它只标注与句子中谓词有关的成份的语义角色,如施事、受事、时间和地点等,其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。语义角色标注
在Google应用中使用的语言模型与其公开的Web 1T 5-gram库有很大不同,一个根本的差异体现在是否忽略标点符号。本文以谷歌拼音输入法作为切入点,通过典型性实例揭示了Google语言模型的两个具有普遍性的缺陷:内嵌标点也算连续字串,外部链接视同文档内容。文章给出了弥补这些缺陷的建议。
本文提出了把词典和马尔可夫随机域的潜在语义扩展相结合的新方法,充分的利用了现有词典资源,又克服了单一使用词典方法的局限性和单一使用语义扩展的不确定性,扩展出查询词的同义近义词,上下位词和潜在语义相关词,实验表明该方法能比较好的解决跨语言信息检索中翻译项的歧义问题。
本文在汉语框架语义知识库的基础上,利用语义WEB语言,通过汉语框架语义知识库对问题进行语义分析,并利用旅游本体知识库对答案进行抽取并对答案处理,建立了1004条旅游问句库和旅游本体模型。
对联,雅称“楹联”,俗称对子,它言简意深,对仗工整,平仄协调,是一字一音的汉语语言独特的艺术形式,可以说对联艺术是中华民族的文化瑰宝,如何利用计算机自动生成对联是一个值得研究的方向。本文开发了一种基于前向最大匹配和一阶马尔科夫模型的对联系统。首先对用户输入的上联进行前向最大匹配的切分,进而发现匹配结果的若干候选,利用一阶马尔科夫模型假设和动态规划算法找到和上联最为匹配的下联,初步的实验结果表明我们
查询扩展是信息检索中关键问题之一,查询扩展的有效性决定其检索性能。用户查询日志是大量用户长期查询行为的记录,通过挖掘用户查询与用户日志之间的联系,构建相关词表,从而实现查询扩展。本文提出了一种结合局部上下文分析与用户行为分析的查询扩展方法,该方法在选择相关用户日志时加入用户查询行为信息,获取相关词表时采用局部上下文分析方法。在54000篇语料上的测试表明,该方法相对于未扩展时准确率提高50%以上。
互联刚金融信息对于金融市场的影响在当代已经越来越不可忽视.面对海量的信息,其中大部分为非结构化的文本数据。本文结合目前已有的文本倾向性算法,把信息的褒贬值作为外部变量加入到针对股价波动率建立的时间序列模型中去,对金融市场的股价波动率进行预测。实验揭示了金融市场波动率与互联网上金融新闻的相关性,并且提出了一种有效的股市预测方法。