大规模语料库相关论文
本文针对汉语语料库量名词搭配困难的现象,借助现代汉语大规模标注语料库和计算机自然语言处理技术开发出一种能够辅助汉语量名搭配......
在当前的基于统计的翻译方法中,双语语料库的规模、词对齐的准确率对于翻译系统的性能有很大的影响。虽然大规模语料库可以改善词语......
日本、韩国、越南等东亚国家的汉字一直是社会各界关注的热点.由于日韩越三国分别实行不同的语言政策,其结果是日本书面语中仍大量......
与现有绝大多数以单个句子为依据的蛋白质自动识别方式不同,文中基于大规模语料库提出了引入句法和单词相似性这两个因素的蛋白质......
提出了基于大规模语料库的多引擎翻译系统模型的构建,该模型主要包括三大部分:基于层次化长句分解和支持向量机基本名词识别的句法......
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语......
本文通过对大规模真实语料的统计和分析,比较了不同领域词汇量、词类比例等特征的差异.在此基础上,对TF*IDF文本分类器中采用的TF*......
提出了一种大规模语料库可用性评测方法。通过分析语料库工程的生命周期,构建了大规模语料库可用性评测指标体系,运用层次分析一模糊......
低成本、短周期构建大规模语料库是目前研究工作的难点之一。该文提出一种建设大规模语料库的新方法,主要解决如何基于Web构建大规......
为提高维吾尔文网络内容查询的扩展性能,提出一种将维语同义词和互联网资源相结合的扩展词构建算法。利用维吾尔语同义词词典、近......
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清......
建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一。在......
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上......
针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习,提出了一种大规模的多语料库联合学习的中文分词方法......
中文分词技术的研究是中文信息处理的一项基础性课题,广泛应用于搜索引擎、机器翻译、信息抽取、文本聚类等领域。目前,影响分词质......