网页去重系统的设计与实现

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:WSLBCW
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对互连网上近似镜像网页严重降低搜索引擎效率的现象,提出了一种去重的方法。该方法通过句子在文中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法在提高运算效率的同时,保证了较高的准确率和召回率。
其他文献
在Google应用中使用的语言模型与其公开的Web 1T 5-gram库有很大不同,一个根本的差异体现在是否忽略标点符号。本文以谷歌拼音输入法作为切入点,通过典型性实例揭示了Google语言模型的两个具有普遍性的缺陷:内嵌标点也算连续字串,外部链接视同文档内容。文章给出了弥补这些缺陷的建议。
本文提出了把词典和马尔可夫随机域的潜在语义扩展相结合的新方法,充分的利用了现有词典资源,又克服了单一使用词典方法的局限性和单一使用语义扩展的不确定性,扩展出查询词的同义近义词,上下位词和潜在语义相关词,实验表明该方法能比较好的解决跨语言信息检索中翻译项的歧义问题。
本文在汉语框架语义知识库的基础上,利用语义WEB语言,通过汉语框架语义知识库对问题进行语义分析,并利用旅游本体知识库对答案进行抽取并对答案处理,建立了1004条旅游问句库和旅游本体模型。
对联,雅称“楹联”,俗称对子,它言简意深,对仗工整,平仄协调,是一字一音的汉语语言独特的艺术形式,可以说对联艺术是中华民族的文化瑰宝,如何利用计算机自动生成对联是一个值得研究的方向。本文开发了一种基于前向最大匹配和一阶马尔科夫模型的对联系统。首先对用户输入的上联进行前向最大匹配的切分,进而发现匹配结果的若干候选,利用一阶马尔科夫模型假设和动态规划算法找到和上联最为匹配的下联,初步的实验结果表明我们
查询扩展是信息检索中关键问题之一,查询扩展的有效性决定其检索性能。用户查询日志是大量用户长期查询行为的记录,通过挖掘用户查询与用户日志之间的联系,构建相关词表,从而实现查询扩展。本文提出了一种结合局部上下文分析与用户行为分析的查询扩展方法,该方法在选择相关用户日志时加入用户查询行为信息,获取相关词表时采用局部上下文分析方法。在54000篇语料上的测试表明,该方法相对于未扩展时准确率提高50%以上。
互联刚金融信息对于金融市场的影响在当代已经越来越不可忽视.面对海量的信息,其中大部分为非结构化的文本数据。本文结合目前已有的文本倾向性算法,把信息的褒贬值作为外部变量加入到针对股价波动率建立的时间序列模型中去,对金融市场的股价波动率进行预测。实验揭示了金融市场波动率与互联网上金融新闻的相关性,并且提出了一种有效的股市预测方法。
本文利用K-最近距离的方法对哈萨克语报纸进行分类,初步实现了利用统计词频信息和语言信息相结合的方法选择特征词,且计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度,经过训练和统计对哈萨克文文本形成特征的权重向量,之后根据K-最近距离判断测试文本的所属类别,从而实现了本文提出的哈萨克语报纸分类的目标。
本文根据垃圾博客和正常博客在内容特征上的差异,对多种针对博客分类有效的统计特征进行了分析,提出了基于博客内容统计特征的过滤方法。在Blog06数据集上的实验表明,该方法的过滤准确性达到97%,比基于词频特征的过滤方法提高了约7%,在不同规模训练集上的准确性保持在95%左右,具有更好的泛化能力。
本文针对面向查询的多文档自动文摘,提出了一种利用关键词提取技术的文摘句选择策略。通过计算多文档集中词语的查询相关性特征和语料相关性特征,并将词语的两个特征值进行特征融合得到每个词语的重要度,随后通过词语的重要度来给候选句打分,进一步利用改进的MMR技术来调整候选句的得分,最后生成文摘。本文将特征融合引入到词语层面,存DUC2005的语料中测试效果很好。
本文将古文对联规则区分为硬规则与软规则,用软规则指导建立对联应对的有向概率图模型,使用EM算法估计模型参数,在解的搜索过程中加入硬规则而完全实现对联的自动应对。实验结果表明,参数学习后的候选字列表由于去除了部分上下文的影响,比仅用频次统计的候选字列表更为合理,系统能够对训练语料库中工整与不工整的对联区分学习。