拼音输入法词库广度及选词精度全测试

来源 :网络与信息 | 被引量 : 0次 | 上传用户:guohan123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  据艾瑞咨询前不久发布的桌面软件市场数据显示,搜狗输入法已经成功抢占了80%以上的输入法市场份额,成为输入法市场上无可争议的领头羊。搜狗输入法自正式上线以来就迅速吸引了众多输入法用户,紫光输入法、微软拼音等一大批输入法老将纷纷折戟。时至今日,输入法市场上依然硝烟不断。继搜狗之后,谷歌输入法和QQ拼音也相继面世,面对输入法市场上的众多优秀品牌,用户究竟该选择哪一种呢?笔者将从下列几个方面对目前市场上的三大主流输入法:搜狗、谷歌以及QQ拼音,进行一番深入的品质评测。
  
  一、词库覆盖率评测
  
  词库功能的强弱在一定程度上关系着一款输入法的强弱。在智能ABC、微软拼音占有市场主流用户的时代里,输入法自带的固定词库是用户打字的词汇基础。而后随着搜狗输入法面世,率先采取了二元结构组词造句,这一现状被彻底打破。搜狗输入法融合了搜索引擎技术,使网络新词等可以即时在线更新至固有词库,从而实现了词库的无限扩充,这也就是后来业界所定义的“网络化输入法”。事实上,网络化输入法较之以往,最大的改进就是对固有词库边界的打破。搜狗作为网络化输入法的鼻祖,是否真正达到了词库覆盖率上的突破呢?谷歌、00输入法等后进者又能否在模仿的基础上超越搜狗呢?笔者采用百度百科的一个子集作为评测集合。得到了以下三大输入法词库覆盖率的统计数据:
  从表中可以看出。搜狗输入法的词库覆盖率远高于谷歌输入法和QQ拼音。单纯的统计数据似乎并不能完全令人信服,但下面这个评测或许更能说明问题。
  对于既定的词语样本,搜狗输入法反馈的输入结果的确出乎意料,甚至连“田鹨”、“蚰蜒草”这样的生僻词汇都能够完全覆盖,一定程度上彰显了搜狗输入法词库大而全的特点。而相比之下。谷歌输入法和QQ拼音却没能全面覆盖这些词语,打出来的文字结果不伦不类,这样就需要用户增加操作步骤、进行人工选择,十分影响用户输入速度。由此可见,庞大的词库系统依然是搜狗输入法的一家之长,其搜索引擎的抓取能力和中文分词处理能力,以及后期研发的细胞词库功能,都使搜狗词库实现了极高的词汇覆盖率。相比之下,谷歌输入法和QQ拼音还需要进一步的升级和完善。
  
  二、新词发现覆盖率评测
  
  随着互联网的进一步发展和普及,中国网民数量不断攀升,网络热词和新词也随之大量涌现。这种情况下,既有的输入法词库若不能与时俱进,就很难继续满足用户的需求。因而新词的发现速度和覆盖度也相应成为评测输入法品质的一大标准。这里采用谷歌热榜作为评测集合,对三大输入法的词库对最新网络词汇的发现能力和每周平均覆盖率进行评测,大概对比情况如下:
  


  通过数据。搜狗输入法在新词发现覆盖率方面也颇具优势。据笔者了解,搜狗输入法能够随时搜索、查询日志和用户词库以及时跟踪到新词、热词的出现,从而助力搜狗输入法将新词、热词一网打尽。下面以具体的新词发现情况为例说明。
  上表中的两个例子可以看出,搜狗输入法通过随时追踪网络新词、热词并及时更新至用户词库,使得最新产生的词汇能够便捷打出,对于热衷网络的用户而言极为适用。而谷歌输入法和QQ拼音还不能够实现对网络热词和新词的即时监控和更新,相比之下甚显滞后,难以满足用户对于新词、热词的输入需求,因而再次不敌搜狗输入法。
  


  
  三、用户短句首选率评测
  
  句子的输入相对于固定的词汇而言就要灵活得多。用户在使用输入法时会因为各自不同的打字习惯,通过不同的断句模式输入拼音,这就使得拼音输入法厂商必须想办法优化智能组词算法,来提高首选短句的准确率(即候选的第一个结果就是用户要输入的短句的比例)。搜狗拼音输入法的首选词准确率目前被认为是拼音输入法中最高的。具体举例可见下表:
  


  上表中,短句样本一栏中提供的都是有具体语意的短句,但通过搜狗输入法、谷歌输入法和QQ拼音打出来的文字结果的第一个选项却很不同。搜狗输入法能够智能分析用户的输入数据,并将最有意义、最准确的短句放在结果的第一位,大大减少了用户的输入环节:而谷歌输入法和QQ拼音在短句首选率这一评测中仍旧无法与其相比,首个反馈结果只是对词汇模块的硬性组拼,而不是有实际语意的短句,从而使用户不得不进行更多的选择操作以达到自己的输入需求。
  
  四、用户长句首选率评测
  
  用户输入的数据有长有短,对于短句的处理已经不易,对于长句的处理就给输入法提出了更高的要求。如何才能为用户提供最想要的长句结果呢?输入法需要从用户的输入心理入手,分析语义结构。更加灵活、更加智能的处理用户的输入需求并提供有意义的文字结果。以用户词库中的长句输入作为评测集合,在用户长句组词能力上可以得到下面这组对比数据:
  


  搜狗输入法在数据上依然领先干谷歌输入法和QQ拼音。谷歌输入法和QQ拼音对长句的数据处理还很呆板、不够灵活,提供的首位选项词不达意,有的甚至令人哭笑不得:而搜狗在进行短句数据处理的基础上,同样是利用大规模数据分析能力和嗓声过滤技术。提升自动断词辨义的能力,将固定的词语进行有规律、有意义的组合,使长句结果符合句法和语义,从而提升用户在日常使用长句上的体验。下面这三组长句首选率评测示例,更加能够说明搜狗输入法在产品品质上的卓越与优势。
  以上是从词库覆盖率、新词发现覆盖率、短句首选率、长句首选率等最关乎输入法用户体验的四个方面,对搜狗输入法、谷歌输入法和QQ拼音进行的品质评测。简单来说,在词库覆盖率方面,作为网络化输入法领导者的搜狗优势最为明显,真可谓“姜还是老的辣”:新词发现覆盖率方面,搜狗依然一家独大,但QQ拼音的表现也可圈可点,不愧是模仿者中的典范:在短句首选率这一项测评中。谷歌输入法和QQ拼音两者之间的差距不是很大、难辨雌雄,但谷歌在准确率上较之搜狗还是有很大的差距:在最后一项长句首选率评测中,搜狗当仁不让、再夺第一,但同时也应该看到在此项评测中,三大主流输入法的差距较小,长句首选率的提高仍然是未来各大输入法亟须改进的主要领域之一。
其他文献
我们知道,很多浏览器目前都带有鼠标手势功能,用户通过“晃动鼠标”划出相应轨迹线,即可实现如快速打开/关闭标签,或启动/调用相关组件等功能,根据喜好对其进行设定,以便提高操作效率。但习惯了在浏览器中使用鼠标手势的我们,能否在运行其他应用程序时,也同样通过鼠标轨迹来快捷操作呢?答案是肯定的,笔者今天为大家推荐的这款“gMote”软件,就可以轻松实现这一目的。  gMote软件是一款仅为2.9MB的实用
众所周知,从Windows XP开始,Win-dows默认不再提供休眠按钮,这使得我们不得不在关机的窗口中按下Shift键,使"待机"变为"休眠",才能够使其进入休眠状态。
最早的电子钱包是1995年英国西敏寺(National—Westminster)银行开发的Mondex电子钱包。至今为止,已经有10余年的历史了,但其成功的案倒不多。国内电子钱包未来如何发展是本文探
硬盘是计算机最重要的配件之一,因为硬盘属于高精密的产品,因此一般是不会出现假货的。由于国外的硬盘价格与国内相比,还是会低很多的,因此国内市场上也不可避免会出现水货硬盘。    一、正品与水货有何差别    水货是没有经过硬盘厂商正式授权的经销商进口或是私人由国外带回的产品,也有很大一部分是走私产品。正品是由硬盘厂商正式授权的代理商或原厂的分公司所进口的产品。虽然是同样的硬盘产品,它们之间主要有以下
随着国庆中秋长假的结束,QQ影音1.6版本也随之发布。此次新增的特性包括:支持自动匹配歌词、按显示的画面尺寸截图等。下面笔者就带大家来进行一场抢鲜体验之旅吧。    注:“本文中所涉及到的图表、注解、公式等內容请以PDF格式阅读原文”
一、瓜皮的制作    1.新建一个文档,并新建一个层,用椭圆选区工具画一个椭圆。  2.将前景色设为淡黄色,背影色设为墨绿色,用径向渐变工具从左上角至右下角进行渐变。  3.新增一个层,用矩形选区工具画出一个长条,填充为深绿色,这一层用来制作瓜纹。  4.按住ALT键拖动矩形长条进行复制(这种方法复制的内容不会新增层)。  5.确定当前层为瓜纹层,按住CTRL键点击瓜体层,将其浮动,执行“滤镜/扭
文中在分析岙山UTM遥感影像中地物的光谱特征的基础上,找出养殖区与其它地物之间的光谱值差异,运用植被指数和归一化水体指数作进一步的分析提取出养殖区区域。并运用数学形态学的有关知识,对提取出的养殖区进行优化提取,从而实现了养殖区的人工智能提取。
利用差积曲线图并结合绷线法进行等流量调节是径流调节中常用的方法,根据绷线法的基本原理,将其转化为数学上的最短路径问题,并用C#语言实现其算法,最后利用Excel二次开发技
当前的教育资源分散无序,无法充分发挥基础网络的作用,本文研究了网格技术如何应用在教育资源共享中,主要对资源描述方式、资源查找、网格安全等问题进行了阐述,提出了关键问题的