【搜狐IT消息】6月14日消息,搜狗今日举行搜狗输入法五周年庆典,并推出世界首款“云皮肤”输入法--搜狗输入法6.0版,并宣布开放“皮肤平台”。此外,"清华大学(计算机系)-搜狐搜索技术联合实验室"公布了中国首份《汉字输
在庆典活动上,搜狗公司技术总监杨洪涛做了主题演讲,他介绍了搜狗输入法6.0版本的亮点。他说,搜狗输入法正在做的,就是开放3亿用户资源,跟合作伙伴一起共同创意、共同应,能让输入法用户在输入法上满足更多互联网需求。
![]() |
| 搜狗公司技术总监杨洪涛 |
以下为其演讲实录:
杨洪涛:尊敬各位嘉宾、业界朋友、媒体朋友大家下午好。我今天来给大家讲两个话题,第一是为了庆祝今天搜狗五周年纪念,清华大学计算机系联合搜狗搜索技术实验室发布了一个汉字输入发展报告,对过去几十年汉字输入领域的进展,包括目前厂商竞争格局,包括汉字输入领域行业发展情况,对社会文化产业的贡献,做出一个很好总结和未来展望。报告内容很长,我今天只能给大家简单介绍里面的一些观点,报告一会儿大家都能拿到。
这个报告介绍三方面内容,第一是中文输入法发展历史和未来的趋势,中文输入法对汉语语言的影响,包括互联网化,对整个现在社会文化发展上的社会效益,最后总结了中文输入法目前产业情况,产业规模,目前若干中文输入法厂商的竞争格局情况。
中文输入法,它的发展开始基本上是从80年代初,中国标准化机构来发布的标准来开始的,那会儿开始,随着计算机引入如何把中文输入进去,大家进行各种各样的研究工作。我们现在回过头来叫它是萌芽发展阶段,实际上是非常蓬勃的时候,甚至叫万马奔腾,大家进行各种各样的研究工作,解决的问题是,如何把汉字输入到计算机系统当中,解决中国汉字问题。
后来到第二个阶段,我们叫初级发展阶段,从90年代到2005年这段时间,这段时间随着计算机开始进到百姓家中,大家开始用到计算机产品帮助自己生活、学习,甚至后来互联网发展越来越进到人们的生活当中,过去相对比较难学习,成本比较高,技术化比较高输入法不太适应的时候,人们对汉字输入有一种需求。这时候是如何降低学习成本,怎么让大家更简单输入汉字,ABC输入法,微软拼音等等,得到考虑都是如何降低学习成本问题,但是有它的困难。
2006年-2010年,是一个智能化和互联网化发展阶段,以搜狗在06年发布为里程碑的这样一个阶段,搜狗第一次把互联网的概念引入输入法当中,解决了人们在过去词语输入不到计算机当中的问题,当输入不进去的时候,拿智能ABC一个一个敲进去,这样就解决问题了,实际上没有想到为什么计算机不能更好解决这个事。这个时候搜狗把互联网的词汇引入进来,解决这个问题。到最后2010年以后往个性化的方向去发展。
早的时候,人们考虑的是如何解决汉字输入的时候,是优先考虑的型码,因为拼音虽然是我们把汉字读出来一个很直观的感受,但是它最大问题的同码率非常低,如何把汉字选出来是最大问题,所以最开始人们发展各种各样的型码,但是它最大问题在于学习成本非常的高,需要记各种各样的词根,型码当中最有名的就是五笔,这都是当是比较流行产品,它非常难学。随着拼音发展,拼音解决问题就是如何能够无师自通,汉字输入更容易。一开始拼音确实有这个同码率非常高的问题,一个字、一个字输入,不停翻页找到我们要的字。05年我们刚刚举这个例子就是李宇春,肯定不存在那个时候的词库里面,每个字都要翻很多页,但是随着互联网词库的引入,这个问题就解决了。细胞词库的搜狗,涉及到各种各样的领域,像医学专业领域,日常生活当中的领域,电影片名都能够覆盖到,包括组词的解决,对云计算能力的引入,实际上让拼音输入法准确度越来越高。
所以,我们得到这样一个结论,用户输入文字的习惯已经发生了改变,从过去的若干年前的人来适应机器,去学习机器的规则、原则,如何拆解,如何降低筹码,如何调整机器,如何配置它,转变现在技术趋势如何让机器来适应人,无论人的个性习惯是怎么样的,有没有语言问题,都能让机器自动适应你。
特别是从互联网发展的兴起,到互联网概念对输入的影响,把互联网功能引入到输入法产品当中去,有重要的几个趋势。一个是信息存储能力的扩大,我们通过云计算,在云端能够把原来几十万词库扩展到几千万,能把几十兆词库上升到上T的语料,把各种资源用得上,信息资源挖掘的提高,在云端进行适时挖掘,每天发现很多的新词。几年来我们词库容量增加18万,这是什么含义?平均每天能从互联网当中发现3个以上的新词汇,比如像“给力”这种词,都是在挖掘当中去发现出来,然后推给用户用。
最后是计算能力的提高,随着云端能力的运用,能够享受到这种效果,可能是急速效果的变化。我们得到的结论就是说,输入法已经摆脱桌面PC的限制,能够让汉字输入更容易,更智能,更丰富。所以演变到我们考虑未来利用这种能力,利用云端能力,利用计算能力,汉字输入未来会有什么样的发展趋势?
首先是智能化。刚才提到能够让机器更智能来适应人的习惯,适应不同的输入环境,适应你的行为模式。比如你有什么样的语言习惯,甚至按键盘时候的不同习惯。
第二是个性化。不同的人提供不同的功能,包括词语的语言模型,包括配置、界面,满足各种各样不同的需求。一个是个体的不同,特点不同、风格习惯不同,还包括每个人所处很多小群体,这种小群体也有小群体的共性,比如作为搜狐搜狗的员工,我们知道有一个词,这个词叫“狐首”,在公司内部会这么叫,在这个圈子当中它可能是高频率使用这种词汇,如何把这种个性化信息数据发觉出来,推广到这个圈子当中,让个体智慧能够被更多人享受得到。
第三是平台化。汉字输入会逐渐把它的汉字输入本身的功能实现越来越丰富,汉字输入文字是为了什么?为了解决你什么样的需求,这种需求是不是能够在平台上已经得到满足。后面会通过6.0版本介绍来说这方面的内容。
最后引用报告里面输入法行业的市场数据,我们看到在2010年通过联合实验室的市场调研分析,在汉字输入市场竞争里面,搜狗输入法83.6%的用户渗透率,在现在市场格局当中遥遥领先第一名,QQ输入法24.6%,紫光输入法、谷歌输入法等等。
报告介绍这些,下面是重头戏,新版本功能介绍,我主要介绍最核心的五项功能。
一、核心准确性、核心引擎的升级。我们看到市场上其他输入法,他们的准确性效果基本在80%上下,没有单独列出来,可能有的在70%、60%,这种效果是怎么评价出来的?我们用大量中文语料,比如几十万字、十几万句的语料,做一个输入法模拟人的按键,最后侯选第一名最准确的。我们看到搜狗5.2 版已经是大幅度领先的态势,在94.85%的状态,6.0版持续升级,继续把它的错误降低了30%,每一个错误看起来提升绝对值的点,错误大幅度的减少,每个错误耗去你的时间远比正确的耗去你的时间要多很多,现在100个里面能错不到4个。
当拼音输入非常长的时候,我们通过新的语言模型能把前后搭配输入更好、更准确。这里列了更多的例子,我们看到的时候会觉得看不懂,不知道是什么东西,这是我们老版本输入法,包括其他竞争对手的输入法。比如“含祖国强盛、被催男”这都看不懂,不知道是什么,但是在新的模型下,我们会发现,互联网话很口语的新潮说法,我们都能够正确的输入出来。包括“潮流需要口口”这是很火的一首歌,也被引用的比较多,“含祖国强盛”应该是“捍祖国强盛”,“被催男”正确的输入是“悲催男”。
二、智能纠错。我们在去年下半年的时候,针对几千名用户做了一个键盘使用率的分析,主键盘区各种按键,26个字母,发现第一名使用率最高的是空格键,第二名是字母I,它的语言特点当中用的最多的一个。结果发现第三名按的是Backspace,这就意味着输错了,这种输错了能不能通过输入法的智能去解决,通过输入法技术的变革,能去解决这个问题。
输错了有两种情况,一种情况是你改主意了,这个我们没有办法去解决,但是其他更多情况就是你输入的不够准,不够准有哪些情况呢?比如pai n yi不知道是什么东西,bu lang这也不知道是什么东西,这都不是你要的,只有把它删除,其实你就是想输入“便宜”这个词,我们会猜你大概想输入什么,然后根据最大可能的几率,把你想要的东西给列入里面。因为你盲打,可能会敲错东西,按照正常来讲可能都是输入不进去的,输入这种错误可能有一些固定的东西。比如第一个例子你漏了一个键,第二个例子是你把a和o颠倒了,最后一个例子是b和n这两个字母是相邻的,我们盲打不看键盘的时候,很有可能一只手指会摁到这两个键上,导致错误。智能纠错这个功能就能纠正过来,把准确率提得更高。
我们做一个漫画来解读这个功能,有一个人在电脑前面跟老妈聊天,老妈不熟悉电脑,老妈说给你说个媳妇,家里有房子,赶快回来结婚,老妈打的字乱七八糟,顺序颠倒,总之想要给过都能够被输入法输入出来。
三、鼠标手势。输入法都是解决键盘的问题,核心就是准确率提高,但其实鼠标也是重要的人机交互操作工具,它是把逻辑思维转变为形象思维,控制更直观的位置,是重要的输入工具。鼠标操作效率有没有可能进一步提高?我们做尝试,持续在这个方向做挖掘,看一些例子。
我们这儿有一个视频,给大家播放一下。很多新的浏览器是用鼠标手势的功能,但是更多用户外IE浏览器,可能就缺少这种功能,通过鼠标来控制,比如关闭页面、打开页面的操作,写文档,用鼠标控制窗口位置,进行比较,或者把它最大化。我们知道这些操作是很频繁的操作,鼠标定位是很困难的。聊天窗口的最小化,包括关闭,这样很容易操作,我们觉得这样工作效率会很大提升。
四、实时结果。这是什么意思?刚才前面介绍平台化的时候提到一点,每个网友输入中文的时候是带着自己的需求,这种需求是什么?可能是要与人交流,可能是要满足查找信息,或者是类似的需求,这种获得反馈过程有没有可能在输入法上得到实现?我们做出一个尝试,比如敲中国铝业,要看公司股票的业绩情况,想知道明年春节哪一天,安排休假行程等等,这会儿可能就是在搜索引擎里面查天气、旅游信息等等,或者是很多人喜欢讨论星座,讨论星座的时候又是研究它的个性、运势,这时候输入法能够把信息直接提供给你,这是一种获取信息的效率提高,能够让路径变得更短。
做了实时结果反馈之后我们觉得还不够,能不能把路走得更远,于是回到搜狗输入法皮肤平台上来,这有五万款优质的皮肤,这个皮肤已经成为搜狗输入法一个很重要的亮点功能,很多人很喜欢使用这个功能,包括跟朋友去炫耀交换皮肤,形成这样一种文化的现象,就是因为这个皮肤上寄托了他们很多的情感或者这方面的需求。
比如这里有几个例子,右上角是近期做的2011我们毕业了,为毕业班的学生们准备的。左上角是龙舟比赛的皮肤,为端午节做的,还有动态效果的皮肤,网友们一种情感的寄托,非常喜欢这种功能。利用这种皮肤平台,搜狗输入法有超过3亿用户,这里有超过一半的人在使用皮肤功能,有没有可能再继续发扬光大?我们在6.0版本当中做这样一个尝试,第一次把搜狗输入法的3亿用户开放出来,跟合作者共同提供优质服务,共赢的尝试。我们利用Flash皮肤来展现更多信息,展现云端更多互联网服务内容,跟用户之间充分的交互。
举几个例子,大家会看得更直观。这是我们做的星座运势的一个皮肤,在这个输入法皮肤上,除了看到能够操作皮肤正常的功能之外,外面有一圈星座图标,点出每一个,都能看到这个星座的运势怎么样。这是一个不错的作者,给我们做了这个动态的皮肤,很好玩。这种皮肤虽然看起来很简单,我们希望在平台上面跟我们合作伙伴构建起更多更丰富的应用,给网民提供更好服务。比如有没有可能来制作桌面游戏,我们还跟金山英语合作的,每天学英语的这样一个例子,你设定好了时间,它会弹出每天让你学一句话,什么时间能够弹出来学英语,这是一个简单的例子。
总的来说,我们希望能够把超过3亿用户这样一个输入法用户资源开放出来,跟合作伙伴一起共同创意,共同应,能让输入法用户在输入法上满足更多互联网需求。
在最后,我也很高兴向大家介绍搜狗输入法的苹果版本也将要发布,在稍晚的时候就会提供出来给大家下载试用,这也是网友期盼很久的一个功能版本,在更多平台上使用搜狗输入法便捷功能。我介绍这些,谢谢大家。
相关文章
[错误报告] [推荐] [收藏] [打印] [关闭] [返回顶部]



已有
