热搜
您的位置:首页 >> 网络

搜狗输入法语料库超1TB为传统输入法30

2019年05月15日 栏目:网络

来自搜狗输入法的统计数据显示,其输入法语料库容量已超过1TB,是传统输入法约40GB的30倍,而相对于日文、韩文等全球其他语系的输入法语料规

来自搜狗输入法的统计数据显示,其输入法语料库容量已超过1TB,是传统输入法约40GB的30倍,而相对于日文、韩文等全球其他语系的输入法语料规模,更是处于远远地位。据了解,语料库是输入法所有信息的来源,是输入法智能性,乃至是中文处理能力的根本决定因素。搜狗语料库的强大,也代表搜狗输入法的技术积累已引领中文输入达到一个全新高度。

据技术专家介绍,语料库与词库为输入法研发中的两个重要指标,其中词库为输入法提供了组词造句的基本单位,而语料库为输入法提供了词库中的词语组合的方法和规则,同时通过自动发掘的手段,语料库还可以为词库词源的重要补充。在目前以统计作为根基的输入法世界里,语料库的作用极为重要。比如,“建国大业”这1词汇如果不在语料库中出现,那末输入法是没法凭空把这个词创造出来的。一般来说,语料库的容量越大,词库容量越大,则输入效力、准确性越高。搜狗输入法语料库中包含了大量语料和页语料,涵盖口语、书面语、古文、现代文等不同文体,以及政治、经济、体育、娱乐等不同领域。而在词库方面,搜狗输入法的词库容量已超过2000万。在如此海量的语料库和词库情况下,为了加快数据处理能力,搜狗输入法部署了庞大的机群和分布式存储系统,确保了语料规模暴增时的运行瓶颈。

数据显示,在中国上的计算机中,超过80%安装了搜狗输入法,其活跃用户超过3亿,如此海量的用户群每天的文字书写量是个天文数字,可以说搜狗已承载了互联时代中文输入的重担。搜狗输入法在语料库、词库等指标上对于同类工具的,也代表着搜狗输入法在输入准确率,输入效力上的一枝独秀。搜狗输入法不但大大降低了中文信息流通的门槛,同时提升了国人的书写效力,为每个人节省了20%的输入时间。因此不但具有巨大的社会文化价值,也潜伏的创造了巨大的社会经济价值。

女性乳房疼痛吃什么药
乳房疼痛怎么治疗
乳房疼痛如何调养
  • 友情链接
  • 合作媒体