汉字数字化是建设数字中国的基础设施之一
把我国从网络大国建成网络强国,实施大数据计谋加速数字中国建树,这是习近平总书记提出的伟大的计谋陈设。网络基本办法建树是网络强国计谋的重要构成部门。网络基本办法,形象地说,就是要搭建一个信息“高速公路”从而实现海量数据的运行、储存和畅通。惟独基本办法搞上去了,在此基本长希望通讯、互联网、大数据、云计较才有大概。所以网络强国计谋的第一步是搞好网络基本办法。也就是说,惟独建成信息“高速公路”,海量数据的运作、存储、畅通才有大概实现。数据的实质是信息,汉字是信息的载体。在非电子时代,汉字是信息运作、存储、畅通的主要手段。此刻人类已进入互联网时代,数字是现代计较机的语言,作为信息载体的汉字,必需实现数字化伎俩在信息“高速公路”上运作、存储、畅通。所以汉字的数字化既是数字基本办法之一,也是网络基本办法建树的构成部门。现代计较机技能是以英文为基本计划的。汉字被恒久排出在中央处理赏罚器之外,极大的限制了我国信息技能的希望,惟独汉字实现数字化,伎俩改变这种排场,彻底代替英文统一全国的时代。汉字数字化可以办理汉字输入、中文加密、电脑编程、人机界面、人工智能、语音哄骗等一系列要害信息规模里的困难。
为什么汉字被恒久排出在中央处理赏罚器之外呢?这既有汗青的原因,也有汉字自身的原因。现代计较机技能劈头英美,自然是以英文为基本而计划的。此刻汉字没有进入中央处理赏罚器,其自身的原因是:1、汉字的歧义性太强;2、汉字的文字存储占有太大,用点阵存储,汉字的存储占的字节数太多;3、汉字的布局性不是很强;4、从编译方法来说汉字同样有无数不利便。由于汉字的缺陷在于它的造字原料,不具有单一性,不能组成有序性,所以导致现代应用的艰巨。因此,中国人不得不计划编码,以此实现汉字数字化来办理这个问题。计划编码的目标,是为了使汉字带上一套有序的标记,完善汉字系统,以补充汉字的不椒十处。这是现代技能对中国人提出的挑战,同时也是时代赋予中华民族的一次机会。现代科技激活了汉字厘革,汉字编码实现汉字数字化,促成了汉字系统的完善,这是社会希望的肯定。因此,“汉字编码是汉字的一次厘革,而不是纯真为了电脑输入”。1995年的《电脑报》就曾经发出这样的号令:“最好的编码究竟是什么?闻名的科学家钱伟长传授早在1986年就曾经指出:好的编码方案还没有出来,好的编码方案应该是一种文字,大附崆准文字。”也就是说,好的汉字数字化方案,应该是一种准文字,它不单能适合计较机的需要,并且还能担任汉字的文化传统体贴进修汉字,成为汉字的助手。
什么样的汉字数字化方案伎俩适合现代计较机的需要呢?电脑的语言是数字。说白了就是“人机对话”的汉字必需数字化,而且实现数字化后,还很轻易识别和还原,也就是说既有数字性也有可逆性。所谓纪律性、类型性和尺度性,其意义就是数字性和可逆性。英文字母为组词元件的英文系统,正是由于它是具有数字性和可逆性的尺度性的文字。因此任何英文单词才可以用键盘上所标出的26个英文字母按键构成出来。汉字数字化后任何汉字单字也应像任何英文单词那样,用键盘上所标出的代码字母(或数字)按键构成出来。这样电脑上的所有措施,都可以把汉字“键盘代码”作为桥梁,间接地用二进制数字体例出来。
奈何的数字化编码伎俩既适合现代计较机的需要又能担任汉字文化传统呢?汉字文化是整个民族逐渐积贮起来的,汉字的演变,由象形而变为表义、表音,形声字的大量浮上就表白了这种趋势。形声造字法不只造字便捷,所造的字,既易学又易记。所以,如依据形声造字法的道理编码就便于进修和影象,这样的汉字编码没有重码,可以或许作到“见字识码”“见码识字”“字码交流”“字码通用”,能代表汉字像英文那样适合于计较机的需求。见到每一个汉字数字化编码就能知道它对应是哪一个汉字,就像看到每一个繁体字就能知道它的简体字一样。这样的编码伎俩切合中国人的认知心理,这样也就担任了汉字的文化传统。
美国哈佛大学传授德怀特?帕金斯体现,对中国真正的挑战不是对互联网详细的利用,而是中国可否成为信息技能的真正制造者。此刻可以或许担任汉字文化传统并能合用于现代计较机的汉字数字化方案己经问世。笔者经十多年的潜心研究,发明白电脑汉字(及其相应的数字汉字),使汉字成为音形义数相团结的、枚举有序的、合用于计较机应用的文字系统,使汉字有了本身体现音形义数的字母,有人戏称为这是中国现代的第五大发明。其特点是:
1、电脑汉字(及其相应的数字汉字)是担任汉字形声造字法的传统,实现汉字数化以适应现代计较机需求的编码,它像英文一样具有数字性和可逆性。它是由2-4个字母构成,第一和第二个字母体现字音,第三和第四个字母体现字义或字形。它的字母和汉语拼音字母完全一样,只是增加了三个韵母标记以便将汉语拼音简化为两个字母的拼音。字母的序号是十六进制的两位数,称为数字字母。数字字母可以凭证电脑汉字的组字方法,链接成一个十六进制的数字,这个数很轻易转换为二进制数,用于计较机运算,而且还具有可逆性。如单字“吧”的电脑汉字是bab,数字汉字是040104;“拔”是bac,040105;“芭”是bae,040107。位于第一第二个字母ba和两个数字字母04,01,它们与汉语拼音的发音沟通;“吧”字的第三个字母的b及04,是个单义字母表“口”,拔字的第三个字母c及05表“扌手”,芭字的第三个字母e及07表“草艹廾”等。01是a的数字字母,a的序号是十进制数01,转换为十六进制数为数字字母01,同理b,c,e的数字字母别离为04,05,07。数字汉字很利便转换为二进制数以用于计较机运算。如吧bab的数字汉字为040104,二进制数使是0000 0100 0000 0001 0000 0100。
2、电脑汉字(及其相应的数字汉字)不单不否认汉字,反而使汉字越发轻易管理、利用、进修。它是汉字的“身份证”,它能作到“见字识码”、“见码识字”、“字码交流”、“字码通用”,成为汉字的有益增补。电脑汉字(及其相应的数字汉字)是以汉字的存在而存在,它不行能离开汉字而独立存在(皮之不存毛将焉在),因此并不代替汉字而只是作为帮助汉字拼音表义表形的在电脑上利用的器材,正如作为英文帮助器材的国际音标不行能代替英文一样。同样电脑汉字(及其相应的数字汉字)作为汉语拼音的简化也不行能代替汉语拼音为汉字广泛注音的浸染。
相关文章:
- [资讯前沿]我国首个海洋工程数字化技术中心建成
- [资讯前沿]生物医药企业业务 实现全面数字化
- [资讯前沿]《中国餐饮报告2019》:新一代消费者崛起,数字化再提速
- [资讯前沿]中国人保:加快国际化进程 推动数字化转型
- [资讯前沿]阿里巴巴张勇:中国在经历比很多国家更快的数字化进程
- [资讯前沿]重庆:到2022年 建设50个智能工厂500个数字化车间
- [资讯前沿]汇丰中国推出国内首个结构性产品数字化定制功能
- [资讯前沿]吉林成立政务服务和数字化建设管理局 严格考核软环境建设
- [资讯前沿]委员专家建言加快国家公园建设2018年10月31日 星期三03 要闻
- [资讯前沿]着力构建与辐射中心建设 相适应的外宣工作格局