专利名称:汉字音形序码的制作方法
专利说明 本发明涉及一种汉字编码方法。
众所周知,在我国推广计算机应用的关键是中文信息处理,而中文信息处理的关键是汉字输入。迄今,国内外各种汉字编码输入方案已逾六七百种之多,其中数十种已经商品化,但汉字输入的瓶颈问题未获突破,一种不仅简单易学而且输入效率高的汉字编码方案尚未实现。
例如已经推广使用的王永明的《五笔字型》汉字输入法,它依照汉字书写顺序按第一、二、三和末尾字根取码,因而对书写要求高,对笔画数多的字取码疏密不均,加之字根记忆量大(按个数计188个),不少字根的选用生冷,并且字型识别放在取码的最后位置,使用上感觉别扭,其“拆分原则”的实践难度亦大,这一系列问题致使用户非经过专门训练方能掌握。
又如正在开发的杜冰蟾的《汉字全息码》(见专利申请号(89109707.4),它的取码规则依照部首多少而变,由部首字、两个、三个和四个以上部首复合字而制定不同的取码方法,这与汉字部首检字一字仅取一部首的使用常规相违,它的部首(包括笔画)选用量也很大(按组数计100,按个数计241),归类不直观,加之取码集中于字的首尾,有时还对首尾反复取码,故对字的取码亦有疏密不当之嫌,加之拼音的使用放在部首而非字上,这与汉语拼音的原旨不合,总的说来,该编码方法很难讲与用户的汉字使用习惯相一致。
本发明的目的就是为了解决上述汉字编码法存在的问题,提出一种简单易学、输入效率高的汉字音形序码。
本发明的特点是以汉字的拼音、字形和笔序来定代码,并以汉字的字类部位来定取码位置的汉字编码方法。
本发明的拼音代码取汉字的汉语拼音的第一个字母,字形则为使用上规定了两个必要条件的部首其一、要求每一笔形完全相同;其二,要求每一笔画顺序相连。本发明选用的字形有40组(从外观相似上讲,如日与白、木与林等各为一组,按个数计为96),而且都是最常见的,本发明的字形代码称为形码。笔序是指横[一]、竖[丨]、撇[丿]、点[丶]、折[乛]五种笔形两两排列所确定的25种笔画顺序(五笔形的规定完全参照《辞海》标准),本发明还特将[一丶]与[丶一]、[丨丶]与[丶丨]、[丿丶]与[丶丿]、[丨丿]与[丿丨]、[丶乛]与[乛丶]、[丨丨]与[丿丿]分别归为一组,以赋予笔画顺序一定的容错度,并减少记忆量,这样就共有19组笔序。本发明的笔序代码称为序码,形码与序码统称笔画码。笔画码对应表见附表一,其中凡对应表中所列简体字视为与繁体字相同,如“纟”与“糹”,“门”与“門”等;且对应表中对笔形捺、擢的规定按辞海五笔形标准,如“土”与“
”,“人”与“
”视为相同。本发明还注意将汉字中出现频数最高的形码排列在计算机键盘上的使用效率最高的部位。
本发明首次引出了汉字中的分体字概念,即若一个字含有形如
(或
)的结构,而且该结构满足条件a、左部至少含有两笔画;b、左部是不可左右分离的;c、左部每笔画顺序先于右部每一笔顺序,则称这类一般汉字为分体字,分体字包括左右体字(整个字形如
)和上下体字(字的上半部或下半部形如
或
),左右体字中右体字形如
,其右部至多只有两笔画或一个字形;左体字形如
,它是非右体字的左右体字。上下体字中上体字形如
(或上部形如
)其下部不可左右分离;下体字形如
,其上部不可左右分离,非分体字的其余一般汉字称为合体字,合体字形如
,其中Ⅰ为初始字形或初始两笔画(当其无初始字形时),Ⅱ为其余部分,称以上字类中的Ⅰ为始部,Ⅱ为终部,始部与终部统称部位。
本发明定义一个字的初始(或末尾)笔画所对应的一个笔画码称为首(或尾)码,首码和尾码统称首尾码;若取一个字的一个部位,该部位的初始(或末尾)笔画所对应的一个笔画码称为前(或后)码,前码与后码统称为前后码。
本发明规定1)形码律对一个字或其一部分取形码的必要条件是该字或其一部分与某个字形相比,不仅每一笔形完全相同,而且每一笔画顺序相连。
例乐→ㄈ(丿乛)+小(按部首取木,字形则取小) 因→丨(丨乛)+大(按部首取囗,笔序则取丨乛) 2)单调律在前面选码中用过的笔画在后面的选码中不可再用。
例主→亠(丶一)+土(不取字形王) 系→
(丿乛)+厶(乛丶)+小(不取字形
) 3)优先律选码时可用字形则不用笔序,可用笔画多的字形则不用笔画少的字形。
例米→米(不用丶丶+木) 森→木+林(不用木+木+木) 4)节省律(1)若字的任何部位仅有(或取码后仅余)一笔画,则省去这一笔画。
例礼→礻;子→了(乛乛) (2)若一个字的终部是不含字形的三笔画,则仅取末尾两笔画所对应的序码 例由→ㄇ(丨乛)+丄(丨一); 轩→七(一乛)+十(一丨) (3)对一个字取过首码之后,若该字其余部分在字形之前(或之后)仅有(或取码后仅余)一笔画,则可省去这一笔画,以取形码。
例何→亻(丿丨)+口;喝→口+日+人; 在上述基础上,本发明给出按字类部位决定取码位置的公式如下 1)右体字音码+前后码(在始部取码)+尾码 例勃→B(音)+B(一丨)+U(乛一)+W(乛丿)=BBUW 故→G(音)+B(一丨)+H(口)+G(攵)=GBHG 2)其余一般字音码+首码+前后码(在终部取码) 例如左体字激→J(音)+F(氵)+I(白)+G(攵)=JFIG 姑→G(音)+W(女)+B(一丨)+H(口)=GWBH 例如上体字臂→B(音)+U(尸)+P(丶一)+O(月)=BUPO 祭→J(音)+O(丿乛)+X(乛丶)+R(小)=JOXR 例如下体字蒜→S(音)+G(艹)+A(一一)+R(小)=SGAR 霹→P(音)+P(一丶)+U(尸)+B(一丨)=PPUB 例如合体字色→S(音)+O(丿乛)+Y(巴)=SOY 周→Z(音)+O(丿乛)+Z(土)+H(口)=ZOZX 荣→R(音)+G(艹)+U(
)+D(木)=RGUD 阙→Q(音)+M(门)+S(丶丶)+Q(人)=QMSQ 本发明对少量特殊字规定取码方法如下 1、国标一级汉字中的数字一、二……十,依次取码UUA、UUB、……UUJ。
2、国标二级汉字中的部首丨、丶丿、……饣、忄、……糸,依次取码UIA、UIB……UIZ、IUA、……IUS。
本发明为减少重码率还规定了三种特殊码 1)倒码若一个字是以字形王、日(白)、月(月)、纟(
)、火(灭)、
(宀、穴)或衤(礻、示)起笔,则称这些字形的形码为倒码,对字取倒码时,要将音码与首码的位置颠倒。
例日→I(日)+R(音)=IR; 股→O(月)+G(音)+O(丿乛)+G(又)=OGOG 倒码的使用可提高字母A、I、O、V、E、U、R在汉字编码第一位置上的出现率。
2)简码简码是对部分笔画码的省略。本发明对部分常用字使用了简码。
例失→S(音)+K(丿一)=SK(以与矢区别) 岂→Q(音)+J(山)=QJ(以与屺区别) 3)隐码称字形敖、伯、丛、到、果、或、久、李、满、平、佥、认、散、网、旭、议、曾、小、
)为隐字形,简称隐形。隐形的共同代码称为隐码。隐码不用符号,不占位置。隐形成字时,其代码相当于键名码;隐形组字时,其代码相当于简码 例果→G(音)(可与皋区别) 棵→K(音)+D(木) 隐码的使用既减少了重码率,又减少了码长。
本发明对词语编码则除去全部特殊码,并将特殊字归入一般字,对于所要输入的词语,只需在第一个字的音码、首码之前加上W即可(因为本发明在单字输入部分将音码W归入了音码O) 例如要打“从古到今”,则击WCQQ,提示行即显示从[OOO]1古到今,2难从严,3容不近,再打入数字键1,“从古到今”便调到了编辑位置。
本发明使字形在形、序两点的使用上与部首有所区别,其一,对笔形的要求更严密,按部首,“乐”属于“木”,但“乐”中没有笔形横[一],按形码律,“乐”的末尾笔画属于字形“小”,显然,较之部首更合乎字的形状在局部上的要求;其二,对笔画顺序的要求更全面,按部首,“因”属于“囗”,但“囗”由整个字的第一、二笔与第六笔构成,按形码律,“因”的初始笔画是丨乛,显然,较之部首更合乎字的笔画顺序在整体上的要求。正是由于赋予字形以更科学的形序要求,故在优先律与节省律下,字形不仅得到了突出使用(这亦符合汉字的造字规律),而且字形还得以与笔序互补使用。这样,汉字最常用的三大检字法(拼音、部首、笔画)在本发明中被各取所长地结合使用了。
本发明首次定义出汉字的最大户与最难户-分体字;首创了汉字有序结构的概念。并由之产生出按字类部位决定取码位置的编码方法。用户在具体操作中将会发现,凡对字取首码或尾码之处,即相当于根据字形或笔序取字的部首,对每个字取且仅取一个首尾码即相当于对一个字取且仅取一个部首,这完全符合汉字的部首检字法常规,例如“草”是艹字头,本法对艹取首码;“槛”是木字旁,本法对木取首码;“勃”是力字旁,本法对力取尾码;“故”是攵字旁,本法对攵取尾码。
本发明还在整个方案上实现了数理形式的定义,法则及公式化,因而更规范、更科学。例如本发明对汉字的分类在国标一、二级汉字上可被证明全部分类的并集是全集,各个分类的交集是空集(也就是说,任取一汉字,它必定属于而且仅仅属于一个字类)。
本发明在汉字的音形序要求上通贯字的整体与局部,因而取码舒展自然,用户对汉字音形序三要素只要具有:侗鹉芰纯烧莆。试看本发明与其它编码方法的实例对比(取一简单字、取一复杂字)。
例1)上为《五笔字型》、下为《音形序码》 溶→I(氵)+P(宀)+W(八)+K(口) =IPWK; →R(音)+F(氵)+U(宀)+H(口) =RFUH 齄→T(丿)+H(目)+L(田)+G(一) =THLG →Y(音)+A(自)+D(木)+I(日) =YADI 2)上为《全息码》、下为《音形序码》 种→H(禾)+D(丶)+K(口)+S(丨) =HDKS →Z(音)+K(丿一)+H(口)=ZKH 麒→A(广)+W(乛)+E(二)+B(丿丶) =AWEB →Q(音)+N(广)+B(一丨)+N(丿丶) =QNBN 本发明的汉字音形序码科学地解决了汉字形序上的对立统一,它与国内外影响大的各种编码方案相比,其突出优点在于普及性与高效性二者兼而有之,它不仅与学校低等正规教育内容相容,而且特别适合大面积用户。
本发明的码种少(26个),选用的字形少,且为常用字形,记忆量也非常少,记忆内容通俗化,取码方法贴近汉字三大检字手段。本发明对国标一、二级汉字6763个的输入结果为平均每个字击键3.7次,重码率3%以内。
权利要求
1、一种汉字音形序码,其特征在于它以汉字的拼音、字形和笔序来定代码,并以汉字的字类部位来定取码位置。
2、根据权利要求1所述的汉字音形序码,其特征在于拼音代码取汉字的汉语拼音的第一个字母;所述的字形为使用上规定了两个必要条件的部首,其一,要求每一笔形完全相同,其二,要求每一笔画顺序相连,汉字的字形代码为形码;所述的笔序是指横[一]、竖[丨]、撇[丿]、点[丶]、折[乛]五种笔形两两排列所确定的25种笔画顺序,且将其中的[一丶]与[丶一],[丨丶]与[丶丨],[丿丶]与[丶丿],[丨丿]与[丿丨],[丶乛]与[乛丶],[丨丨]与[丿丿]分别归为一组,共有19组笔序,汉字的笔序代码为序码,形码与序码统称笔画码。
3、按权利要求2所述的汉字音形序码,其特征在于笔画码的对应表为
在该表中,汉字中出现频数最高的形码排列在计算机键盘上的使用效率最高的部位。
4、按权利要求1所述的汉字音形序码,其特征在于将汉字的字类部位规定如下
若一个字含有形如
(或
)的结构,且该结构满足条件,a、左部至少含有两笔画;b、左部不可左右分离;c、左部每一笔画顺序先于右部每一笔画顺序,则称这类一般汉字为分体字,分体字包括左右体字和上下体字,右体字形如
,其右部至多只有两笔画或一个字形,左体字形如
,它是非右体字的左右体字,上体字形如
(或上部形如
)其下部不可左右分离,下体字形如
,其上部不可左右分离,非分体字的其余一般汉字称为合体字,合体字形如
,合体字中的Ⅰ为初始字形或初始两笔画(当其无初始字形时),Ⅱ为其余部分,并称上述两类字的Ⅰ部为始部,Ⅱ部为终部,始部与终部统称部位。
5、按权利要求1、2、4所述的汉字音形序码,其特征在于按字类部位决定取码位置的公式为
a、对右体字是音码+前后码(在始部取码)+尾码;
b、对其余一般字,音码+首码+前后码(在终部取码);
其中首码是汉字的初始笔画所对应的一个笔画码,尾码是汉字的末尾笔画所对应的一个笔画码;前码指汉字的一个部位的初始笔画所对应的一个笔画码,后码指汉字的一个部位的末尾笔画所对应的一个笔画码,前码与后码统称前后码。
6、按权利要求5所述的汉字音形序码,其特征在于
a、对一个字或其一部分取形码的必要条件是该字或其一部分与某个字形相比,不仅每一笔形完全相同,而且每一笔画顺序相连;
b、在对一个字取码时,若在前面选码中用过的笔画在后面选码中不可再用;
c、在对一个字取码时,选用的码可用字形则不用笔序,可用笔画多的字形则不用笔画少的字形;
d、在对一个字取码时,若该码的任何部位仅有(或取码后仅余)一笔画,则省去这一笔画;若该字的终部是不含字形的三笔画,则仅取末尾两笔画所对应的序码;若该字取过首码后,其余部分在字形之前(或之后)仅有(或取码后仅余)一笔画,则可省去这一笔画,以取形码。
7、按权利要求1所述的汉字音形序码,其特征在于对少量特殊字取码规定如下
a、对国标一级汉字中的数字一、二……十,依次取码UUA、UUB、……UUJ;
b、对国标二极汉字中的部首丨、丿、……饣、忄、……,依次取码UIA、UIB、……UIZ、IUA、……IUS。
8、按权利要求1所述的汉字音形序码,其特征在于若一个字是以字形王、日(白)、月(
)、纟(
)、火(灭)、
(宀、穴)或衤(礻、示)起笔,则称这类字形的形码为倒码,对字取倒码时,要将其音码与首码的位置颠倒一下。
9、按权利要求1所述的汉字音形序码,其特征在于对部分常用字使用了简码,即对这些常用字的部分笔画码予以省略。
10、按权利要求1所述的汉字音形序码,其特征在于规定字形敖、伯、丛、到、果、或、久、李、满、平、佥、认、散、网、旭、议、曾、小、
)为隐字形,隐字形的共同代码称为隐码,隐码不用符号,不占位置;隐字形成字时,其代码相当于键名码,隐字形组字时,其代码相当于简码。
11、按权利要求1所述的汉字音形序码,其特征在于对词语编码时除去全部特殊码,只需在第一个字的音码、首尾码之前加上字母W,所需的词语在提示行中选择。
全文摘要
本发明涉及一种汉字的编码方法,它以汉字的拼音、字形和笔序来定代码,并以汉字的字类部位来定取码位置。本发明首次定义出汉字的最大户与最难户——分体字,首创了汉字有序结构的概念,在汉字的音形序要求上通贯字的整体与局部,取码舒展自然,用户对汉字音形序三要素只要具有:侗鹉芰纯烧莆。本发明记忆量非常少,记忆内容通俗化,是一种简单易学、输入效率高的汉字编码方法。
文档编号G01B3/20GK1054841SQ9110697
公开日1991年9月25日 申请日期1991年4月19日 优先权日1990年3月2日
发明者赖平华 申请人:赖平华