郑码输入法：170个组字能力强的形码输入方法

来源：CSDN 时间：2023-01-31 13:38:14

我们经常使用拼音输入汉字等，对打字要求较高的会使用五笔输入，而很少听说过郑码输入法，虽然可能在平时生活中应用不是很广泛，但郑码输入法有严格的规范，在汉字编码字符集范围、词库容量、字词平均码长、动态字重码率及符合语言文字规范等方面都取得了突出的成绩。

“郑码”把汉字字典检索与计算机汉字输入统一了起来，使它们具有统一的编码和统一的排序，这与郑易里教授多年对字典的研究有关，也比较符合汉字的教学规律；郑码的编码方法对各种字符集有较强的适应性，它不但可以用来处理国标汉字字符集，也能用于处理港、台通用的字符集，还可以用于中、日、韩的汉字编码，1994年初郑码完成了电脑大汉字库6万个汉字输入技术的编码。

(相关资料图)

随着郑码的普及，它拥有了较多的用户，尤其在处理大字符集方面它具有较强的适应性，它的输入速度也比较快，是一种较好的形码输入方法。

微软的Windows 95中文版中就装有“郑码”输入法。它是一种形码，与常见的形码有许多相似之处：比如它也是从汉字的结构入手；也要将汉字分解成若干部件；也要按某种规律安排键位；也要建立某种汉字的拆分规则等等。

汉字由字根和笔画组成。汉字的字根有 560余个，为便于记忆，我们从诸多的字根中优选出 170个组字能力强的字根，按一定的方式用英文字母给它们命名代码，这些有代码的字根就成为《郑码》编码的基本字根，简称：基根。

《郑码》的基根 90 % 是大家熟悉的部首，如"土木工虫口日⺮鱼言（讠）女辶己马阝纟鸟页酉皮艮户母礻车衤身隹虍牙食"等，其余10 % 是约定俗成的部件，如"甘其甫不而非"等。

《郑码》的基根用26个英文字母命名代码，每一个字母形成一个根区。每个根区里都有几个基根，它们共用本根区的同一个英文字母作代码，这一代码就叫做基根的区码。

汉字的基本笔形有：横(一)、竖(丨)、撇(丿)、点(丶)、折(乛) 5 类，于是我们依据基根第一笔的笔形把170个基根分成"横起笔、竖起笔、撇起笔、点起笔和折起笔" 5大类，然后按照英文字母的自然顺序划分每一类的根区范围。

横起笔类基根如: 一土王扌艹木石匸占有 ABCDEFGH 8个根区。竖起笔类基根如: 虫口日目，占有 IJKL 4个根区。撇起笔类基根如: ⺮亻八金月鱼，占有 MNOPQR 6个根区。点起笔类基根如:言病之，占有STUVW 5个根区。折起笔类基根如:马乡，占有XYZ 3个根区。

以下内容来自百度百科：

按使用功能将基本字根分为主根和副根，再按起笔笔形将主根和副根分为上述的五个大类（横起笔、竖起笔等）。主根的键位确定之后，副根按自身的笔形从属相应的主根。

而主根又被分为第一主根和第二主根两类，第一主根是组字能力最强的基根，共26个，如基根（第一主根）“一、土、王”的代码就是A、B、C等等，他们的代码就是一代表根区的英文字母作为代码；并不是每个根区都有第二主根的，在郑码的标准方案中，为每个第二主根又规定了一个位码D，这样第二主根就有两个字母作为代码，（叫做2码根，而相对来说第一主根就叫做1码根）。避免了诸多基根共用一个根区代码而造成重码率高的现象，例如基根（第二主根）“二”的代码就是BD，基根“三”的代码就是CD等。第一主根和第二主根共同提供了本区字根的笔形特征。

副根中大多数都是大家熟悉的规范的部首。在标准型中也为每个副根规定了一个位码，这样副根也是2码根。例如副根“丁”的代码是AI，“气”的代码是MY，“穴”的代码是WO等。

副根的第一个代码是区码，第二个代码（位码）的确定共有四种情况，分别按如下规则执行：

按副根构形中含有的主根成分确定，例如前述的“穴”中含有O区主根“八”的成分，因此他的位码为O，这是副根位码确定的主要方式。

按副根构形中还有的笔画成分确定，如前述的“丁”中含有一笔竖钩，因此位码定为代表一笔竖的区码I。

按副根构形中含有的其他副根成分确定，如“示”的构形中含有K区副根“小”的成分因此位码定为K，整个菜码为BK。几个特殊副根的位码需要强行记忆，如“山LL”、“匕RR”和“已YY”。

基根采用了双符代码后可以及大地减少重码，而且基根代码的排序非常有规律，使郑码具备了字典的查字码功能，为识字教学与计算机输入的结合创造了条件。

取码方法：

单字首根（即第一个基根）的代码要按照实际码数取，不能有所省略。就是说，首根是1码根就取1码；首根是2码根就取2码（区码和位码都要取）。

为保证单字编码不超过4个字母，首根之后的其余基根代码要根据不同情况决定取舍。一般是先舍位码，只取区码的1码。

例如：樱--木F贝LO贝LO女ZM--FLLZ

醒--酉FD曰K生MC--FDKM

但是，对于四基根和多基根字，还要将中间一些基根的代码全部舍弃，只取前两码和最末2个基根各1码。就是说，取两头舍中间。

例如：缩--纟Z宀WD(亻)一A白NK--ZWAN

糖--米UF(广)肀XB口J--UFXJ

词语取码方式

为使词语的代码不超过 4 个字母，编码时要根据词语中单字数的多少决定基根代码的取舍。

给词语编码时，只需取用基根的区码。

二字词

取每个字的首根和次根的区码各1码，表述为：2 - 2

举例：数量 ---- 米/U 女/Z 曰/K 一/A ---- UZKA

第一主根作为单字参与构词，在需取 2 码时要在其代码后加“A”(与作为单字用的规则一致)。高频字参与构词时，要在其代码后加“V”。

举例：土地 ---- 土/B 地/B ---- BABV

三字词

取第一字首根的1码，取第二字首根和次根各1码；取第三字首根1码组成，表述为：1 - 2 - 1。

举例：科技馆 ---- 禾/M 扌/D 十/E 饣/O ---- MDEO

四字词和多字词

取前四字的首根各1码组成，表述为：1 - 1 - 1 - 1

举例：

轻描淡写 ---- 车/H 扌/D 氵/V 冖/W ---- HDVW

出污泥而不染--- 凵/Z 氵/V 氵/V 而/G (不氵) --- ZVVG

简码的取码方式，对一些常用字或词，按一定的规则，取其常规码中的 1－3 个字符作为简略编码，称为简码。简码对专职操作员提高输入速度大有好处，非专职操作员不必特别去记忆。

一级简码：对应于 26 个高频字。

二级简码用该字首根和次根各 1 码组成。

举例：

把 -- DY 找 -- DH 管 -- MW

需 -- FG 取 -- CX

个别常用词也有二级简码，就是取每字第一个基根的区码。

举例：

中国--JJ 国家--JW 一定--AW 我们--MN 政府--AT 开展--AX

北京--TS 上海--IV 天津--AV 合作--ON 各种--RM 采取--PC

三级简码

二基根字：取第一个基根的区码和第二个基根的区位码，如：处 -- RID。

三基根和多基根字：依次取第一、第二和第三个基根的区码，如：散 -- EQM。

责任编辑：

标签：

上一篇：石油是什么？油气地质储量及其分级
下一篇：最后一页