同形异码汉字转换

示例文本中,第一行全部是统一汉字;第二行含有部首专用字和兼容汉字。点击“统一汉字”将所选项转换成统一汉字即普通汉字;点击“部首•兼容”将统一汉字转换成所选项的汉字。


所谓“同形异码”汉字,指在同一种字符集编码中,存在字形相同,但编码不同的汉字。在 Unicode 编码中,同形异码字主要是部首专用字兼容汉字
康熙部首:U+2F00~U+2FD5 收录了康熙字典 214 个部首,作为专门的部首用字,它们均有对应的中日韩统一汉字,形成了 214 对同形异码字;
部首扩展:U+2E80~U+2EFF,其中一些部首具有相同字形的统一汉字;
兼容汉字:U+F900~U+FAFF,收录了不同地域写法稍有不同的汉字,它们与对应的统一汉字的字形略有不同,但在大部分系统中与统一汉字显示得一模一样,参见:请勿使用“兼容表意文字区”的汉字
兼容扩展:U+2F800~U+2FA1F,同上,作为兼容扩展区收录更多写法不同的汉字。

通常来说这些同形异码字是用不上的,比如部首专用字,文本给机器阅读时可能用得上,因为机器可以根据编码知道这个字代表部首而非普通文字;至于兼容汉字,他们与对应的统一汉字被视为同一个字,只是字形略有不同,现在的计算机技术是通过语言环境来调用字体中的对应字形显示,而不会调用兼容编码,参见:汉字中日韩字形对照

总的来说,除非特殊用途,不要使用部首专用汉字和兼容汉字。产生此页面,是一些 OCR 文字识别技术未区分康熙部首专用字,导致识别出的文本不能正常检索、注音等。这类文本可以复制到文本框中,点击“统一汉字”即可。

QQXIUZI.CN 千千秀字