JIS漢字コードとは?
日本の文字コード規格は、財団法人日本規格協会が日本工業規格(いわゆるJIS規格)の一つとして選定・公布しています。
正式名称は「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」になります(日本規格協会の該当規格情報JIS X 0208の規格表・JIS X 0213の規格表)。もともとはJIS C 6226として制定されましたが、JISの情報部門の新設に伴ってJIS X 0208に規格番号が移動しています。
面区点番号
JIS漢字コードは、94×94のマス目を持つ二つの文字表で構成されています。前者を「第一面」、後者を「第二面」と呼びます。各表のマス目は94の区と94の点に分けられ、それぞれのマス目に一つの文字が収録されます。JIS漢字コードに収録される文字は、全て面・区・点の番号で個別に表現されます。
- 第1面-1区~7区(非漢字区画)
- ひらがな・カタカナ・記号などの非漢字が収録されています。JIS X 0208での区画は以下の表の通りですが、JIS X 0213では、この区画の空き領域に新たに非漢字(659字)が追加されています。
区 | 内容 |
---|---|
1,2区 | 記号 |
3区 | 英数字 |
4区 | ひらがな(文字表はこちらを参照) |
5区 | カタカナ |
6区 | ギリシア文字 |
7区 | キリル文字 |
8区 | 罫線素片 |
- 第1面-16区-1~47区-51
- 「第1水準」漢字が収録されています。
- 漢字の読みの五十音順に配列されています。
- JIS X 0213では、第1面の47区52~94まで、第三水準漢字の一部が配置されています。
16区 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
---|---|---|---|---|---|---|---|---|---|---|
16-00 | 亜 | 唖 | 娃 | 阿 | 哀 | 愛 | 挨 | 姶 | 逢 | |
16-10 | 葵 | 茜 | 穐 | 悪 | 握 | 渥 | 旭 | 葦 | 芦 | 鯵 |
16-20 | 梓 | 圧 | 斡 | 扱 | 宛 | 姐 | 虻 | 飴 | 絢 | 綾 |
16-30 | 鮎 | 或 | 粟 | 袷 | 安 | 庵 | 按 | 暗 | 案 | 闇 |
16-40 | 鞍 | 杏 | 以 | 伊 | 位 | 依 | 偉 | 囲 | 夷 | 委 |
16-50 | 威 | 尉 | 惟 | 意 | 慰 | 易 | 椅 | 為 | 畏 | 異 |
16-60 | 移 | 維 | 緯 | 胃 | 萎 | 衣 | 謂 | 違 | 遺 | 医 |
16-70 | 井 | 亥 | 域 | 育 | 郁 | 磯 | 一 | 壱 | 溢 | 逸 |
16-80 | 稲 | 茨 | 芋 | 鰯 | 允 | 印 | 咽 | 員 | 因 | 姻 |
16-90 | 引 | 飲 | 淫 | 胤 | 蔭 |
- 第1面-48区-01~84区-6
- 「第2水準」漢字が収録されています。
- 文字の配列は部首順(部首内は画数順)に配列されています。
- 第一・第二水準に分けて収録されているのは、規格が制定された当時、コンピュータ上で漢字を使用可能にするのには大変コストがかかっていました(いわゆる「漢字ROM」という専用の部品を使用)。そのため、すこしでもコストを下げるために比較的使用頻度が高い文字を「第一水準」に入れ、「とりあえず最低限使用する漢字があればよい」というニーズを満たし、「より多くの漢字を扱いたい」場合には「第二水準」をという形を採用したのが原因です。
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
---|---|---|---|---|---|---|---|---|---|---|
48-00 | 弌 | 丐 | 丕 | 个 | 丱 | 丶 | 丼 | 丿 | 乂 | |
48-10 | 乖 | 乘 | 亂 | 亅 | 豫 | 亊 | 舒 | 弍 | 于 | 亞 |
48-20 | 亟 | 亠 | 亢 | 亰 | 亳 | 亶 | 从 | 仍 | 仄 | 仆 |
48-30 | 仂 | 仗 | 仞 | 仭 | 仟 | 价 | 伉 | 佚 | 估 | 佛 |
48-40 | 佝 | 佗 | 佇 | 佶 | 侈 | 侏 | 侘 | 佻 | 佩 | 佰 |
48-50 | 侑 | 佯 | 來 | 侖 | 儘 | 俔 | 俟 | 俎 | 俘 | 俛 |
48-60 | 俑 | 俚 | 俐 | 俤 | 俥 | 倚 | 倨 | 倔 | 倪 | 倥 |
48-70 | 倅 | 伜 | 俶 | 倡 | 倩 | 倬 | 俾 | 俯 | 們 | 倆 |
48-80 | 偃 | 假 | 會 | 偕 | 偐 | 偈 | 做 | 偖 | 偬 | 偸 |
48-90 | 傀 | 傚 | 傅 | 傴 | 傲 |
JIS C 6226-1978
1978年に日本規格協会から公布された6,802字の文字表です。JIS漢字コードの 出発点ですが、1983年に規格自体の大幅な改訂+規格番号の異同があったため、現在では俗に「78JIS」と呼ばれています(JIX X 0213: が制定される前は「旧JIS」とも呼ばれていました)。
- 01~07区
- 非漢字453字が収録されています。
- 16~47区
- 「第1水準」漢字2,965字が収録されています。
- 1946年に告示された「当用漢字表(法令・公用文書・新聞・雑誌および一般社会で、使用する漢字の範囲を示したもの)」1,850字と当時の「人名用漢字別表」120字を全て含んでいます。
- 48~83区
- 「第2水準」漢字3,384字が収録されています。
文字一覧はこちらを参照してください(京都大学人文科学研究所 安岡孝一氏のWebサイト掲載のもの) 。
JIS X 0208-1983
1983年に、JIS C 6226-1978の改定版として公布された6,877字の文字表です。俗に「83JIS」と呼ばれています(78JISとの関係で、昔は「新JIS」と呼ばれることもありました)。現在のJIS漢字コードの直接の祖先となります。前に述べたとおり、JISの情報処理部門の新設に伴って、名称が「JIS C 6226」から「JIS X 0208」へと変更となりました。これ以後、JIS漢字コードは「JIS X 0208-改訂年度」の形式で呼ばれることになります。
- 01~08区
- 非漢字524字
- 第二区に記号類39文字、大が地区に罫線素片32文字が追加されました。
- 16~47区
- 「第1水準」漢字2,965字
- 48~84区
- 「第2水準」漢字3,388字
基本的にJIS C 6226-1978の文字表を継承していますが、1981年に告示された「常用漢字表(法令・公用文書・新聞・雑誌・放送など、一般の社会生活において、現代の国語を書き表す場合の漢字使用の目安を示すもの)」1,945字と当時の「人名用漢字別表」166字が新字体で印刷されていた影響をうけ、字体の変更や入換をした部分が複数箇所存在します。
字体変更
区点 | 78JIS | 83JIS |
---|---|---|
1609 | 逢 | 逢 |
1975 | 葛 | 葛 |
3467 | 黛 | 黛 |
3702 | 鄭 | 鄭 |
3740 | 堵 | 堵 |
4643 | 遼 | 遼 |
4691 | 煉 | 煉 |
字体変更に伴う文字の追加
83JISによる字体変更に伴い、78JISでは第一水準漢字として収録されていたいくつかの字体を84区に移動した形にして追加しました。
これらの変更に伴い、結果として第二水準漢字は部首画数順に並ばなくなりました。
区点 | 文字入替 | 区点 | 追加文字 |
---|---|---|---|
2238 | 尭 | 8401 | 堯 |
4374 | 槙 | 8402 | 槇 |
4558 | 遥 | 8403 | 遙 |
6486 | 瑶 | 8404 | 瑤 |
第一・第二水準間での字体交換44文字(22組)
文字 | 78JIS | 83JIS | 文字 | 78JIS | 83JIS |
---|---|---|---|---|---|
鰺 | 1619 | 8245 | 鯵 | 8245 | 1619 |
鶯 | 1809 | 8284 | 鴬 | 8284 | 1809 |
蠣 | 1934 | 7358 | 蛎 | 7358 | 1934 |
攪 | 1941 | 5788 | 撹 | 5788 | 1941 |
竈 | 1986 | 6762 | 竃 | 6762 | 1986 |
灌 | 2035 | 6285 | 潅 | 6285 | 2035 |
諫 | 2050 | 7561 | 諌 | 7561 | 2050 |
頸 | 2359 | 8084 | 頚 | 8084 | 2359 |
礦 | 2560 | 6672 | 砿 | 6672 | 2560 |
賤 | 3308 | 7645 | 賎 | 7645 | 3308 |
壺 | 3659 | 5268 | 壷 | 5268 | 3659 |
礪 | 3755 | 6674 | 砺 | 6674 | 3755 |
檮 | 3778 | 5977 | 梼 | 5977 | 3778 |
濤 | 3783 | 6225 | 涛 | 6225 | 3783 |
邇 | 3886 | 7778 | 迩 | 7778 | 3886 |
蠅 | 3972 | 7404 | 蝿 | 7404 | 3972 |
檜 | 4116 | 5956 | 桧 | 5956 | 4116 |
儘 | 4389 | 4854 | 侭 | 4854 | 4389 |
前にも書いたとおり、文字コードには「文字表の文字と各エンコーディングスキームで符号化されたビット列とが、一対一で対応しなければならない」という大原則があります。
にもかかわらず、83JISで行われた文字表の文字の入れ替えや字形の変更は、その原則に対する違反行為とも言えるでしょう。そのため、これらの措置が現状のJIS漢字批判の淵源の一つとなってきました。
文字一覧はこちらを参照してください(京都大学人文科学研究所 安岡孝一氏のWebサイト掲載のもの)。
JIS X 0208-1990
1990年に公布された83JISの改定版です。基本的に83JISの文字表を継承していますが、「人名用漢字別表」の改正に伴い「凜(1-84-5)」「熙(1-84-6)」を追加しているため、登録字数が6,879字と変更されています。
文字一覧はこちら(京都大学人文科学研究所 安岡孝一氏のWebサイト掲載のもの)
JIS X 0208: 1997(1997のみISOの表記に合わせてコロン「:」に変更)
1997年に公布された6,879字の文字表です。基本的に90JISと同一です。
過去のJIS漢字コードにおける間違いや、従来曖昧だった字形表記の問題(包摂)などを明確化したもので、JIS X 0208の規格としては97年版でひとまずの区切りが打たれた形になります。
包摂というのは、「フォントの文字デザインの揺れをどこまで許容するか?」という事です。元々JIS漢字コードの文字デザインには明確な規定が無く、それによってJIS漢字コードの混乱の主要因になったとという反省のもと、包摂の基準(同じ文字だと認める字形の揺れの範囲の規定)を明確にしました。
その辺りの情報は、芝野耕司編著『JIS漢字字典』(日本規格協会 ISBN:4542201295 初版1997 増補改訂版2002)をお読みください。
幽霊字
実は、JIS漢字コードには、「典拠不明」とされる文字がいくつか収録されています。使用例が見つからないのに収録されているというので、俗に「幽霊字」と呼ばれています。
よく知られているのが「妛」です。これは、97年の改訂時に調査された結果、「原典とした『国土行政区画総覧』で滋賀県犬上郡多賀町河内の通称「𡚴原(あけんばら)」と呼ばれる地域で使われる「𡚴」(1面47区67点、UnicodeではU+216B4)を作字をした際に紙の影が写り、「妛」と誤認され転写されたのである」とされています(笹原宏之「「JIS X 0208」における音義未詳字に対する原典による同定―「標準コード用漢字表(試案)」と「国土行政区画総覧」―」(『国語学 研究と資料』第20号、1996年12月、「妛」については8~9ページに記述がある)
ところが、この「妛」にも色々紆余曲折があって、UnicodeのCJK統合漢字では「妛」が別な文字(『大漢和辞典』6094番)(リンクは台湾教育部異体字字典)として収録されています。
参考:JIS幽霊漢字
JIS X 0208: 2012
2010年11月30日に内閣告示第二号にて告示された常用漢字表の改訂(規格表PDF)に対応して、改訂常用漢字表に準拠した記述の変更が改正内容です。そのため、1997年版と比べて文字の変更はありません。