文字コード入門

JIS漢字コード:JIS第一・第二水準

ページ内目次

文字コード入門目次

睡人亭トップ 授業用文字コード入門JIS漢字コード:JIS第一・第二水準

日本で使われる文字コードの基礎となるのが、JIS X 0208系の規格です。

ここではその内、JIS非漢字・JIS第一・第二水準漢字について解説します。

ページ先頭

JIS漢字コードとは?

日本の文字コード規格は、財団法人日本規格協会が日本工業規格(いわゆるJIS規格)の一つとして選定・公布しています。

正式名称は「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」になります(日本規格協会の該当規格情報)。もともとはJIS C 6226として制定されましたが、JISの情報部門の新設に伴ってJIS X 0208に規格番号が移動しています。

区点番号

JIS漢字コードでは、全ての文字に「区点番号」と呼ばれる番号が振られています。

01~07区
ひらがな・カタカナ・記号などの非漢字が収録されています。
非漢字区画一覧
内容
1,2区 記号
3区 英数字
4区 ひらがな(文字表はこちらを参照)
5区 カタカナ
6区 ギリシア文字
7区 キリル文字
8区 罫線素片
16~47区
「第1水準」漢字が収録されています。
漢字の読みの五十音順に配列されています。
第一水準16区の文字表(JIS X 0208-1997)
16区 0 1 2 3 4 5 6 7 8 9
1600
1610
1620
1630
1640
1650
1660
1670
1680
1690
48~83区
「第2水準」漢字が収録されています。
文字の配列は部首順(部首内は画数順)に配列されています。
第一・第二水準に分けて収録されているのは、規格が制定された当時、コンピュータ上で漢字を使用可能にするのには大変コストがかかっていました(いわゆる「漢字ROM」という専用の部品を使用)。そのため、すこしでもコストを下げるために比較的使用頻度が高い文字を「第一水準」に入れ、「とりあえず最低限使用する漢字があればよい」というニーズを満たし、「より多くの漢字を扱いたい」場合には「第二水準」をという形を採用したのが原因です。
第二水準 第48区の文字表(JIS X 0208-1997)
0 1 2 3 4 5 6 7 8 9
4800   丿
4810
4820
4830
4840
4850
4860
4870
4880
4890

ページ先頭

JIS C 6226­1978

1978年に日本規格協会から公布された6,802字の文字表です。JIS漢字コードの 出発点ですが、1983年に規格自体の大幅な改訂+規格番号の異同があったため、現在では俗に「旧JIS漢字」と呼ばれています。

01~07区
非漢字453字が収録されています。
16~47区
「第1水準」漢字2,965字が収録されています。
1946年に告示された「当用漢字表(法令・公用文書・新聞・雑誌および一般社会で、使用する漢字の範囲を示したもの)」1,850字と当時の「人名用漢字別表」120字を全て含んでいます。
48~83区
「第2水準」漢字3,384字が収録されています。

文字一覧はこちらを参照してください(京都大学人文科学研究所 安岡孝一氏のWebサイト掲載のもの) 。

ページ先頭

JIS X 0208­1983

1983年に、JIS C 6226­1978の改定版として公布された6,877字の文字表です。俗に「新JIS漢字」と呼ばれています。現在のJIS漢字コードの直接の祖先となります。前に述べたとおり、JISの情報処理部門の新設に伴って、名称が「JIS C 6226」から「JIS X 0208」へと変更となりました。これ以後、JIS漢字コードは「JIS X 0208-改訂年度」の形式で呼ばれることになります。

01~08区
非漢字524字
第二区に記号類39文字、大が地区に罫線素片32文字が追加されました。
16~47区
「第1水準」漢字2,965字
48~84区
「第2水準」漢字3,388字

基本的にJIS C 6226­1978の文字表を継承していますが、1981年に告示された「常用漢字表(法令・公用文書・新聞・雑誌・放送など、一般の社会生活において、現代の国語を書き表す場合の漢字使用の目安を示すもの)」1,945字と当時の「人名用漢字別表」166字が新字体で印刷されていた影響をうけ、字体の変更や入換をした部分が複数箇所存在します。

字体変更

字体変更の例。
総計200~300文字
(判別者によって若干の増減あり)
区点 旧JIS 新JIS
1609
1975
3467
3702
3740
4643
4691

字体変更に伴う文字の追加

字体変更に伴う文字の追加の例
区点 文字入替 区点 追加文字
2238 8401
4374 8402
4558 8403
6486 8404

JISX0208 1983で字体が入れ替わった文字と追加された句点番号

これによって第二水準は部首画数順に並んでいない文字が出来ることになりました。

第一・第二水準間での字体交換44文字(22組)

第一・第二水準間での字体交換44文字(22組)
文字新JIS旧JIS文字新JIS旧JIS
1619824582451619
1809828482841809
1934735873581934
1941578857881941
1986676267621986
2035628562852035
2050756175612050
2359808480842359
2560667266722560
3308764576453308
3659526852683659
3755667466743755
3778597759773778
3783622562253783
3886777877783886
3972740474043972
4116595659564116
4389485448544389

前にも書いたとおり、文字コードには「文字表の文字と各エンコーディングスキームで符号化されたビット列とが、一対一で対応しなければならない」という大原則があります。

にもかかわらず、JIS X 0208-1983で行われた文字表の文字の入れ替えや字形の変更は、その原則に対する違反行為とも言えるでしょう。そのため、これらの措置が現状のJIS漢字批判の淵源の一つとなってきました。

文字一覧はこちらを参照してください(京都大学人文科学研究所 安岡孝一氏のWebサイト掲載のもの)。

ページ先頭

JIS X 0208-1990

1990年に公布されたJIS X 0208-1983の改定版です。基本的にJIS X 0208-1983の文字表を継承していますが、「人名用漢字別表」の改正に伴い「凜」「熙」を追加しているため、登録字数が6,879字と変更されています。

文字一覧はこちら(京都大学人文科学研究所 安岡孝一氏のWebサイト掲載のもの)

ページ先頭

JIS X 0208:1997(1997のみISOの表記に合わせてコロン「:」に変更)

1997年に公布された6,879字の文字表です。基本的にJIS X 0208­1990と同一です。

過去のJIS漢字コードにおける間違いや、従来曖昧だった字形表記の問題(包摂)などを明確化したもので、JIS X 0208の規格としては97年版でひとまずの区切りが打たれた形になります。

包摂というのは、「フォントの文字デザインの揺れをどこまで許容するか?」という事です。元々JIS漢字コードの文字デザインには明確な規定が無く、それによってJIS漢字コードの混乱の主要因になったとという反省のもと、包摂の基準(同じ文字だと認める字形の揺れの範囲の規定)を明確にしました。

その辺りの情報は、芝野耕司編著『JIS漢字字典』(日本規格協会 ISBN:4542201295 初版1997 増補改訂版2002)をお読みください。

幽霊字

実は、JIS漢字コードには、「典拠不明」とされる文字がいくつか収録されています。使用例が見つからないのに収録されているというので、俗に「幽霊字」と呼ばれています。

よく知られているのが「妛」です。これは、97年の改訂時に調査された結果、「原典とした『国土行政区画総覧』で滋賀県犬上郡河内通称(U+216B4)原(あけんばら)の(U+216B4)を作字をした際に紙の影が写り、「妛」と誤認され転写されたのである」とされています(笹原宏之「「JIS X 0208」における音義未詳字に対する原典による同定―「標準コード用漢字表(試案)」と「国土行政区画総覧」―」(『国語学 研究と資料』第20号、1996年12月)

ところが、この「妛」にも色々紆余曲折があって、UnicodeのCJK統合漢字では「妛」が別な文字(『大漢和辞典』6094番)(リンクは台湾教育部異体字字典)として収録されています。

参考:JIS幽霊漢字

ページ先頭


最終更新日:2008年04月25日

睡人亭謹製