漢籍電子文献の使い方

バージョン2の使い方(その7):Wordへの貼り付けと注意事項

ページ内目次

漢籍電子文献の使い方

睡人亭内参照ページ

外部参照Webサイト

睡人亭トップ授業用漢籍電子文献の使い方バージョン2の使い方(その7)

漢籍電子文献のバージョン2の利用方法について紹介します。

ここでは、検索結果のWordへのコピー&貼り付けの方法について説明しています。

ページ先頭

検索結果をWordに貼り付け

検索結果は、Wordにコピーして貼り付ける事が可能です。

但し、通常のコピー&ペーストでは自動的に[html形式]が選択されますが、この方法だと、Windows XP環境では外字部分が文字化けしてしまいます。

また、他のWindowsOSでも不具合があります(下を参照)。

それを回避するには、貼り付けの際に[Unicodeテキスト形式]で貼り付ける必要があります。

但し、その場合でも一部の外字が強制的に韓国語のフォントで表示されるというバグがありますので、Windows XPとWordとの組み合わせには不具合が多くある事を憶えておいてください。

以下、貼り付け方法について説明します。

  1. 文字列のコピーをするには、マウスを左ドラッグしてコピーしたい範囲を選択し、メニューの[編集]→[コピー]を選択してください。
    範囲を選択してコピー
  2. コピーしたら、Wordに貼り付けます。
  3. メニューの[編集]→[形式を選択して貼り付け]を選択します。
    メニューの[編集]→[形式を選択して貼り付け]
  4. [形式を選択して貼り付け]のダイアログボックスが表示されます。
  5. そこから[Unicodeテキスト]を選択して[OK]を左クリックします。
    [形式を選択して貼り付け]のダイアログボックス
  6. Wordに貼り付けられました。
    [Unicodeテキスト形式]出Wordに貼り付けた結果

貼り付け後、一部の文字が・(中黒)状態で表示された場合は、該当する文字列を選択して、ツールバーの[フォント]から[MingLiU(繁体字中国語:BIG5)]を選択しましょう。

但し、外字をインストールしていない環境では、外字相当部分について[MingLiU]にフォントを変更しても上図のように・(中黒)表示のままになっています。

また、簡体字中国語(Windows XPのみ)や韓国語環境(2000, NT4.0)をインストールしていると、Unicodeに割り当てられていない、一部のGB18030収録文字やハングル文字を外字領域に割り当てているというOSの仕様により、中央研究院外字の一部の表示が今挙げた特定の言語が外字領域に割り当てている文字に化けてしまうという不具合が生じます。この不具合については、Microsoft社の方から説明がでています。仕様との事なので、改善されることはなさそうです。

貼り付けの注意事項

Wordに貼り付ける際、[形式を選択して貼り付け]を使わずに普通に[貼り付け]を選択すると、html形式での貼り付けになります。

html形式で貼り付けると、文字の色やフォントサイズなのがそのまま貼り付けられますので便利なのですが、漢籍電子文献で使用されている外字との相性が大変悪く、外字が使われている部分をコピーしてhtml形式で貼り付けると、様々な不具合を引き起こします。

代表的な不具合には、以下に挙げた例があります。

実際には、このような感じになります。

例えば、以下のような検索結果を、html形式でWordに貼り付けたとします。

漢籍電子文献バージョン2のコピー元の文章

それをWordにhtml形式で貼り付けると、外字[冄]の表示がハングルになっています。また、外字[衞]が本来あるべき場所から移動して、しかも文字表示もおかしくなっています。

しかも、外字部分を選択して外字を表示させようとしても上手く出来ません。特に、[冄]のハングルを直そうとしても上手くいきません。

漢籍電子文献バージョン2をhtml形式で貼り付け

従って、html形式で貼り付けると、全く元の文章と異なってしまうという場合があるという事です。必ず貼り付けの際には、[Unicodeテキスト形式]で貼り付けましょう。

但し、その場合でも上記の外字[冄]の表示がハングルのフォントで表示されるという不具合が残っています。Windows2000やXPと、Wordとを組み合わせて漢籍電子文献を利用する場合には不具合が多くある事を憶えておいてください。

漢籍電子文献バージョン2をUnicodeテキスト形式で貼り付け

この不具合を避けるには、他のアプリケーションに貼り付けて外字部分をUnicodeや文字鏡に収録された文字に置き換えた後、加工後の範囲を選択してコピーし、WordにUnicodeテキスト形式で貼り付ける必要があります。

加工に適したアプリケーションとして、テキストエディタやhtmlエディタがあります。但し、いずれもUnicodeに対応している必要があります。

ここでの[Unicode]対応とは、「Unicodeのファイルは読めるがJIS X 0208以外の文字は扱えない」という類の代物ではなく、UnicodeのBMP領域程度の文字は不都合なく扱えるものを指します。

例えば、Emeditorや、akira2003、xyzzy等が該当します。

一太郎でも文字化け無く貼り付けられますが、外字の部分が時々・(中黒)表示になっていますので、一文字一毎に外字のフォント[EUDC]を指定しなければいけない場合もあります。筆者は、検索結果のページを一端html(但しUTF-8)形式で保存した後、自作の外字置換用perl scriptを利用して一括して置き換えし、ついでにそこでhtmlタグの不要部分も取り除いて二次利用用のデータとして保存しています。


睡人亭謹製