[アーティクル]
10/31/2012

Unicode の基礎

1 つのデータベースに複数言語のデータを格納する場合、文字データとコードページのみを使用すると、管理が困難になります。また、データベース用に必要なすべての言語固有の文字を格納できる、単一のコードページを見つけることも困難です。さらに、さまざまなコードページを実行するクライアントがそれぞれ読み取りや更新を行う際に、特殊な文字が正しく変換されるようにすることも困難です。さまざまな国のクライアントをサポートするデータベースでは、非 Unicode データ型ではなく常に Unicode データ型を使用する必要があります。

たとえば、次の 3 つの主要言語を扱う必要がある北米の顧客データベースについて考えてみましょう。

メキシコ向けのスペイン語の名前と住所
ケベック向けのフランス語の名前と住所
カナダの他の地域と米国向けの英語の名前と住所

文字型の列とコードページのみを使用するときは、3 つの言語すべての文字を処理できるコードページを使用してデータベースがインストールされるようにする必要があります。また、上記の中の 1 つの言語の文字が、別の言語のコードページを実行しているクライアントで読み取られる場合は、その文字が正しく変換されるように注意する必要があります。

インターネットの発達と共に、異なるロケールを実行する多くのクライアントコンピュータをサポートすることの重要性が高まっています。世界中のユーザーが要求するすべての文字をサポートする文字データ型のコードページを 1 つ選択することは困難です。

国際的なデータベースの文字データを管理する最も簡単な方法は、char、varchar、text などの非 Unicode データ型を使用するのではなく、常に nchar、nvarchar、nvarchar(max) などの Unicode データ型を使用することです。

Unicode は、コードポイントを文字にマップするための標準です。Unicode は世界中のすべての言語のすべての文字を処理できるようにデザインされているので、異なる文字のセットを扱うために他のコードページを必要とすることがありません。SQL Server では、Unicode Standard, Version 3.2 がサポートされています。

国際的なデータベースを使用するすべてのアプリケーションで、非 Unicode データ型の変数の代わりに Unicode データ型の変数を使用すれば、システム内で文字の変換を行う必要がなくなります。クライアントには、他のすべてのクライアントと同じ文字でデータが表示されます。

SQL Server では、すべてのテキストシステムカタログデータが Unicode データ型の列に格納されます。つまり、テーブル、ビュー、ストアドプロシージャなどのデータベースオブジェクトの名前が Unicode 列に格納されます。これにより、Unicode のみを使用してアプリケーションを開発できるようになり、コードページの変換に関するあらゆる問題を回避できます。

Unicode の基礎

関連項目

概念

その他のリソース