Web ページのエンコーディングで gbk や gb2312 ではなく utf-8 が使用されるのはなぜですか?

Web ページのエンコーディングで gbk や gb2312 ではなく utf-8 が使用されるのはなぜですか?

選択肢がある場合は、UTF-8を使用することをお勧めします。

実際、Windows システム自体のプログラムはすでに完全に Unicode に切り替わっており、GBK は中国の標準に対応するための暫定的な手段にすぎません。

GBK のテキスト エンコーディングは 2 バイトで表現されます。つまり、中国語と英語の文字は両方とも 2 バイトで表現されますが、中国語を区別するために、最上位ビットは 1 に設定されます。

UTF-8 エンコーディングは、国際文字を解決するために使用されるマルチバイト エンコーディングです。英語の場合は 8 ビット (1 バイト)、中国語の場合は 24 ビット (3 バイト) を使用します。英語の文字が多いフォーラムでは、スペースを節約するために UTF-8 が使用されます。

GBK にはすべての中国語の文字が含まれています。

UTF-8 には、世界中のすべての国で必要な文字が含まれています。

GBKは国家標準GB2312をベースに拡張しGB2312と互換性のある規格です(まだ国家標準ではないようです)

UTF-8 でエンコードされたテキストは、UTF8 文字セットをサポートするさまざまな国のブラウザーで表示できます。
例えば、UTF8 エンコードであれば、IE 用の中国語サポート パッケージをダウンロードしなくても、外国人の英語版 IE で中国語を表示できます。

したがって、英語が多いフォーラムでは、GBK を使用すると文字ごとに 2 バイトが消費されますが、UTF-8 を使用すると 1 バイトしか消費されません。

注意: UTF-8 バージョンは国際互換性に優れていますが、中国語バージョンでは GBK/BIG5 バージョンよりも 50% 多くのデータベース ストレージ スペースが必要です。したがって、このバージョンは推奨されず、国際互換性に関して特別な要件があるユーザーのみを対象としています。

簡単に言えば:
中国語のテキストが多いフォーラムでは、データベースのスペースを節約するために GBK エンコードを使用するのが適切です。
英語コンテンツが多いフォーラムの場合は、データベースのスペースを節約するために UTF-8 を使用するのが適切です。

gbkとgb2312の違いは何ですか

まず、GBK とは何か、GB2312 とは何かを誰もが理解する必要があります。これらはすべて文字エンコーディングの一種であることを知っておく必要がありますが、もちろん文字エンコーディングには多くの種類があります。

文字エンコーディングは次のように理解できます。

コンピューターは 0 と 1 のバイナリ値を保存します。

8 ビットは 1 バイトに対応し、通常は 16 進数で表現されます。

では、0 や 1 などのさまざまな数字の代わりに、コンピューターに表示したい文字を表示するにはどうすればよいでしょうか?

ここでは、コンピューターが保存している対応する 16 進数値を、英語や中国語などの他の言語の文字を含む対応する文字に変換し、画面に出力する必要があります。

したがって、エンコードとは、どの値がどの文字に対応するかを指定するための一連のルールを定義することを意味します。

次に、文字エンコーディングは、コンピューターに保存されている多数の値のうちのどの値がコンピューター画面に表示されるどの文字に対応するかを指定する一連の規則を定義します。

まとめると、GBK と GB2312 は一種の文字エンコーディングであることを誰もが理解する必要があります。

以下では、それらの相違点と類似点について詳しく説明します。

類似点:

1. GBK と GB2312 はどちらも 16 ビットです。

2. 通常、Web ページのメタ タグで使用されます。

違い:

1. GBK 文字エンコーディングは、簡体字中国語と繁体字中国語をサポートします。

GBK は「Chinese Internal Code Extension Specifications」の略称です (GBK は中国語ピンインの「国家標準」と「拡張」の頭文字を意味し、英語名は Chinese Internal Code Specifications)。1995 年 12 月 1 日に中華人民共和国国家情報技術標準化技術委員会によって制定されました。1995 年 12 月 15 日に、国家技術監督総局標準化部と電子工業部科学技術品質監督部が共同で、1995 年技術監督通知第 229 号文書の形式で技術仕様ガイド文書として認定しました。

2. GB2312 は簡体字中国語のみをサポートします。

「情報交換用中国語文字コード化文字セット」は、1980 年に中国標準総局によって発行され、1981 年 5 月 1 日に施行された国家標準のセットです。標準番号は GB 2312-1980 です。
GB 2312 規格には、第 1 レベルの中国語文字 3755 個と第 2 レベルの中国語文字 3008 個を含む合計 6763 個の中国語文字が含まれています。同時に、GB 2312 には、ラテン文字、ギリシャ文字、日本語のひらがなとカタカナ、ロシア語のキリル文字を含む全角文字 682 個が含まれています。

ウェブページが主に中国語を話す中国人向けである場合、GB2312 と GBK を使用すると非常に便利です。テキストの保存容量が少なく、いくつかの利点があります。ウェブページを世界中に公開する場合、ウェブページのエンコーディングとして GB2312 と GBK を使用すると、コンピューターの一部のブラウザーにこのエンコーディングがないため、ウェブページ上の中国語の文字が認識できない文字化けした文字になってしまいます。

<<:  小さなプログラムが天井に張り付いてしまう問題を完璧に解決するためにposition:stickyを使用する方法

>>:  WeChatアプレットでのwxsファイルの素晴らしい使い方をいくつか紹介します

推薦する

ドロップダウンメニューを表示または非表示にするJavaScript

この記事では、ドロップダウンメニューを表示および非表示にするJavaScriptの具体的なコードを参...

js の hasOwnProperty のプロパティとインスタンスの使用法の詳細な説明

1. js は hasOwnProperty が不正に占有されることから保護しません。オブジェクトに...

MySQL 5.7.17 のインストールと設定方法のグラフィック チュートリアル (Windows10)

MySQL 5.7.17 のインストールと設定方法の概要最初のステップは、MySQL公式サイトから...

docker runの--rmオプションの使用方法

Docker コンテナが終了しても、デバッグを容易にし、ユーザー データを保持するために、デフォルト...

ウェブデザインにおけるテキスト入力ボックスのパラメータの説明

一般的なゲストブック、フォーラムなどでは、テキスト入力ボックスが使われています。これは HTML 言...

Nginx キャッシュ設定例

Web アプリケーションの開発とデバッグを行う際には、テストのためにブラウザのキャッシュをクリアした...

ウェブサイトのコンテンツの100~1%はナビゲーションである

ウェブサイトでは、コンテンツの(100-1)%がナビゲーションです1. ジェシー・ジェームズ・ギャレ...

Nginx サービスを使用してサブドメイン環境を構築し、2D マップの読み込みパフォーマンスを向上させる方法を説明します。

1. 背景最近、友人が大規模なマップの読み込みが遅いという問題に遭遇しました。iServer のパ...

Centos7 で NIS を構成する詳細な手順

目次原理ネットワーク環境の準備インストール前の準備NIS サーバー操作NIS クライアント操作原理N...

JSはjQueryのappend関数を実装します

目次コードを見せてください効果をテストする効果追伸別のアプローチコードを見せてください HTMLEl...

時点に基づくMySQLクイックリカバリソリューション

なぜこのような記事を書いたかというと、数日前の夜、仕事が終わろうとしていたときに、業務側で突然、テー...

Vue 親子コンポーネントの相互値の転送と呼び出し

目次1. 親が子コンポーネントに値を渡す2. 子コンポーネントが親コンポーネントに値を渡す3. 子コ...

MySQL トリガーの基本的な使い方(作成、表示、削除など)の詳細な説明

目次1. MySQLトリガーの作成: 1. MySQLトリガー作成構文: 2. MySQL作成構文の...

TypeScript におけるインターフェースと型メソッドの正しい使用例

目次序文インタフェースタイプ付録: インターフェースとタイプの違い要約する序文インターフェースとタイ...

HTMLで境界線を設定する3つの方法の詳細な説明

HTML で境界線を設定する 3 つの方法 境界線の幅: 1px 2px 2px; 境界線のスタイル...