文字コードとは?
コンピューターは文字をそのまま保存しているわけではありません。
「あ」「A」「1」などの文字は、それぞれ決められた数値として保存されています。
その対応ルールを「文字コード」と呼びます。
文字コードが異なる環境でファイルを開くと、本来の文字を正しく表示できず、文字化けの原因になります。
Unicodeとは?
Unicodeは、世界中の文字を共通のルールで扱うための文字体系です。
日本語だけでなく、次のような多くの文字を統一的に扱えるよう設計されています。
- 英語
- 中国語
- 韓国語
- 絵文字
- 数学記号
現在の標準的な文字体系
現在では、多くのOSやWebサービスでUnicodeが採用されています。
UTF-8とは?
UTF-8は、Unicodeを保存する代表的な方式の一つです。
現在のWebサイトでは最も広く利用されており、多くのブラウザやプログラミング言語で標準的に使われています。
UTF-8の主な特徴は、次のとおりです。
- 世界中の文字を扱える
- 英数字は効率よく保存できる
- Webとの相性が良い
新しいWebサイトやシステムで使われる形式
現在新しく作成するWebサイトやシステムでは、UTF-8が採用されることが一般的です。
Shift_JISとは?
Shift_JISは、日本で長く利用されてきた文字コードです。
古いWindowsアプリケーションや業務システム、CSVファイルなどでは、現在でもShift_JISが使われていることがあります。
そのため、次のような場面では、UTF-8ではなくShift_JISが必要になるケースがあります。
- 古い業務システム
- 既存の社内システム
- 一部のCSVデータ
UTF-8とShift_JISの違い
| 項目 | UTF-8 | Shift_JIS |
|---|---|---|
| 日本語 | ○ | ○ |
| 世界中の文字 | ◎ | △ |
| 絵文字 | ○ | × |
| Webサイト | ◎ | △ |
| 古いWindowsシステム | △ | ◎ |
なぜ文字化けが起こるの?
最も多い原因は、保存時と読み込み時で文字コードが異なることです。
例えば、次のような場合は本来の文字を正しく解釈できず、文字化けが発生することがあります。
- UTF-8で保存したCSVをShift_JISとして読み込む
- Shift_JISのファイルをUTF-8として開く
よくある場面
文字コードを意識する場面には次のようなものがあります。
- CSVファイルの読み込み・書き出し
- Excelとのデータ受け渡し
- Webサイト制作
- プログラミング
- システム間のデータ連携
CSVで起こりやすい文字化け
特にCSVファイルでは、文字コードの違いが原因で文字化けするケースが少なくありません。
まとめ
文字コードは、コンピューターが文字を扱うための重要な仕組みです。
現在のWebではUTF-8が標準ですが、日本の古いシステムやCSVファイルではShift_JISが使われることもあります。
文字化けを防ぐためには、保存時と読み込み時の文字コードを揃えることが大切です。
CSVやテキストデータを扱う際は、必要に応じて当サイトの文字コード確認ツールもご活用ください。