#author("2021-04-16T03:56:07+00:00","default:ogiwiki","ogiwiki")
#author("2021-04-16T03:57:03+00:00","default:ogiwiki","ogiwiki")
***テキストデータ [#he09a1f8]
-テキストデータとは 普通の文字(及び改行文字・タブ文字)のコードだけが並んでいるデータ
--[[テキストファイル>http://e-words.jp/w/E38386E382ADE382B9E38388E38395E382A1E382A4E383AB.html]]
--[[バイナリファイル>http://e-words.jp/w/E38390E382A4E3838AE383AAE38395E382A1E382A4E383AB.html]]

-テキストファイルとワープロファイルとの違い

-テキストファイルの種類
--プレーンテキスト
---拡張子はふつうtxt
--表形式テキスト
---拡張子:CSV
--タグ付きテキスト	例) [[HTML>https://e-words.jp/w/HTML.html]],[[XML>https://e-words.jp/w/XML.html]]
---拡張子:htm,html / xml
-テキストファイルの利点
--おおよそどのようなコンピュータ環境でも利用可能
--さまざまなアプリケーションが対応(インポート/エクスポート)

***コンピュータと文字 [#j2e897d3]
コンピュータなどの情報機器では、文字に数字を割り振ることで文字を扱っている。
-どの文字に数字をどう割り振るかという規定=文字コード
--どれだけの文字に:文字集合(文字セット)
--どう数字を割り振るか:文字符号化方式(エンコーディング)
:文字集合(文字セット)|例) JIS第一水準・ユニコード2.0,常用漢字表・諸橋大漢和の見出し漢字…
:エンコード(符号化方式)|例) Shift JIS・ISO 2022-JP・日本語EUC・UTF-8…

--どこまでを同じ文字と見なすか:包摂規準

***符号化方式別の文字番号の例 [#o0074b80]
|文字|JIS区点番号||Shift JIS|ISO 2022-JP|日本語EUC|ユニコード|h
|文字|JIS区点番号||Shift JIS|ISO 2022-JP|日本語EUC|ユニコード(UTF16)|h
|私|27区68点|16進数|8E84|3B64|BBE4|8E84|
|~|~|2進数|1000111010000100|11101101100100|1011101111100100|1000111010000100|
|~|~|10進数|36484|15204|48100|36484|
|は|4区47点|16進数|82CD|244F|A4CF|306F|
|~|~|2進数|1000001011001101|10010001001111|1010010011001111|0011000001101111|
|~|~|10進数|33485|9295|42191|12399|

----

***コンピュータと16進数[#n31f1c1f]
そもそもコンピュータで扱う情報はすべて1と0の組み合わせ
-スイッチのON/OFF→1と0の組み合わせ→2進数
-16進数は2進数と相性がよく人間にも比較的わかりやすい
:2進数と16進数|36484(10進数)=1000111010000100(2進数)=8E84(16進数)~
2進数は4桁ごとに16進数0〜Fに対応する(2^4=16だから)~
|1000|1110|1000|0100|
|8|E|8|4|


:情報の最小単位 ビット|0か1か=1ビット
-パソコンなどでは8ビットをひとまとめにした1バイトを最小の単位として扱う
--1バイト=2^8=256,2バイト=2^8×2^8=2^16=65536

----

***文字化け [#ic874a6a]
+異なる文字コード
++文字集合の違い →外字・[[機種依存文字>http://e-words.jp/w/E6A99FE7A8AEE4BE9DE5AD98E69687E5AD97.html]] 
++符号化方式の違い
+異なるフォント

----

***[[JIS漢字コード>https://e-words.jp/w/JIS%E6%BC%A2%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89.html]] [#ga5ba1d6]
 1969年 JIS X 0201(JISローマ字カナ) ASCII+カタカナ
 1978年 JIS X 0208(JIS基本漢字) 〈ISO2022系〉非漢字453字・漢字6349字(第1水準・第2水準)
     78JIS 旧JIS 
     83JIS 非漢字71字・漢字4字追加。字体の変更、第1水準・第2水準間の字体の入れ替え。これ以降を新JIS
     90JIS 漢字2字追加
     97JIS 「包摂規準」
 1990年 JIS X 0212(JIS補助漢字) 〈ISO2022系〉非漢字245字・漢字5801字
 2000年 JIS X 0213(JIS拡張漢字) 〈ISO2022系〉非漢字659字・漢字3685字(第3水準・第4水準)
     JIS X 0213:2004年 改正
 2012年 JIS X 0213:2012 2010年改訂の常用漢字表改定に対応

〈ISO 10646(Unicode)系〉
 1995年 [[JIS X 0221>https://ja.wikipedia.org/wiki/JIS_X_0221]]
  :
 2014年 JIS X 0221:2014 絵文字追加(Unicode6.1)
 2020年 JIS X 0221:2020 戸籍統一文字・変体仮名など(Unicode10.0)

----
#counter

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS