*電子化テキスト・テキストデータとは [#yb7c35a1] ***コンピュータと文字 [#j2e897d3] :コンピュータにできること| スイッチのON/OFF→1と0の組み合わせ→(2進数)→数 →[ ]→文字 :ビット|8ビット=1バイト=2^8=256 2バイト=2^8×2^8=2^16=65536 :2進数と16進数|36484(10進数)=1000111010000100(2進数)=8E84(16進数)~ 2進数は4桁ごとに16進数0~Fに対応する(2^4=16だから)~ |1000|1110|1000|0100| |8|E|8|4| cf.初期のペケベル ***文字コード [#jffac02b] :文字集合(文字セット)|例) JISコード・ユニコード :エンコード(符号化方式)|例) Shift JIS・ISO 2022-JP・日本語EUC ***JISコードの種類 [#ga5ba1d6] 1969年 JIS X 0201(JISローマ字カナ) ASCII+カタカナ 1978年 JIS X 0208(JIS基本漢字) 〈ISO2022系〉非漢字453字・漢字6349字(第1水準・第2水準) 78JIS 旧JIS 83JIS 非漢字71字・漢字4字追加。字体の変更、第1水準・第2水準間の字体の入れ替え。これ以降を新JIS 90JIS 漢字2字追加 97JIS 「包摂規準」 1990年 JIS X 0212(JIS補助漢字) 〈ISO2022系〉非漢字245字・漢字5801字 2000年 JIS X 0213(JIS拡張漢字) 〈ISO2022系〉非漢字659字・漢字3685字(第3水準・第4水準) 2004年 改正 2001年 JIS X 0221 〈ISO10646(Unicode)系〉 ***エンコード別の文字番号の例 [#o0074b80] |文字|JIS区点番号||Shift JIS|ISO 2022-JP|日本語EUC| |私|27区68点|16進数|8E84|3B64|BBE4| |~|~|10進数|36484|15204|48100| |~|~|2進数|1000111010000100|11101101100100|1011101111100100| |は|4区47点|16進数|82CD|244F|A4CF| |~|~|10進数|33485|9295|42191| |~|~|2進数|1000001011001101|10010001001111|1010010011001111| ***テキストファイル [#he09a1f8] +テキストファイルとは 文字をあらわすコードだけが並んでいるファイル +テキストファイルとワープロファイルとの違い --[[テキストファイル>http://e-words.jp/w/E38386E382ADE382B9E38388E38395E382A1E382A4E383AB.html]] --[[バイナリファイル>http://e-words.jp/w/E38390E382A4E3838AE383AAE38395E382A1E382A4E383AB.html]] +テキストファイルの種類 --プレーンテキスト --タグ付きテキスト 例) [[HTML>http://yougo.ascii24.com/gh/76/007683.html]],[[XML>http://yougo.ascii24.com/gh/76/007691.html]] +テキストファイルの利点・注意点 -文字化け ++異なる文字コード +++文字集合の違い →外字・[[機種依存文字>http://e-words.jp/w/E6A99FE7A8AEE4BE9DE5AD98E69687E5AD97.html]] +++符号化方式の違い ++異なるフォント ***機種依存文字? [#af766166] #ref(moji.gif) [[機種依存文字劇場>http://apex.wind.co.jp/tetsuro/izonmoji/]] ---- #counter