*電子化テキスト・テキストデータとは [#yb7c35a1]

***コンピュータと文字 [#j2e897d3]

:コンピュータにできること|
スイッチのON/OFF→1と0の組み合わせ→(2進数)→数 →[    ]→文字

36484(10進数)=1000111010000100(2進数)=8E84(16進数)
:ビット|8ビット=1バイト=2^8=256 2バイト=2^8×2^8=2^16=65536

※ビット 8ビット=1バイト=2^8=256 2バイト=2^8×2^8=2^16=65536
:2進数と16進数|36484(10進数)=1000111010000100(2進数)=8E84(16進数)~
2進数は4ビットごとに16進数0~Fに対応する~
|1000|1110|1000|0100|
|8|E|8|4|


***文字コード [#jffac02b]
:文字セット|例) JISコード・ユニコード
:文字集合(文字セット)|例) JISコード・ユニコード
:エンコード(符号化方式)|例) Shift JIS・ISO 2022-JP・日本語EUC


***JISコードの種類 [#ga5ba1d6]
 1969年 JIS X 0201(JISローマ字カナ) ASCII+カタカナ
 1978年 JIS X 0208(JIS基本漢字) 〈ISO2022系〉非漢字453字・漢字6349字(第1水準・第2水準)
     78JIS 旧JIS 
     83JIS 非漢字71字・漢字4字追加。字体の変更、第1水準・第2水準間の字体の入れ替え。これ以降を新JIS
     90JIS 漢字2字追加
     97JIS 「包摂規準」
 1990年 JIS X 0212(JIS補助漢字) 〈ISO2022系〉非漢字245字・漢字5801字
 2000年 JIS X 0213(JIS拡張漢字) 〈ISO2022系〉非漢字659字・漢字3685字(第3水準・第4水準)
     2004年 改正
 2001年 JIS X 0221 〈ISO10646(Unicode)系〉


***エンコード別の文字番号の例 [#o0074b80]
|文字|JIS区点番号||Shift JIS|ISO 2022-JP|日本語EUC|
|私|27区68点|16進数|8E84|3B64|BBE4|
|~|~|10進数|36484|15204|48100|
|~|~|2進数|1000111010000100|11101101100100|1011101111100100|
|は|4区47点|16進数|82CD|244F|A4CF|
|~|~|10進数|33485|9295|42191|
|~|~|2進数|1000001011001101|10010001001111|1010010011001111|

***テキストファイル [#he09a1f8]
+テキストファイルとは 文字をあらわすコードだけが並んでいるファイル
+テキストファイルとワープロファイルとの違い
--[[テキストファイル>http://e-words.jp/w/E38386E382ADE382B9E38388E38395E382A1E382A4E383AB.html]]
--[[バイナリファイル>http://e-words.jp/w/E38390E382A4E3838AE383AAE38395E382A1E382A4E383AB.html]]
+テキストファイルの種類
--プレーンテキスト
--タグ付きテキスト	例) [[HTML>http://yougo.ascii24.com/gh/76/007683.html]],[[XML>http://yougo.ascii24.com/gh/76/007691.html]]
+テキストファイルの利点・注意点

-文字化け
++異なる文字コード
+++文字集合の違い →外字・[[機種依存文字>http://e-words.jp/w/E6A99FE7A8AEE4BE9DE5AD98E69687E5AD97.html]] 
+++符号化方式の違い
++異なるフォント

***機種依存文字? [#af766166]
#ref(moji.gif)
[[機種依存文字劇場>http://apex.wind.co.jp/tetsuro/izonmoji/]]


----
#counter


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS