[[FrontPage]] **2017/06/06 ***テキストデータ -テキストファイルとテキストエディタ --[[授業資料/テキストデータとは]] ---拡張子 txt,csv,tsv,htm,xml --[[授業資料/テキストエディタ]] ---[[授業資料/覚えておきたいショートカットキー]] -文字コード=符号化文字集合 --テレタイプの話から ---制御記号 ---改行文字 CR, LF, CRLF --文字集合 --符号化方式 --JIS, Shift-JIS, CP932, EUC-JP --UTF-8, UTF-16 ---LE Little Endian ,BE Big Endian ---BOM Byte Order Mark -cf. http://www.kanzaki.com/docs/jcode.html -正規表現(grepからタグ付き正規表現まで) --[[授業資料/正規表現]] --タグ付き正規表現 ---後方参照 ***XML -マークアップ言語とXML --HTMLとXML ---SGML,XHTML --タグ、要素、属性、属性値 ---開始タグ、修了タグ、空タグ ---<タグ 属性="属性値">テキスト<子要素/></タグ> --空要素 ---<br/>と<br></br> --XPath ---軸 Axis --述語 predicate --XSLT ---HTMLへの変換 ---ひまわり用XSLT -XMLの文書定義と検証 --XML文書の検証 --Well-formed(整形式) --Valid(妥当) ---DTD ---XMLスキーマ ---RELAX NG --ホワイトスペース ***ツール -コマンドライン(基礎とバッチファイル) --とりあえずdir(ls), copy(cp), ren -ツールを組み合わせた処理 --Diff --"[[ブリコラージュ>https://ja.wikipedia.org/wiki/%E3%83%96%E3%83%AA%E3%82%B3%E3%83%A9%E3%83%BC%E3%82%B8%E3%83%A5]]" ---テキストデータとExcel