#author("2023-07-25T05:01:40+09:00;2023-07-25T04:39:34+09:00","default:ogiwiki","ogiwiki") [[日本語テキスト処理基礎講座2023]] *②Excelの利用 [#x9b7df21] **表形式データの基本~見た目と構造の話 [#ta74492e] ***ネ申Excel問題((10年前のリンク。多少は改善されたがまだまだ)) [#x8e16801] -https://oku.edu.mie-u.ac.jp/~okumura/SSS2013slide.pdf --世にはびこる紙至上主義的な機械可読性を軽んじた表データの問題 ***どっちが「きれいなデータ」だろうか? [#zd1d6333] 太陽コーパス 近代語 書き言葉 日本語話し言葉コーパス 現代語 話し言葉 現代日本語書き言葉均衡コーパス 現代語 書き言葉 日本語歴史コーパス 古代~近代語 書き言葉 太陽コーパス 近代語 書き言葉 日本語話し言葉コーパス 現代語 話し言葉 現代日本語書き言葉均衡コーパス 現代語 書き言葉 日本語歴史コーパス 古代~近代語 書き言葉 ***ちゃんとしたデータを作るために [#jbc3b44b] -ちゃんとしたデータ=機械処理に適したデータとして大事なのは構造。見た目は気にしないで後回しでよい。後でどうにでもなる。 -テキスト、スプレッドシート(Excel)、一般の文書(Word)、マークアップ(XML)などのデータ設計のあらゆることに共通した課題 -研究所から発信するデータはちゃんとしたデータにしてほしい ***よりちゃんとしたデータにむけて [#ae18a57f] -[[授業資料/表の正規化]] **基本 [#a0b117e3] ***テキストデータとExcel [#ve1dc933] -TXT, CSV, TSV --Excelとテキストデータの文字コード -xls, xlsx -おすすめ:VSCode拡張Rainbow CSV --https://marketplace.visualstudio.com/items?itemName=mechatroner.rainbow-csv ***並べ替えとフィルタ [#pf10ef38] -並べ替え(sort) -テキストフィルタ(≒grep) -重複の削除(uniq) **ピボットテーブル [#b415c92c] -BCCWJ中納言を例に --サンプルデータ //--https://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=kwic-2500406.csv&refer=%C6%FC%CB%DC%B8%EC%A5%C6%A5%AD%A5%B9%A5%C8%BD%E8%CD%FD%A4%CE%A4%BF%A4%E1%A4%CEPC%B4%F0%C1%C3%B9%D6%BA%C22018 -ちゃんとしたデータはピボットテーブルで処理できる --表に集計や余計なコメントは入れない **文字列関数 [#la2f0926] -[[授業資料/EXCELの文字列関数]] **VLOOKUP [#v5e7727e] -[[授業資料/VLOOKUP関数]] --[[Microsoft VLOOKUP:用途と使い方(ビデオ)>https://support.office.com/ja-jp/article/VLOOKUP-%E7%94%A8%E9%80%94%E3%81%A8%E4%BD%BF%E3%81%84%E6%96%B9-9a86157a-5542-4148-a536-724823014785]] --参考リンク http://honeshabri.hatenablog.com/entry/vlookup **テキストエディタと組み合わせて利用する [#yd260b65] 例:Excelで中納言検索結果の列を丸ごとコピーし、エディタで整形した後、Excelに貼り付ける -前後文脈の整理(キーが現れた文以外を消す) --前文脈:.+#((を空文字列に置換。以下同じ)) 後文脈:#.+ -値の一部を取り出す --品詞大分類:-.+ ジャンル大分類:/.+ **Excelから関係データベースへ [#a904b7e7] -ちゃんとしたデータを作ると関係データベース(RDB)で扱いたくなります。 -関係データベースを知るとVLOOKUPが厭になります。 -関係データベースが使いたくなったら最初はAccessなどでデータ管理して、SQLを覚えていってください。