- 追加された行はこの色です。
- 削除された行はこの色です。
#author("2023-07-25T05:01:40+09:00;2023-07-25T04:39:34+09:00","default:ogiwiki","ogiwiki")
#author("2023-07-25T15:07:31+09:00","default:ogiwiki","ogiwiki")
[[日本語テキスト処理基礎講座2023]]
*②Excelの利用 [#x9b7df21]
**表形式データの基本~見た目と構造の話 [#ta74492e]
***ネ申Excel問題((10年前のリンク。多少は改善されたがまだまだ)) [#x8e16801]
-https://oku.edu.mie-u.ac.jp/~okumura/SSS2013slide.pdf
--世にはびこる紙至上主義的な機械可読性を軽んじた表データの問題
***どっちが「きれいなデータ」だろうか? [#zd1d6333]
太陽コーパス 近代語 書き言葉
日本語話し言葉コーパス 現代語 話し言葉
現代日本語書き言葉均衡コーパス 現代語 書き言葉
日本語歴史コーパス 古代~近代語 書き言葉
太陽コーパス 近代語 書き言葉
日本語話し言葉コーパス 現代語 話し言葉
現代日本語書き言葉均衡コーパス 現代語 書き言葉
日本語歴史コーパス 古代~近代語 書き言葉
***ちゃんとしたデータを作るために [#jbc3b44b]
-ちゃんとしたデータ=機械処理に適したデータとして大事なのは構造。見た目は気にしないで後回しでよい。後でどうにでもなる。
-テキスト、スプレッドシート(Excel)、一般の文書(Word)、マークアップ(XML)などのデータ設計のあらゆることに共通した課題
-研究所から発信するデータはちゃんとしたデータにしてほしい
***よりちゃんとしたデータにむけて [#ae18a57f]
-[[授業資料/表の正規化]]
**基本 [#a0b117e3]
***テキストデータとExcel [#ve1dc933]
-TXT, CSV, TSV
--Excelとテキストデータの文字コード
-xls, xlsx
-おすすめ:VSCode拡張Rainbow CSV
--https://marketplace.visualstudio.com/items?itemName=mechatroner.rainbow-csv
***並べ替えとフィルタ [#pf10ef38]
-並べ替え(sort)
-テキストフィルタ(≒grep)
-重複の削除(uniq)
**ピボットテーブル [#b415c92c]
-BCCWJ中納言を例に
--サンプルデータ
//--https://www.ogiso.net/wiki/index.php?plugin=attach&pcmd=open&file=kwic-2500406.csv&refer=%C6%FC%CB%DC%B8%EC%A5%C6%A5%AD%A5%B9%A5%C8%BD%E8%CD%FD%A4%CE%A4%BF%A4%E1%A4%CEPC%B4%F0%C1%C3%B9%D6%BA%C22018
-[[BCCWJ中納言>https://chunagon.ninjal.ac.jp/bccwj-nt/]]の検索結果データを例に
-サンプルデータ:美しい+X
//--https://www.dropbox.com/scl/fi/xofkfnanvl5fjtjija555/kwic-11083586.csv?rlkey=7t7039o3xmgyi3dmd32hyjpxj&dl=1
前方共起: 語彙素="美しい" ON 1 WORDS FROM キー
-ちゃんとしたデータはピボットテーブルで処理できる
--表に集計や余計なコメントは入れない
**文字列関数 [#la2f0926]
-[[授業資料/EXCELの文字列関数]]
**VLOOKUP [#v5e7727e]
-[[授業資料/VLOOKUP関数]]
-サンプルデータ:割合+が+adj
//--https://www.dropbox.com/scl/fi/p75m6p9cyt2b5kihrskkq/kwic-11083976.csv?rlkey=gr9uuowf2beu50jwb0i1eth0k&dl=1
キー: 品詞 LIKE "形容詞%"
AND 前方共起: 語彙素="割合" ON 2 WORDS FROM キー
AND 前方共起: 語彙素="が" ON 1 WORDS FROM キー
--[[Microsoft VLOOKUP:用途と使い方(ビデオ)>https://support.office.com/ja-jp/article/VLOOKUP-%E7%94%A8%E9%80%94%E3%81%A8%E4%BD%BF%E3%81%84%E6%96%B9-9a86157a-5542-4148-a536-724823014785]]
--参考リンク http://honeshabri.hatenablog.com/entry/vlookup
**テキストエディタと組み合わせて利用する [#yd260b65]
例:Excelで中納言検索結果の列を丸ごとコピーし、エディタで整形した後、Excelに貼り付ける
-前後文脈の整理(キーが現れた文以外を消す)
--前文脈:.+#((を空文字列に置換。以下同じ)) 後文脈:#.+
-値の一部を取り出す
--品詞大分類:-.+ ジャンル大分類:/.+
**Excelから関係データベースへ [#a904b7e7]
-ちゃんとしたデータを作ると関係データベース(RDB)で扱いたくなります。
-関係データベースを知るとVLOOKUPが厭になります。
-関係データベースが使いたくなったら最初はAccessなどでデータ管理して、SQLを覚えていってください。