日本語テキスト処理基礎講座2023

コマンドラインの基礎

準備

WSLとUbuntuのインストール

Macでは

起動

最低限知っておきたいコマンド

はじめに

サンプルテキストのダウンロード

ファイル操作関連のコマンド

テキスト処理関連のコマンド

ファイルの確認

sed -E -f removeruby.sed kokoro.txt >kokoro2.txt

ターミナル上のテキストエディタ

標準入出力とパイプ

WSL関連(Windows)

MeCabとUniDic

wget https://clrd.ninjal.ac.jp/unidic_archive/2302/unidic-cwj-202302.zip
unzip unidic-cwj-202302.zip -d unidic-cwj
wget https://clrd.ninjal.ac.jp/unidic_archive/2203/UniDic-202203_60b_qkana.zip
unzip UniDic-202203_60b_qkana.zip
mv 60b_qkana unidic-qkana
mv unidic-qkana/.dicrc unidic-qkana/dicrc
echo "ゼレンスキー大統領" | mecab -d unidic-cwj
echo "井ノ上たきな" | mecab -d unidic-cwj
echo "政府の行為によつて再び戦争の惨禍が起ることのないやうにする" | mecab -d unidic-cwj
echo "政府の行為によつて再び戦争の惨禍が起ることのないやうにする" | mecab -d unidic-qkana
mecab -d unidic-cwj JPConstitution.txt | less

短単位解析

mecab -d unidic-cwj -Ochamame JPConstitution.txt
mecab -d unidic-qkana -Ochamame JPConstitution.txt

解析結果の処理

シェルスクリプト

参考


*1 最短一致は拡張正規表現-E指定が必要
*2 code - とすると標準入力を受け取ってくれる
*3 現バージョンでは問題あり
*4 現バージョンでは問題あり
*5 cutはタブ区切りの場合は区切り記号(デリミタ)指定が不要

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2023-08-08 (火) 16:57:54