上智2016

コーパス日本語学入門(近現代語コーパス)

2016/06/17

レポートテーマについて

たとえば…

調整頻度の計算(前回補足)

ランダムサンプリング調査

重複の削除

関数の利用


近代語をテーマとしたい人向け

全文検索システム「ひまわり」について

「ひまわり」と「青空文庫パッケージ」のインストール方法

  1. ひまわり本体のダウンロード
    1. ひまわり のダウンロードページからプログラム本体をダウンロード
    2. ダウンロードしたファイルのセキュリティブロックを解除(右クリック→プロパティ→セキュリティブロックの解除)
    3. 解凍後、フォルダごとUSBメモリにコピー
  2. 青空文庫パッケージのダウンロード
    1. ひまわり用「青空文庫」パッケージのダウンロードページから「青空文庫パッケージ」をUSBメモリに直接ダウンロードして保存(サイズが大きいので教室のPCにダウンロードできない)
  3. USBメモリにコピーしたフォルダ内のhimawari.exeを起動
    1. メニューのファイル>インストールをえらび、青空文庫パッケージのzipファイルを指定
    2. しばらく待つと完了(数分から10分程度はかかる)
  4. 要らなくなったファイルの削除
    1. PC上の「ひまわり」フォルダやzipファイル、USBの青空文庫パッケージzipファイルは不要なので削除する

近代語のコーパス


コロケーション強度の話

【参考資料】助動詞と上接動詞のコロケーション

2016/06/10

近代雑誌コーパスについて

日本語歴史コーパス「中納言」補足

調整頻度の計算

レポートテーマについて

2016/06/03

『日本語歴史コーパス』

集計ためののテクニック

  1. 表をコピー
    • Ctrl+Home, ↓(列名はコピーしないようにする),Shift+Ctrl+End, Ctrl+C
  2. コピーした表を既存の表の下に貼り付け
    • Ctrl+End, Home, ↓, Ctrl+V, Ctrl+Home

2016/05/27

(復習)【重要】ピボットテーブルの使い方

テキストエディタとショートカットキー

2016/05/20

「中納言」の利用(つづき)

検索条件式の利用

キー: (品詞 LIKE "形容詞%" AND 活用形 LIKE "連体形%")
 AND 後方共起: 語彙素="言葉" ON 1 WORDS FROM キー
 WITH OPTIONS tglKugiri="|" AND tglBunKugiri="#" AND limitToSelfSentence="1"
AND tglFixVariable="2" AND tglWords="20" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF"

「中納言」検索結果のダウンロードとExcelでの利用

  1. ダウンロード
  2. アーカイブの展開(解凍)
  3. Excelでインポート

Excelの基礎

【重要】ピボットテーブルの使い方

2016/05/13

形態論情報を利用した検索

UniDicによる形態素解析

2016/05/06

日本語コーパスの形態論情報

品詞体系と見出し語の階層

2016/04/29(祝日授業実施日)

日本語コーパスの紹介(2) コーパスの設計とサンプリング

参考リンク

日本語コーパスの形態論情報

2016/04/22

コーパス検索アプリケーション「中納言」の申込みについて(来週以降)

現代日本語書き言葉均衡コーパス(BCCWJ)とは

日本語コーパスの紹介(1)コーパスとはどんなものか

狭義のコーパス
言語研究を目的として収集され、言語研究のための情報が付けられたコンピュータ上で利用可能な大規模な言語データ。
広義のコーパス
コンピュータ上で利用可能な大規模な言語データ。必ずしも言語研究向きではないが、言語研究にも利用可能。

2016/04/16

イントロダクション


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS