コンテンツにスキップ

資料収集

自ら「証拠」を集める探偵になる

これまでの章では、私たちは「証拠保管庫(コーパス)」を利用する探偵でした。少納言NLB中納言といった強力な検索システムを使い、『BCCWJ』という膨大な「証拠」の山から、言葉のちょっとした謎を解き明かしてきました。また、正規表現という「魔法の呪文」も習得しました。

しかし、すべての事件が既存の証拠だけで解決できるわけではありません。

  • 「『推し活』に関する言葉を調べてみたいのに、コーパスに用例がない」
  • 「最新のSNS上の言葉遣いを調べたいのに、2005年までのデータしかない」
  • 「方言の録音データを分析したいけど、公開されているコーパスがない」

このような場面に直面したとき、私たちは「証拠保管庫を利用する探偵」から、「自ら現場に赴き、新たな証拠を収集する探偵」へと変身する必要があります。ここからは、小規模の自作コーパスを作る方法について学習します。

この章で学ぶこと

  • 既存コーパスの限界を理解し、自分でデータを集める意義を説明できる。
  • 研究目的に応じた資料収集先を選べるようになる。
  • 基本的なテキスト収集の技術を身につける。

なぜ自分でデータを集めるのか

既存コーパスの「賞味期限」

2. コーパスの種類で少し触れたように、コーパスには「賞味期限」があります。『BCCWJ』は確かに素晴らしいコーパスですが、収録されているデータの多くは2005年以前のものです。つまり、この文章を書いている2025年から見ると、約20年前の日本語です。

一部はすでに古くなっているかもしれませんが、「スマホ」「推し」「映え」「エモい」などの言葉は、『BCCWJ』には当然ながらほとんど含まれていません。これが、既存コーパスの最大の限界です。言葉は生き物のように変化し続けますが、コーパスはある時点で「冷凍保存」されるようになります。

研究テーマに合ったデータがない

もう一つの問題は、あなたの研究テーマにぴったり合ったコーパスが存在しない可能性があるという点です。たとえば、(理由はともかく)以下のような研究をしたいと考えてみましょう。

  • 特定のYouTuberの言葉遣いを分析したい
  • 料理レシピの文体を研究したい
  • 特定の企業のプレスリリースを時系列で比較したい

これらの研究には、既存のコーパスでは対応が難しく、自分で必要なデータを集めるしかありません。

「ないなら作ればいい」の精神

研究者にとって、「既存のコーパスにデータがない」ことは、決して研究の終わりではありません。むしろ、それは新しい研究の始まりです。自分でデータを集め、自分だけのコーパスを作る。その過程で、既存のコーパスでは見えなかった言葉の姿が見えてくることもあります。

2025年の新たな課題—AIのテキスト

2025年12月現在、私たちは新たな課題に直面しています。それは、AI生成によるテキストの拡散です。2022年末にChatGPTが登場して以来、ウェブ上には人間が書いたものではない可能性があるテキストが溢れるようになりました。ブログ記事、ニュース記事、SNSの投稿、YouTubeのコメント、さらには学術論文まで、AIが書いた(あるいは書くのを手伝った)テキストが、人間が書いたテキストと混在しています。

これは、コーパス言語学にとって深刻な問題です。もしあなたが、自然な現代の日本語を研究したいと思って収集したデータに、AIが生成したテキストが大量に含まれていたら、それを利用した研究結果は何を意味するのでしょうか。この問題に対する完璧な解決策は、まだありません。しかし、データ収集の段階で以下の点に気をつけるといいかもしれません。

  1. データの出所を明確にする(いつ、誰が、どのような目的で書いたか)
  2. 可能な限り、AIが生成した可能性が低い言語資源を選ぶ(青空文庫のような著作権切れの作品、公式の議事録など)

時代を遡る

Slop Evaderというウェブブラウザの拡張機能を利用すると、ChatGPTが公開される前の時代の情報を対象として検索することができます。この方法以外にも、Googleの詳細検索などを利用して、検索期間を指定する方法もあります。

どこからデータを集めるか

それでは、具体的にどこからデータを集めることができるのでしょうか。ここでは、信頼性が高く、比較的簡単にアクセスできるデータを中心に紹介します。

青空文庫

青空文庫は、著作権が切れた文学作品を電子化して公開しているウェブサイトです。夏目漱石、芥川龍之介、太宰治などの作品が、テキストファイル形式でダウンロードできます。

青空文庫から作品をダウンロード

  1. 青空文庫に接続します。
  2. 「作家別」から「夏目 漱石」を探します。
  3. 「坊っちゃん(新字新仮名、作品ID:752)」をクリックします。
  1. ページの下の方にある「テキストファイル(ルビあり)」をクリックしてダウンロードします。
  2. ダウンロードしたZIPファイルを解凍すると、「bocchan.txt」が現れます。
  1. 7. 正規表現—基礎編でインストールしたVS Codeでファイルを開きます。
  2. 文字化けする場合は、右下の「UTF-8」をクリックして「エンコード付きで再度開く」を選択し、「Shift JIS」を選びます。そうすると、以下のようなテキストが表示されます。
坊っちゃん
夏目漱石

-------------------------------------------------------
【テキスト中に現れる記号について】

《》:ルビ
(例)坊《ぼ》っちゃん

青空文庫には、どのような作家の作品があるのか、AIに聞いてみましょう。言うまでもなく、AIの返事が真実なのか、真っ赤なウソなのかは、自分の目で確かめる必要があります。

プロンプト
青空文庫で公開されている作家と作品について知りたい。
特に、言語研究に適していそうな作品(たとえば「口語体」「会話が多い」など)を
5つ程度取り上げて、その理由とともに箇条書きでまとめなさい。
それが終わってからは、青空文庫にある作品の中で、
テキストの分量が多い(長い)と思われる作品のリストを、上位5位まで示しなさい。

青空文庫のテキストには「ルビ」が含まれています。これは、7. 正規表現で学んだ技術を使って除去することができます。これは後ほど、実際にやってみましょう。

青空文庫のテキストを一括ダウンロード

青空文庫のテキストは、GitHubでも公開されています。大量の作品を一度にダウンロードしたい場合は、以下のリポジトリが便利です。

国会会議録

国会会議録検索システムは、国会での発言を記録したデータベースです。1947年の第1回国会から現在まで、膨大な量の発言が検索・閲覧できます。このデータの特徴は以下の通りです。

  1. 公的記録である:政府が公式に作成した記録なので、信頼性が高い。
  2. 話し言葉に近い:国会での発言は、書き言葉よりも話し言葉に近い特徴がある。
  3. 時代変化が追える:1947年から現在まで、約80年分のデータがある。
  4. APIが提供されている:プログラムから自動的にデータを取得できる。

どのような文脈で使われているのか

  1. 国会会議録検索システムに接続します。
  2. 「詳細検索」をクリックします。
  3. 検索語に「人工知能」と入力して検索します。
  4. 何件の発言が見つかるでしょうか。
  1. 「開催日付」で期間を指定します。
  2. たとえば「1980年〜1990年」と「2020年〜2025年」で比較してみましょう。
  3. 発言の内容や文脈に、どのような違いがあるでしょうか。

国会会議録は、政治・社会・経済に関する言葉の変化を追跡するのに最適なソースです。たとえば、「AI」「人工知能」という言葉がいつ頃から国会で議論されるようになったのか、その文脈がどう変化してきたのかを調べることができます。

国会会議録API

国会会議録APIを利用して、自動的に発言を収集することもできます。詳細は10. Colabの活用—基礎編で触れる予定です。

SNSという「生きた言葉の現場」

X(旧Twitter)をはじめとするSNSは、まさに「生きた言葉の現場」です。若者言葉、流行語、新語がリアルタイムで飛び交い、話し言葉に近いカジュアルな表現が溢れています。ただし、SNSからのデータ収集には、いくつかの注意点があります。

  1. 利用規約の確認:各SNSには利用規約があり、データ収集に制限がある場合があります。
  2. 個人情報への配慮:ユーザー名や個人を特定できる情報の扱いには注意が必要です。
  3. API制限:X(旧Twitter)の場合、2023年以降のAPIの有料化によって、以前のように簡単にデータを収集することが難しくなりました。

2025年のSNSデータ収集事情

2023年にXのAPIが大幅に有料化されて以来、研究者がSNSデータを収集する環境は厳しくなっています。以前は無料で大量のツイートを収集できましたが、現在は月額数百〜数千ドルの費用がかかる場合があります。

特定のトピックについて少量の用例を探す目的であれば、Xの「高度な検索」機能を使ってみましょう。APIなしでも手動で検索・閲覧することは可能です。

Xの高度な検索を使う

  1. Xの高度な検索に接続します(ログインが必要)。
  2. 「次のキーワードを含む」に検索したい言葉を入力します。

高度な検索では、以下のような条件で絞り込めます:

  • 特定のアカウントからの投稿
  • 特定の期間の投稿
  • 特定の言語の投稿
  • リツイート数やいいね数の下限

検索窓に直接入力することもできます。

  • "エモい" lang:ja → 日本語の投稿で「エモい」を含むもの
  • "推し活" since:2024-01-01 until:2024-12-31 → 2024年の投稿
  • "蛙化現象" min_faves:100 → 100いいね以上の投稿

データ収集の技術

コピー&ペースト

最も簡単なデータ収集方法は、ウェブページからテキストを選択してコピーし、テキストエディタに貼り付けることです。「えっ、そんな原始的な方法でいいの?」と思うかもしれませんが、以下のような場面では、コピペが最も確実で効率的な方法です。

  • 収集するデータ量が少ない(数十ページ程度)
  • 特定の部分だけを選択的に収集したい
  • データの品質を目視で確認しながら収集したい

効率的なコピペのコツ

長いテキストを選択するとき、最初から最後までドラッグするのは大変です。

  1. テキストの最初の部分をクリック
  2. テキストの最後の部分でShiftを押しながらクリック
  3. テキストが選択されるのでコピー

ウェブページからコピーすると、フォントや色などの書式情報も一緒にコピーされることがあります。

書式なしで貼り付けるショートカット:

  • Windows: Ctrl + Shift + V
  • Mac: Command + Shift + V

コピーできないウェブページへの対処

ウェブサイトによっては、テキストの選択やコピーが禁止されている場合があります。そういうウェブページでも、JavaScriptを無効にすることで選択できるようになる場合があります。

JavaScriptを無効にする

コピーしたいウェブページ上で:

  • Windows: Ctrl + Shift + I
  • Mac: Command + Option + I

画面の右側(または下側)に開発者ツールが表示されます。

  1. 開発者ツール内の歯車アイコン(⚙️)をクリック
  2. 「Preferences」または「設定」を選択
  3. 「Debugger」または「デバッガー」セクションを探す
  4. 「Disable JavaScript」または「JavaScriptを無効にする」にチェック

YouTubeの字幕を収集する

YouTubeの動画には字幕(文字起こし)がついている場合があります。これは話し言葉のデータとして価値があります。最近(2025年)は、字幕が提供されていない動画でも、それなりにいい精度の自動生成文字起こしが利用できます。

YouTubeで文字起こしを収集

ここでは、「あいテレビ【公式】」の「愛媛のニュース(12月11日)」を例として使ってみましょう。

  1. 動画の下の「概要欄」にある「文字起こしを表示」をクリック
  2. 右側に字幕一覧が表示される
  1. 文字起こしの最初の行をクリック
  2. 最後の行でShiftを押しながらクリック
  3. Ctrl + Cでコピー
  4. VS CodeにCtrl + Vで貼り付け

コピーした字幕にはタイムスタンプが含まれています。正規表現を使って取り除き、一行一文にしてみましょう。

正規表現
^\d+:\d+\n

Language Reactor

Language Reactorというウェブブラウザの拡張機能があります。語学学習のためのツールですが、YouTubeやNetflixの字幕収集にも活用できます。

APIという「正式な入口」

APIは、ウェブサービスが提供する「正式なデータ取得窓口」です。4. 形態素と形態素解析では、Google AI StudioのAPIキーを取得して使いましたね。APIを使うと、以下のようなメリットがあります。

  1. 合法的:サービス提供者が許可した方法でデータの取得ができる
  2. 効率的:プログラムで自動的に大量のデータを取得することができる
  3. 構造化されている:データが整理された形式(JSON、XMLなど)で提供される

ただし、APIの利用には以下の点に注意が必要です。

  • 多くのAPIは利用登録が必要
  • 無料プランには制限がある場合が多い
  • 利用規約に従う必要がある

ウェブスクレイピング

ウェブスクレイピング(web scraping)は、ウェブページからデータを自動的に抽出する技術です。Pythonなどのプログラミング言語を使って、大量のウェブページから必要な情報を収集することができます。

この技術を使いこなすためには「プログラミングの知識が必要」で、いくつかの難点(法的・倫理的な問題)が関わっています。この授業で取り組む課題やレポートの場合、ウェブスクレイピング以外の別の方法を使っても十分にやりこなすことはできると思います。ウェブスクレイピングに興味がある方は、10. Colabの活用—基礎編で学ぶ知識を活用して、専門の書籍やオンラインコースで学ぶことをおすすめします。

2025年12月現在AIができること

5. NLBとNLTAIエージェントに触れたことがあります。はたして、AIにはウェブスクレイピングができるのでしょうか。

研究者としての責任

データ収集は、研究者としての倫理観が問われる場面でもあります。「技術的にできること」と「やっていいこと」は、必ずしも一致しません。

著作権

著作権は、創作物(文章、音楽、画像など)を作った人に与えられる権利です。他人の著作物を無断で複製・公開することは、原則として著作権侵害になります。

ただし、以下の場合は例外として認められています。

例外 条件
私的使用 個人的な学習目的 自分のパソコンにコピー
引用 出典明記、主従関係、必然性 レポートでの引用
著作権切れ 作者の死後70年経過 青空文庫の作品
CCライセンス ライセンス条件に従う Wikipedia

「研究目的だから著作権は関係ない」というのは間違いです。研究目的であっても、著作権法の範囲内で利用する必要があります。

個人情報への配慮

SNSやウェブページから収集したデータには、個人情報、あるいは、個人が特定される可能性があるデータが含まれている場合があります。「ユーザー名」や「アカウント名」、「位置情報」などが挙げられます。研究でこれらのデータを使用する場合は、以下の対応が必要になることがあります。

  1. 匿名化:個人を特定できる情報を削除・置換
  2. 倫理審査:大学の研究倫理委員会への申請
  3. 同意取得:場合によっては本人の同意が必要