コンテンツにスキップ

まえがき

言葉の謎をデータで解き明かす

「エモい」「メロい」「蛙化現象」…

私たちの周りでは、日々新しい言葉が生まれ、そして消えていきます。こうした言葉の変化を、私たちは「なんとなく」肌で感じています。しかし、その「なんとなく」の感覚を一歩進めて、「いつから、どのように、どうして?」と問い始めたとき、言語研究という知的な冒険が幕を開けます。

かつての言葉の研究は、膨大な(紙媒体の)文献を集めたり、限られた協力者から話を聞き取ったりと、多大な時間と労力を要するものでした。研究者個人の言葉についての鋭い感覚や内省が、研究の重要な羅針盤でした。

しかし今、私たちの手にはコンピュータという、かつてないほど強力な武器があります。この武器を使うと、新聞・書籍・ブログ・SNSなど、無数の言葉をデータとして捉え、その中に潜むパターンや法則性を発見することができます。直感や経験則だけでなく、客観的なデータに基づいて言葉の謎に迫る。これが、本書でみなさんといっしょに旅をする「コーパス言語学」の世界です。

コンピュータは、2023年から私たちに広く認識されるようになった「生成AI」のおかげで、さらにパワーアップされました。特に、ChatGPTに代表される大規模言語モデルの登場は、2026年現在、社会のあり方を大きく変えつつあります。ということは、コンピュータを使わないといけないコーパス言語学という分野にも、多方面で影響を与えています。2023年以前とはひと味違う言語学を味わうことができるという点も、2026年現在の楽しみの一つです。

この(紙媒体ではない)本は、そんなエキサイティングな世界の入り口に立つあなたのための、一冊の地図であり、コンパスです。さあ、一緒に言葉の謎を解き明かす冒険に出かけましょう。

本書の対象読者

本書は、以下のような方々を読者として想定しています。

  • 言語学や日本語学に興味を持っている方

    • 伝統的な学びに加え、データに基づいた新しい研究手法を身につけたいと考えている方。
  • 日本語教師や言葉を教えることに携わっている方

    • 日々の教育実践の中で感じる言葉の疑問を、客観的なデータで裏付け、言語教育に活かしたい方。
  • データサイエンスやプログラミングを学んでいる方

    • 人文社会科学の領域、特に「言葉」というユニークなデータに、そのスキルを応用してみたいと考えている方。

本書の概要

本書は以下の10のステップを通じて、(必要最小限の)理論の学習と実践的なスキル習得を目指します。最初から一歩ずつ読み進めることで、あなた自身の力でコーパスを構築し、言葉の分析に活用することができるようになるでしょう。

  • 1. 言語研究の技法


    言語研究とはいったい何なのかについて考えます。そして、伝統的な言語研究と、現代の言語研究における技法について学習します。

  • 2. コーパスの種類


    コーパスにはどんな種類があるのか、また、その長所と短所は何かを知ることで、あなたの目的に合ったコーパスを選べるようになります。

  • 3. 言語研究とAI


    2026年を基準として、言語研究にAIをどのように活用できるのかを探ります。

  • 4. 形態素と形態素解析


    コンピュータが「文」を「単語」に分割するための魔法「形態素解析」。その仕組みを理解し、テキストデータを分析可能な宝の山に変える方法を学びます。

  • 5. NLBとNLT


    国立国語研究所とLago言語研究所が開発したコーパス検索システムを使って、コロケーション研究の味見をします。

  • 6. 中納言


    「日本語書き言葉均衡コーパス」をはじめ、多種多様なコーパスを検索できる「中納言」。その基本的な使い方から応用的な検索方法までをマスターします。

  • 7. 正規表現—基礎編


    テキストデータの中から、特定のパターンを持つ文字列を自在に探し出すための「呪文」です。呪文の読解に挑戦します。

  • 7. 正規表現—応用編


    呪文の読解ができるようになったところで、実際に呪文を唱えて、テキストデータを操ることに挑みます。

  • 8. 資料収集


    あなた自身の研究目的に合わせて、色々なところから、分析したいテキスト資料を収集する技術について学びます。

  • 9. コーパスの構築


    集めたテキスト資料を整理し、あなただけのオリジナルコーパスを構築します。小規模のテキスト資料も、積もれば山となります。

  • 10. Colabの活用—基礎編


    Google Colabを使い、クラウド上で簡単なプログラミングを実行します。これまでの章で学んだ知識を総動員し、独自のデータ分析に挑戦します。プログラミングが出来なくても大丈夫。生成AIがありますから。

  • 10. Colabの活用—応用編


    Colab上で色々なライブラリーを利用して、コーパスの構築やデータ分析、視覚化などに挑戦します。

本書を読み進めるにあたって

必要なもの

本書に登場する「実習」は、実際にみなさんが手を動かす必要があります。そのためには、スマホやタブレット端末では(操作ができないわけではありませんが)物足りなさを感じるでしょう。パソコンに向かって、それなりに広い画面を使った方が効率がよいと思います。本書で行う作業のほとんどは、高性能ではない普通のノートパソコン、あるいはデスクトップでも、十分に取り組むことができます。

ソフトウェアは、WindowsとMac、どちらでも利用可能なものを例として実習を行います。Linuxを使っている方は私の説明がなくても、ご自身で取り組むことができるはずです。

実習の中にはネット上のアプリケーションを利用する例が多いので、インターネット環境が必要です。

本書の表記法

本書では、新しい(専門)用語や、重要な概念を表す用語を、太字(Bold)で示しています。なお、以下のような「ボックス」を使用します。

到達目標

各章の到達目標を示しています。

注釈

一般的な注釈を表します。

ヒント

ヒントを表します。

注意

警告、または注意を表します。

目覚まし

実際に手を動かしてみるときが来たことを表します。

コード

長めのコードは、折りたたんで表示しています。クリックすると、コードが表示されます。

読み進める前のやることリスト

中納言のアカウント申請

6. 中納言では、「中納言」のアカウントが必要となります。登録コードが届くまで1週間ほどかかるので、あらかじめユーザ登録の申請をしておきましょう。

Googleのアカウント作成

10. Colabの活用—基礎編からは、Googleのアカウントが必要となります。本書では生成AIを利用する場面も登場します。その際、Googleのアカウントがあると、Geminiを無料で利用することができます。