コンテンツにスキップ

まえがき

言葉の謎をデータで解き明かす

「エモい」「チルする」「蛙化現象」…

私たちの周りでは、日々新しい言葉が生まれ、そして消えていきます。こうした言葉の変化を、私たちは「なんとなく」肌で感じています。しかし、その「なんとなく」の感覚を一歩進めて、「いつから、どのように、どうして?」と問い始めたとき、言語研究という知的な冒険が幕を開けます。

かつての言葉の研究は、膨大な(紙媒体の)文献を集めたり、限られた協力者から話を聞き取ったりと、多大な時間と労力を要するものでした。研究者個人の言葉についての鋭い感覚や「内省」が、研究の重要な羅針盤でした。

しかし今、私たちの手には「コンピュータ」という、かつてないほど強力な武器があります。新聞・書籍・ブログ・SNSなど、無数の言葉をデータとして捉え、その中に潜むパターンや法則性を発見する。直感や経験則だけでなく、客観的なデータに基づいて言葉の謎に迫る。それが、本書でみなさんといっしょに旅をする「コーパス言語学」の世界です。

「コンピュータ」というツールは、2023年から私たちに広く認識されるようになった「生成AI」のおかげで、さらにパワーアップされました。特に、ChatGPTに代表される大規模言語モデルの登場は、2025年現在、社会のあり方を大きく変えつつあります。その根幹にあるのは、膨大な言語データを処理する技術です。言葉のデータをどう扱い、どう分析するかを学ぶことは、もはや言語学の専門家だけのものではなく、これからの時代を生きる私たちにとっても、重要な知識と言えるでしょう。

この(紙媒体ではない)本は、そんなエキサイティングな世界の入り口に立つあなたのための、一冊の地図であり、コンパスです。さあ、一緒に言葉の謎を解き明かす冒険に出かけましょう。

本書の対象読者

本書は、以下のような方々を読者として想定しています。

  • 言語学や日本語学に興味を持っている人

    • 伝統的な学びに加え、データに基づいた新しい研究手法を身につけたいと考えている方。
  • 日本語教師や、言葉を教えることに携わっている人

    • 日々の教育実践の中で感じる言葉の疑問を、客観的なデータで裏付け、指導に活かしたい方。
  • データサイエンスやプログラミングを学んでいる人

    • 人文社会科学の領域、特に「言葉」というユニークなデータに、そのスキルを応用してみたいと考えている方。

本書の概要

本書は以下の10のステップを通じて、(必要最小限の)理論の学習と実践的なスキル習得を目指します。最初から一歩ずつ読み進めることで、あなた自身の力でコーパスを構築し、言葉を分析に活用することができるようになるでしょう。

  • 1. 言語研究の技法


    言語研究とはいったい何なのかについて考えます。そして、伝統的な言語研究と、現代の言語研究における技法について学習します。

  • 2. コーパスの種類


    コーパスにはどんな種類があるのか、また、その長所と短所は何かを知ることで、あなたの目的に合ったコーパスを選べるようになります。

  • 3. 言語研究とAI


    2025年を基準として、言語研究にAIをどのように活用できるのかを探ります。

  • 4. 形態素と形態素解析


    コンピュータが「文」を「単語」に分割するための魔法「形態素解析」。その仕組みを理解し、テキストデータを分析可能な宝の山に変える方法を学びます。

  • 5. NLBとNLT


    国立国語研究所とLago言語研究所が開発したコーパス検索システムを使って、コロケーション研究の味見をします。

  • 6. 中納言


    「日本語書き言葉均衡コーパス」をはじめ、多種多様なコーパスを検索できる「中納言」。その基本的な使い方から応用的な検索方法までをマスターします。

  • 7. 正規表現—基礎編


    テキストデータの中から、特定のパターンを持つ文字列を自在に探し出すための「呪文」です。呪文の読解に挑戦します。

  • 7. 正規表現—応用編


    呪文の読解ができるようになったところで、実際に呪文を唱えて、テキストデータを操ることに挑みます。

  • 8. 資料収集


    あなた自身の研究テーマに合わせて、色々なところから、分析したいテキスト資料を収集する技術について学びます。

  • 9. コーパスの構築


    集めたテキスト資料を整理し、あなただけのオリジナルコーパスを構築します。小規模のテキスト資料も、積もれば山となる。

  • 10. Colabの活用—基礎編


    Google Colabを使い、クラウド上で簡単なプログラミングを実行します。これまでの章で学んだ知識を総動員し、独自のデータ分析に挑戦します。プログラミングが出来なくても大丈夫。生成AIがありますから。

  • 10. Colabの活用—応用編


    Colab上で色々なライブラリーを利用して、コーパスの構築やデータ分析、視覚化などに挑戦します。

本書を読み進めるにあたって

必要なもの

本書に登場する「実習」は、実際にみなさんが手を動かす必要があります。そのためには、スマホやタブレット端末では(操作ができないわけではありませんが)物足りなさを感じるでしょう。パソコンに向かって、それなりに広い画面を使った方が効率がよいと思います。本書で行う作業のほとんどは、高性能ではない普通のノートパソコン、あるいはデスクトップでも、十分に取り組むことができます。

ソフトウェアは、WindowsとMac、どちらでも利用可能なものを例として実習を行います。Linuxを使っている方は、私の説明がなくても、ご自身で取り組むことができるはずです。

実習の中にはネット上のアプリケーションを利用する例が多いので、インターネット環境が必要です。

本書の表記法

本書では、新しい(専門)用語や、重要な概念を表す用語を、太字(Bold)で示しています。なお、以下のような「ボックス」を使用します。

注釈

この注釈ボックスは、一般的な注釈を表します。

ヒント

この注釈ボックスは、ヒントを表します。

注意

この注釈ボックスは、警告、または注意を表します。

目覚まし

実際に手を動かしてみるときが来たことを表します。

次回の授業までのやることリスト

Discordを使ってみよう

この授業でのやりとりは、Discordを使います。アカウントがない人は、無料なので作っておきましょう。

授業後、みなさんの学内メール宛てに、招待メールを送ります。それを確認し、サーバーに入ってください。「言語学特講」というチャンネルに入ったら、何かしらのメッセージ、スタンプなどを送ってみましょう。

中納言のアカウント申請

6. 中納言のところでは、「中納言」のアカウントが必要となります。登録コードが届くまで1週間ほどかかるので、あらかじめユーザ登録の申請をしておきましょう。