コンテンツにスキップ

言語研究の技法

言葉のアンテナ

「最近、みんな『それな』って言いすぎじゃない?」 「『〜たりして』って、昔は『〜たり、〜たり』ってセットで使うって習ったけど、最近は一つだけでも使われてない?」 「どうして『ヤバい』は、良い意味でも悪い意味でも使えるんだろう?」

もしあなたが、こんな風に感じたことがあるなら、おめでとうございます。あなたはもう、言語研究の素質を十分に持っています。日常の言葉に対して「あれ?」と疑問に思うその感性こそが、すべての探求の始まりだからです。私たちはそれを、研究への感度を高める「言葉のアンテナ」と呼ぶことにしましょう。

この章では、そのアンテナがキャッチした素朴な疑問を、どうすれば「研究」という知的な探求活動に発展させられるのか、その基本的な「技法」について学んでいきます。

この章で学ぶこと

  • 伝統的な言語研究の方法である「内省」とその限界を理解する。
  • 現代の言語研究における「用法基盤モデル」の考え方を学ぶ。
  • コーパスを使い、データが私たちの「思い込み」をどう覆すのかを体験する。

自分の感覚に聞いてみる

さて、先ほどの「〜たりして」の疑問について考えてみましょう。

(1) 彼は急に泣いたりして、周りを驚かせた。

この文を読んで、あなたは違和感を覚えますか? それとも、ごく自然な表現だと感じますか?

このように、自分自身の頭の中にある言語知識や感覚(母語話者としての直観)を頼りに、「この言い方は自然なのか、それとも、どこかおかしいのか」を判断する方法を、言語学では「内省」と言います。自分の内側を省みる、という意味ですね。

この方法は、非常に手軽で、かつ強力です。なぜなら、この本を読んでいるほとんどのみなさんは、日本語のネイティブスピーカー(日本語母語話者)として、膨大な「生きた」言語データを頭の中に持っているからです。その感覚は、初めて目にする表現の自然さを捉えるための、優れたアンテナとして機能します。

しかし、内省にはいくつかの弱点もあります。

  1. 客観性の問題:あなたの「自然だ」という感覚は、本当にみんなの感覚を代表しているのでしょうか? もしかしたら、あなたの出身地や年齢、所属している集団、よく利用しているメディアなど、特定の環境に影響されているのかもしれません。

  2. 定量性の問題:「最近よく使われる」と感じたとして、では具体的に「どれくらい」の頻度で使われるようになったのでしょうか? 内省だけでは、こうした量的な問いに答えるのは困難です。

  3. 変化への鈍感さ:私たちは、自分が日常的に使っている言葉の変化には気づきにくいものです。「いつの間にかこの言い方が増えていた」とくらいしか言えないでしょう。

あなたの「言葉のアンテナ」は素晴らしい発見のきっかけにはなりますが、それを学問的な主張にするためには、もっと客観的で、しっかりとした「証拠」となるものが必要となります。

言語研究のためのデータの問題

幼い子どもの言語獲得について考えてみると、不思議なところがあります。外国人が日本語を学ぶことと違って、子どもには日本語の知識を一つずつ教えることがなくても、日本語を母語として獲得することができます。幼稚園児くらいの日本人の子どもでも、ペラペラな日本語を話します。でもよく考えてみると、子どもがそのような完璧な日本語を獲得する割には、子どもに与えられる日本語のデータとしては、そこまで量が多いとは言えないかもしれません。子どもが言語を獲得するためのデータ(経験)の量は限られているということです(このことを刺激の貧困(poverty of the stimulus)と言います)。

ここで、20世紀の言語学を振り返ってみると、少数のデータに依存して研究が行われていたことがわかります。研究の対象となっていたのも特定の限られた言語が多く、日常的に使われていた話し言葉は、あまり含まれることがありませんでした。また、生成文法が提案されてからは、母語話者の内省が重要な研究基盤の一つとなっています。しかし、実際の言語使用の全体像を捉えるには、このような限られたデータ(これをdegenerate dataと表現することがあります)だけでは不十分です(Sinclair 2004)1。そこで現代では、大規模なコーパスを用いて、言語の「生きた姿」を捉えようとしています。

言葉が使われた「現場の証拠」を集める

韓国語が母語の私は、「日本語の研究をやってみたい」と思っても、内省の利用には限界があります。これから日本語の勉強を続けるとしても、母語話者のような直観を持つことはできないでしょう。そこで登場するのが、実際の言語データに基づいたアプローチです。言葉が実際にどう使われているのか、その実例(=データ)をたくさん集めて、そこから法則性や傾向を見つけ出そうとする考え方です。探偵が、犯人の足跡や指紋といった「現場の証拠」を集めて推理を組み立てるのに似ています。

言語研究における「現場の証拠」とは、新聞記事小説・ブログ・国会会議録、あるいは日常会話の書き起こしなど、人々が実際に書いたり話したりした言葉そのものです。そして、こうした「現場の証拠」を、言語研究のために大量に集めて、コンピュータで分析できるように整理したデータベースのことをコーパス(corpus、複数形はcorpora)と言います。そして、コーパスを使って行われる言語研究のことを、コーパス言語学(corpus linguistics)と言います。

子どもが母語に関する知識を習得するプロセスとして、大人が話す母語の例からパターンを抽出して、ボトムアップ方式で母語に関する知識を蓄積していくと考える立場があります。用法基盤モデル(usage-based model、使用依拠モデルとも)は、このような考え方に基づいています。コーパスは、このような用法基盤モデルとの相性が良いです。

用法基盤モデルでは、言語知識は実際の言語使用の積み重ねから形成されると考えます。つまり、人々が何度も繰り返し聞いたり使ったりする表現がパターン化され、文法知識として定着していくということです。コーパスは、まさにこの「実際の言語使用」を大規模に集めたものですから、用法基盤モデルの検証や研究には理想的なデータとなりえます。

コーパス言語学では、頻度分析やコロケーション分析など、さまざまな定量的手法を用います。たとえば、ある文法構造がどのような文脈で、どのくらいの頻度で現れるのかを調べることで、その構造の「典型的な使われ方」を明らかにできます。また、同じ意味を表す複数の表現(例:「〜てしまう」と「〜ちゃう」)が、どのような状況で使い分けられているかも、コーパスデータから分析できます。

用法基盤モデルは、最近の大規模言語モデル が、大量のテキストデータを利用してパターンを形成するプロセスと似ているところがあります。

その研究の結果は再現できるのか?

21世紀今日の言語研究では、可能な限り、同じデータと研究方法を使って、同様の研究結果が得られるようにするための再現可能性(replicability)を目指しています。

Instead of the introspections of individual linguists and phi­losophers at famous universities, data and methods are now taking their rightful places at the center of discussions of language research.(Everett 2023)2

コーパスとは何か

簡単に言うと、コーパスは「電子化された言語資料の大規模な集積体」です(滝沢 2017)3。コーパス(corpus)の元々の意味はラテン語の「体」です。そこから、「事実やものの集合体」という抽象的な意味として使われるようになり、さらに「ある著者の著作の集合」を表すようになりました。そのような「コーパス」が、現代では「言語資料の集合」という意味として用いられています。

コーパスの種類については、2. コーパスの種類で見ることにして、ここでは、言語研究を目的として構築されたコーパスと、そうではないコーパスについて確認しておきましょう。

狭義のコーパス

言語研究を目的として作られたコーパスの例として、国立国語研究所が中心となって開発した『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Contemporary Written Japanese, BCCWJ)が挙げられます。このコーパスは、言語研究を前提としているので、狭義のコーパスと言えます。

『BCCWJ』は、現代日本語の書き言葉の全体像を把握するために構築したコーパスであり、現在、日本語について入手可能な唯一の均衡コーパスです。書籍全般、雑誌全般、新聞、白書、ブログ、 ネット掲示板、教科書、法律などのジャンルにまたがって1億430万語のデータを格納しており、各ジャンルについて無作為にサンプルを抽出しています。(概要 現代日本語書き言葉均衡コーパス(BCCWJ)

広義のコーパス

しかし、コーパスの中には、言語研究を前提としていないものもあります。たとえば、検索エンジンGoogleは、使用者が入力した検索語(クエリー)に応じて、適切な検索結果を返すために、膨大なウェブ上のテキストを収集して巨大なコーパスを作っています。また、法律文書や、国会会議録などの公文書を集めてデータベース化する場合があります。その他にも、読売新聞や朝日新聞などの新聞社で提供している新聞記事データベースが挙げられます。

これらはいずれも、言語学者の言語研究のために作られているものではないので、広義のコーパスの例として見ることができます。

新聞購読しませんか?

愛媛大学で利用可能な新聞記事データベースに接続して、なんでもいいので気になる言葉や表現などを検索してみましょう。研究の目的によっては、このようなデータベースから例文を検索・収集して、コーパスを構築することも考えられます。詳しくは8. 資料収集で確認します。

この本では「狭義のコーパス」と「広義のコーパス」、どちらも使います。自分の研究目的と相性の良いコーパスを選んで、言語研究に活用してみましょう。

言語研究のためのコーパスに必要な条件

言語研究のためのコーパスは、最低限、以下の条件を満たす必要があります。

  • 電子機器で文字列を検索することができること。
  • ある程度の規模を持つ言語資料であること。

電子化された言語資料といっても、文字列を検索することができなければ、現代の言語研究の観点からすると、コーパスと言うのは難しいです。

デジタルはいいね

国立公文書館 デジタルアーカイブへ接続し、資料を見てみましょう。

たとえば、このアーカイブにある大日本帝国憲法は、電子化された言語資料として見ることはできると思います。しかし、そこに書かれている文字列を検索することはできません。このような資料をたくさん集めても、検索ができない限り、量的研究に使用するには限界があります。

技術の発展は目覚ましい

OCR(光学文字認識)技術を利用すると、図や写真に書かれている文字の検索ができるようになります。2025年現在は、スマホで写真を撮るだけで文字を自動的に認識できるようになっていて、すぐにコピペができます。なお、古典籍に書かれている文字の認識率も、徐々に上がっているところです。国立国会図書館次世代システム開発研究室が提供している「次世代デジタルライブラリー」を試してみてください。

次に、コーパスは基本的には「大規模」である必要があります。しかし、大規模という基準は、コーパスがどのようなデータの集積体なのかによって、小規模であってもコーパスとして認められる場合があります。『BCCWJ』が約1億語規模であるのに対し、『日本語日常会話コーパス』は約240万語となっています。両者を比較すると、『日本語日常会話コーパス』が規模の小さいコーパスのように見えるかもしれません。しかし、それがどのようなコーパスなのかを知ると、決して小さいとは言えないでしょう。

また、二つ以上の言語のテキストを並列させて構築するパラレルコーパス(parallel corpus)も、大規模で構築することが困難なコーパスです。

近くて遠い日韓関係

オンライン世宗韓日パラレルコーパス検索システム」に接続して、味見をしてみましょう。

  • 「Search Direction」から「Japanese → Korean」を選択しましょう。
  • 「Search By Word」にあるテキストボックスに「日本」(あるいは他の語)を入力し、「RESULTS」で「Sentences」を選択してからSEARCHボタンを押してみましょう。

コーパスで「思い込み」を検証

コーパスという探偵の道具を手にした私たちは、もはや自分の感覚だけに頼る必要はありません。

  • Aという言い方は、Bという言い方より本当に多く使われているのか?
  • この言葉は、いつの時代から新聞記事に登場するようになったのか?
  • 若者言葉だと思われているけど、実際にはどの世代が一番よく使っているのか?

こうした問いに対して、客観的な「証拠」を提示できる。これが、コーパスを言語研究に使うことの最大の強みです。

それでは、実際にコーパスを使って、先ほどの「〜たりして」の謎に迫ってみましょう。ここでは、国立国語研究所が公開している「少納言」というツールを使ってみます。「少納言」は、現代日本の書き言葉をバランス良く集めた『BCCWJ』を、ウェブブラウザから手軽に検索できる便利なシステムです。

いきなり泣いたりして

少納言」の検索窓に「泣いたりして」と入力して検索してみましょう。実際に使われた例が、テーブル形式で表示されます。

文字列検索でハイライト

ウェブブラウザの検索機能(Ctrl+Fcommand+F)を利用して「たり」を入力すると、それぞれの例(行)に何回「たり」が現れているのかが見やすくなります。このショートカットは、ウェブブラウザ以外のあらゆるアプリケーション(e.g. Word、Excelなど)で使えるので、覚えておくといいです。

検索結果は何を意味するのでしょうか?「〜たり」が一つだけ使われる用法は、書籍やブログ、雑誌といった様々な媒体で使われています。間違いや特殊な用法ではないことの「証拠」として捉えることもできるでしょう。教科書的な規範(「たり」は二つ以上使うべき)と、実際の言語使用(一つでも頻繁に使われる)の間には、ズレがあるのかもしれない。コーパスは、そんな言葉のリアルな姿を、私たちにありのまま見せてくれます。

「コーパス」と「コーパス検索アプリケーション」

コーパスは言語データそのものです(e.g. 『BCCWJ』)。一方、検索アプリケーションは、そのようなコーパスを使いやすくするためのツールです(e.g. 「少納言」「中納言」)。つまり、これらそのものがコーパスではない、ということです。たとえるなら、コーパスは「図書館の蔵書」、検索システムは「蔵書を探すための検索システム」のような関係です。なので、「今回の研究では、中納言を研究対象にした」と書くのは、ちょっとおかしい。なお、『BCCWJ』の有償版の生データを入手すれば、「中納言」を使わずに検索することもできます。

💻 やってみよう!

あなたの「言葉アンテナ」に最近引っかかった言葉や表現を、2〜3個程度考えてみましょう。そのうちの一つについて、「内省」によって、あなたがどんな言語知識(使い方や、意味・ニュアンスなど)を持っているのか、以下のメモ帳に書き出してみましょう。

次に、書き出した言葉を、先ほどの少納言GoogleX(旧Twitter)などで検索し、実際の用例を5個ほど集めてみましょう。あなたの「内省」と比べて、何か新しい発見はありましたか?

こまめなメモ習慣は自分の財産になる

情報の量があまりにも膨大な現代社会。すべての情報を記憶することはできません。将来、何かしらの役に立つかもしれない情報を管理する能力も、大学生のうちに身につけておくといいかもしれません。そのとき、役に立つのがメモアプリです。WidowsやMacのNotepadやNotesでもいいですが、本格的にメモ・情報管理をしたい場合には、以下のようなアプリがあります。

  • Notion:学内メールアドレス(ac.jp)を使えば、有料プランを無料で利用可能
  • Obsidian:無料で使えるが少しハードル高めなので使い慣れるのに時間が必要

コーパスとの向き合い方

最後に、コーパスと親しくなるための方法をいくつか見ておきましょう。

言語を観察する習慣を大事に

普段からの言語観察はとても重要です。コーパスからは得られない言語データが、いくらでもあります。普段の言語生活で「これは不思議だ」「これは面白い」と感じたら、どこかに書き留めておきましょう。記憶力があまりよくなければ、その当時の自分が、なぜその言語現象を「不思議」「面白い」と感じたのかわからないので、なるべく詳しく自分の考えを書き出しておいた方がいいです。そのような自分のメモが一定量以上集まると、メモを眺めているうちに、似たような言語現象がいくつもあることに気づく場合があります。そこで「ひょっとしたらこの言語現象には何かしらの規則性が見られているのではないだろうか」と思ったら、コーパスの出番です。

道具としてのコーパス

コーパスは「道具」です。言語研究のためのフィールドワークをするとき、ボイスレコーダーのような録音のための道具を持参する場合があります。フィールドワークが終わってから、その地域の言語についての記述をまとめるとき、ボイスレコーダーはどのような位置づけになるのでしょうか。調査から得られたデータを解釈するのは人間であり、それをボイスレコーダーがやってくれるわけではありません。

これは、コーパスという道具にも当てはまる話です。コーパスは、言語研究のための道具として活躍してくれます。しかし、「コーパスで調べて結果が得られたから終わり」だと、さほど意味がありません。「少納言」を使って、「泣いたりして」を検索して、「19件の結果」が見つかったのは、この本を読んでいるすべての人に当てはまる話だからです。得られた検索結果を、もっと意味のあるものにするためには、研究者の「解釈」や「考察」が必要です。同じコーパスから得られたまったく同じデータがあるとしても、研究者によっては「解釈」の仕方がまったく違ってくる可能性があります。コーパスを使って得られた結果を、どのように、言語学(や他の学問)の視点から解釈・考察することができるのかを考えることが重要です。

万能ではないコーパス

研究者が探している言語現象が、特定のコーパスにない可能性は十二分にあります。その理由として、「コーパスが構築された時期」「コーパスの規模が小さすぎる」「コーパスが研究目的に合わない」「探している言語現象が周辺的」などが考えられます。

ないもの以外はすべてある!

少納言」を利用して「コロナ」と「パンデミック」を検索してみましょう。あるいは、比較的に最近登場したと思われる語を検索してみましょう。

データと向き合うための心構え

最後の最後に、この強力なツールを本格的に使い始める前に、心構えを一つ。

コーパスは、あくまで「集められたデータの中に、何が、どれだけあるのか」を客観的に示してくれるものです。データが直接教えてくれないこともあります。たとえば、なぜ「〜たり」が一つで使われるようになったのか、その歴史的な経緯や、書き手がどのような意図でその表現を選んだのか、といった「なぜ?」の部分です。

データという客観的な事実(What)と、そこから私たちが読み解くべき解釈(Why)。その両方を行き来することこそが、面白い言語研究に繋がります。コーパスは万能の魔法の杖ではありません。コーパスは、私たちの思考を助け、仮説を検証するための強力な道具の一つです。


  1. Sinclair, John (2004). Trust the text: Language, corpus and discourse. Routledge. 

  2. Everett, Caleb (2023). A myriad of tongues: How languages reveal differences in how we think. Harvard University Press. 

  3. 滝沢直宏(2017)『ことばの実際2 コーパスと英文法』研究社.