コーパスとは? 使い方をわかりやすく解説 無料英語学習最ツール coca corpus・SKELLも紹介

はじめに

コーパスとは?今回は英語学習無料ツールであるコーパスの使い方をわかりやすく解説します。コーパスとは膨大の言語データベースで言語学の研究のために使用されています。まず始めに、コーパスの意味や活用方法、無料で利用できるcoca corpusを紹介します。英語学習への効果やコロケーションについても解説します。実際にSKELLというサービスを使って、頻出動詞のコロケーションも完全整理したので、ぜひチェックしてみてください。コーパスを活用すれば、頻出の動詞やコロケーションを知ることができます。英語話者が実際に使用している語句を網羅すれば、効率よく英語学習を進めることができます。

 

↓↓こちらの動画でも解説してます

www.youtube.com

 

英単語の覚え方はこちら↓↓

www.sunafuki.com

 

英語脳についてはこちらで解説↓↓

www.sunafuki.com

 

 

主な参考文献

「英語コロケーション研究入門」

 

コーパス超入門」

 

 

コーパスとは?

コーパスとは

コーパスの意味

コーパスcorpus)とは言語学において自然言語処理研究に用いるため、文章を構造化し大規模に集積したものです。言語使用に関する特定の目的をもって収集されたテキストの集合体で、例えば「頻出の表現」や「よく使う言い回し」などをテキスト全体から見つけることができます。ちなみに、「corpus」は「身体」を意味するラテン語に由来しているようです。

 

世界で初めてCorpusが公開されたのは1964年のBrown Corpusで、50年以上の歴史があります。日本でコーパスを普及させたのは英語学者の投野由紀夫氏です。2003年にNHK100語でスタート!英会話』で、英語コーパスを教材に活用した放送授業を展開し、それまで専門家しか知らなかったコーパスを一般的な存在へと変えました。

 

covid-19 コーパス

引用:Corpus analysis of the language of Covid-19

 

Oxford english dictionaryの編集者は80億語を超えるWEBページを基に、coronavirusとCovid-19が特定の時期にどれぐらい使用されているかを調査しました。coronavirusの使用は3月から爆発的に増え、特にCovid-19はやや遅れて3月から使われ出したことがわかります。

 

coronavirusと一緒には「outbreak」や「pandemic」という言葉がよく使われていたようです。このようにコーパスは特定の情勢に反映されて、言葉の使用が変化したかどうかも調べることができます。

 

covid-19 コロケーション

引用:Corpus analysis of the language of Covid-19

 

コーパスの条件

自然言語処理研究に用いるため、下記の3つの条件が必要になります。前述の例では、WEBページという実際に書かれたり、書き込まれたページを基にCovid-19の使用状況の変化をコンピューター処理できるように数値化されていました。3つの状況を満たすことで、よく使う言葉や言葉の繋がり等を分析できるようになります。

 

コーパスの3つの条件

  • 条件1:ある目的をもって集められたテキスト
  • 条件2:実際に使われた言葉である
  • 条件3:コンピューター処理できる

引用:コーパス超入門 投野由紀夫

 

コーパスの活用方法

コーパスを活用することで、英語の基本的構造や特徴を知ることができます。例えば、英語の最頻出の単語10を見てみると、「The」がトップとなります。「The」が多いということは、名詞が多いということです。英語は基本的に、主語と述語で構成されているので、必ず主語に名詞が使われます。このように最頻出の単語を抽出すると、言語の特徴が現れてきます。これもコーパスの良いところです。

 

英語で最頻出の単語10

  1. the
  2. be
  3. of
  4. and
  5. to
  6. in
  7. have
  8. it
  9. he

参考:BNC(British National Corpus)より

 

コーパスは特定の単語との相性(頻出度の高い単語)も教えてくれます。例えば、「I am」の後ろには、高確率で「Sure」が来ることがわかっています。単語との相性を知っていれば効率的に英単語を覚えることができます。

 

I am +形容詞のトップ10

  1. Sure
  2. Sorry
  3. Afraid
  4. Glad
  5. Surprised
  6. Happy
  7. Concerned
  8. Able
  9. Pleased
  10. Delighted

参考:BNC(British National Corpus)より

 

無料で利用できるコーパス

Weblio

weblio(ウェブリオ)はGRASグループ株式会社が運営する、日本語圏向けの統合型オンライン百科事典サイトです。550以上の様々な辞書・事典・用語集などを対象に一括検索することができます。

 

ejje.weblio.jp

 

おすすめの使い方は、まずは調べたい単語を入力して「項目を検索」をクリックします。すると下のバーに意味、例文、類語、共起表現と表示されるので、共起表現を選択します。最後に「隣り合う単語の集計結果を見る」を選択すると下のように分析結果が表示されます。

 

weblio

 

「get」の場合は、その後に続く単語(1語右の単語)で一番多いのは、「a」、その次は「the」、3番目に多いのは「to」という結果でした。このツールを使うことで、前後にどのような語がくっつきやすいかを一目で見渡すことができます。

 

英辞郎

英辞郎』(えいじろう)は、翻訳家・通訳者集団EDPElectronic Dictionary Project)が編集している辞書です。英辞郎』のデータには通常の英語辞書にない新しい語彙や複雑な言い回しも含まれ、最新の語彙が必要な研究者や翻訳者などによく利用されているようですが、膨大なデータの中には誤訳が含まれている可能性もあると指摘もされています。

 

eow.alc.co.jp

 

まずは、HPにアクセスをして「get」を検索します。すぐに「get」の基本的な意味や、使い方の解説を見ることができます。【もっとイディオムを見る】をクリックすると、その他のイディオムを全て見ることができます。

 

英辞郎

 

クリックすると、その他のイディオムの一覧が表示されます。さらに詳しく知りたいイディオムをクリックすると、いくつかの例文が表示されます。どのような言葉と実際に使われているのかがわかります。

 

英辞郎のイディオム

ロングマン英英辞典

ロングマン英英辞典は、オックスフォード(Oxford)やケンブリッジ(Cambridge)などと並ぶ英語学習者向けの英英辞典の定番のひとつで、基本語句 2000語を用いた明瞭な説明とわかりやすい例文が人気の英英辞典です。使い方はすごく簡単で、語句入力欄に調べたい単語を入れて、横の検索アイコンをクリックするだけです。

 

www.ldoceonline.com

 

Longman の特徴のは重要基本語彙を表す表示として、書き言葉・話し言葉の用途別で使用頻度の高い3000語にそれぞれ3段階のレベル表示がついていることです。例えば、動詞(verb)の get なら右横に S1、W1 というアイコンがついていて、これは get の使用される頻度が、書き言葉及び話し言葉で1000位以内であるということを表しています。

longman 例文

 

COCA 

COCACorpus of Contemporary American English:現代アメリカ英語のコーパス)は、現代のアメリカで新聞やニュース、映画、ドラマなどで使われている言葉を10億語収録(2021年11月現在)したデータベースです。ブリガムヤング大学(BYU)元教授であるMarkDavies氏によって作成されています。

 

www.english-corpora.org

 

COCAの収録データ

  • 話し言葉:約150の異なるテレビおよびラジオ番組から(8500万語)
  • フィクション:1990年以降の短編小説と演劇、映画の脚本など(8100万語)
  • 雑誌:ニュースやスポーツなど様々な分野の100以上の雑誌(8600万語)
  • 新聞:米国全土10社(8100万語)
  • 学術雑誌:米国議会図書館に貯蔵されている雑誌(8100万語)

 

「英会話最強の動詞30」(投野由紀夫氏が執筆)も実は、COCAのビックデータを基に作成されています。本書では「最も使われている動詞」の上位30個を選び、会話に頻繁に登場する用例とともに、出る順ランキング形式で紹介しています。

 

 

COCAを使用するには無料のログイン登録が必要ですが、メールアドレスや使用目的などを入力するだけで簡単にできます。今回は、weblioで調べて「get」のコロケーションを参考に、「get to」の実際の用例を膨大なデータベースを使ってもう少し詳しく調べてみましょう。登録を終えたら下記のボックスに入力して、Find matchingボタンをクリックします。

 

COCA get to


そうすると、膨大なデータベースから「 get to 」の実際の用例を一覧することができます。実際の使われ方だけではなく、左側の項目にはどの年代に、どのジャンルで使用されていたかが分かります。「get to」の後ろには場所が来るというイメージを持っていたかもしれませんが、get to V(動詞)の使用例が多いことも分かります。

 

cocaの例文

 

SKELL

SKELL(Sketch Engine for Language Learning) は言語学習者向けのコーパスで、Wikipediaの記事やウェブサイトなどの文章。5,700万文以上、10億語以上を収録しています。とても使いやすく一番おすすめのコーパスです。

 

www.sketchengine.eu

 

SKELLを使うと「この語と相性の良い形容詞は何かな?」「この名詞の類語は何な?」「この言いまわしは自然かな?」などの疑問を手軽に調べることができます。詳しい使い方は後ほど紹介します。

 

なぜ英語学習にコーパス

英語学習 コーパス

英語学習への効果

コーパスを英語学習に活用することで、様々な効果があることが実証されています。日本では英作文の精度を上げる効果(単語の正しいコロケーションや、前置詞の選択など、より正しい英語を書くことができる)が期待され、英作文の指導にも応用されているようです。アメリカのコロンビア大学が実施した研究では、CI(コーパスが導入されいている文法書)を使ったEFL生徒(英語を外国語としている生徒)の成績(文法テストのスコア)が向上するという結果が出ました。

 

EFL 効果

引用:Exploring the effect of corpus-informed and conventional homework materials on fostering EFL students’ grammatical construction learning,2022

 

また、corpusの研究によって学習者のレベルごとに異なった英作文指導が必要だという議論もなされています。下記のチャートで示す通り、英語初級者(A1、A2)は、動詞+名詞の文を作る際に、名詞の語彙数が少ないという結果が出ています。つまり、英作文指導では、学習者のレベルごとに別々の指導が必要で、英語学習者自身も初学段階では背伸びせずにシンプル英語を心がけるべきだとも言えるでしょう。

 

corpus レベルによる名詞の長さ

 

↓↓こちらの動画も参考になります

www.youtube.com

コロケーションを整理

コロケーションとは

コロケーションとは語と語の結びつきの強さで名詞、形容詞、動詞、前置詞など、全てのレベルで存在し、コロケーションが弱くなっていけばいくほど、その表現が受け入れられにくくなります(容認度 (acceptability)が下がる)。コロケーションは一般的に「語彙コロケーション」と「文法的コロケーション」に分類することができます。have a dream, great influence, absolutely right, openly discuss(率直に議論する)のような「動詞+名詞」「形容詞+名詞」、「副詞+形容詞」、「副詞+動詞」などの語と語の語彙的な関係は語彙コロケーションと呼ばれています。

 

コロケーションの種類

  • 語彙コロケーション:語と語の語彙的なコロケーション
  • 文法的コロケーション:文法構造を従える結びつくがあるコロケーション

 

一方、enjoy talking のような enjoy の後に動名詞がくるような結びつき、certain that... 、damage to「…の破損」のように動詞、形容詞、名詞が前置詞、不定詞、動名詞、節など文法構造を従える結びつきを文法的コロケーションと言っています。

語彙コロケーション

語彙コロケーションを学習することで、英作文を作成する際に自然な表現を見つけることができたり、副詞のニュアンスを知ることができます。

 

語彙コロケーションのメリット

  • 自然な表現が見つかる
  • 副詞のニュアンスを知ることができる

例えば、「強い」という日本語を気象表現ではどう使われるのか考えます。日本語の「強風」はstrong wind で良いですが、強い雨は「strong rain」とは言わず、heavy rain と一般的に言います。もう一つ、例えば「高い可能性」は a strong possibility と言いますが、a high possibility とは言わないようです。

 

「値段が高い」(expensive)にどのような程度を表す副詞が一般的に使われるのか、例文を確認することでそれぞれの副詞のもつニュアンスを感じることができます。いくつか例を挙げると、extremely(すごく)、ridiculously(法外に)、relatively(比較的)などがあります。

文法コロケーション

文法構造を従える結びつきである文法的コロケーション、動詞の使い方がメインテーマになります。例えば、believeという動詞は高頻度でbelieve thatが続きます。その他にも、「believe in+名詞」、believe to be のように to 不定詞を取る型、 believe it, believe you のように物事や人を表す目的語との連結が起こる場合もあります。英語を受信するだけではなく、正しく発信するためには文法コロケーションを意識して、英作文を学ぶべきです。

 

母語干渉を防ぐ

私達は第二言語を習得する際に、母国語に少なからず影響を受けます。母語の特性が第二言語習得の妨げになっている場合は母語からの負の移転(negative transfer)が働いているとか、母語からの干渉(interference)が起こっていると言われています。

 

発音の違い

引用:エースプロについての資料

 

母語干渉の例(負の移転)

  • Teach=教えるの図式を行き先を教えるにも適用※正しくはtell(語彙レベル)
  • スマート=ほっそりの図式を英語に適用(外来語)
  • I was cried by my girlfriend(被害受け身)※彼女に泣かれたとは表現できない

 

負の移転(negative transfer)に対して、実は正の移転(positive transfer)もあります。例えば日本語の所有格の知識が、英語のTom's(トムの)の理解を速めていると言われています。「トムの本」と「Tom's book」が統語的に類似しているので、正の移転が発生すると言われています。

 

「改善の余地」(room for improvement)、「車の損傷」(damage to the car)のように、「・・の~」と言いたいとき、日本人学習者は「の」に当たる英語として of を思い浮かべがる傾向があります。「名詞+の+名詞」を英語で表現する時は前置詞の後にどのような前置詞を伴うかに注意させることが大切です。

 

日本人学習者が間違いやすい前置詞の例をまとめておきます。

  • the key to success 「成功の鍵」
  • a ticket for the concert 「コンサートのチケット」
  • an expert in [on] economics 「経済学の専門家」

引用:授業に役立てるコーパス

 

SKELLで頻出動詞を完全整理

SKELL

SKELLの使い方

ここからはSKELLの使い方を解説していきます。まずは、SKELLでできることを下記に整理します。登録なども必要なく、調べたい単語を入力してクリックするだけです。今回は試しに「get」の使い方を調べます。

 

SKELLの機能

  • 例文検索
  • コロケーションの確認
  • 類義語・同義語検索

 

skell.sketchengine.eu

 

上記のサイトをクリックすると下記の画面が出てきますので、調べたい単語を入力してEnterボタンを押します。そうすると「get」を使った例文の一覧が表示されます。これでも十分用法がわかるのですが、今回は「exmaples」隣の「Word Sketch」をクリックします。

 

SKELL 例文

 

「Word Sketch」を選択すると、下記の画面が出てきます。「get」の前後のコロケーションを一覧することができます。「get」を使う場合はどのような主語がよく使われるのか、頻出のフレーズをチェックすることができます。

 

Word sketchの機能

  • subject of get:getの主語になりやすい単語
  • object of get:getの目的語になりやすい単語
  • pharsal:getを使うフレーズ
  • pharasl with objet:フレーズ+目的語

 

get の例文

その他にも、隣の「Similar words」をクリックすると「get」の意味に類似することが出てきます。視覚的に、「get」の類義語がわかるようになっています。中心に配置されているのが最も意味が類似しているhaveという結果になりました。

 

get の類義語

頻出動詞のコロケーションマップ

Have

ここからはSKELLの「Word Sketch」の機能を使って頻出動詞のコロケーションを整理していきたいと思います。subject of 〜(〜の主語になりやすい単語)とobject of 〜(〜の目的語になりやすい単語)の上位3位をマッピングしてみました。目的語で一番用例が多かったのが、「have an effect」(〜に影響をもたらす)というイディオムでした。主語で多かったのは、peopleとgovernmentという結果になりました。

 

haveの用法

Get

getのコロケーションマップでは、頻出の目的語はget a job(仕事を得る)、get a chance(チャンスをつかむ)という結果になりました。主語のトップだったのがthingsというのが特徴的と言えるでしょう。

get skell

Make

makeのコロケーションマップでは、頻出の目的語はmake decisions(決定をする)、make sense(意味がわかる)、make use of(活用する)という結果になりました。主語で上位に来たのは、peopleとcompanyでした。 

make skell

 

Take

takeのコロケーションマップでは、頻出の目的語はtake place( 起こる)、to take advantage of (利用する)、took part in(参加する)という結果になりました。主語で上位に来たのは、目的語と関係があるevent、studentでした。

 

take xmind

※上記4つの動詞は、「コーパス超入門」で紹介された頻出10動詞から、汎用性の高い4つの動詞を抽出。

 

参考

Wikipedia |  コーパス

Shogakukan Corpus Network |  コーパスとは

Researchgate | The Effects of Corpus-Based Activities on EFL University Students' Grammar and Vocabulary and Their Attitudes toward Corpus

今井むつみ研究所 | 英語教育 連載 20184月―9月(6回)高校生のライティング上達のためのコーパス利用の試み

Oxford University Press | The Effects of Corpus Use on Second Language Vocabulary Learning: A Multilevel Meta-analysis

NetAdvance Inc | 授業に役立てるコーパス

CORE |  語彙習得におけるコロケーションの重要性

Frontiers | Collocation Use in EFL Learners’ Writing Across Multiple Language Proficiencies: A Corpus-Driven Study

Springer |A thematic corpus-based study of idioms in the Corpus of Contemporary American English

Semantic Scholar | A Corpus-based Analysis of TESOL EFL Students ’ Use of Logical Connectors in Spoken English

ScienceDirect | Exploring the effect of corpus-informed and conventional homework materials on fostering EFL students’ grammatical construction learning

Cambridge University Press ELT | Corpus linguistics: how can it help with English language teaching and learning? With Niall Curry