16
Coh-Metrix を使った科学技術英語テキストの分析 小山 由紀江 名古屋工業大学 466-8555 名古屋市昭和区御器所町 E-mail: [email protected] 概要 本研究では,難易度の異なる 4 種類の科学技術分野の英語テキストを従来のリーダビリ ティー標識( Flesch Reading Ease Score, Flesch-Kincaid Grade Level )と新しい方式 Coh-Metrix によって分析し,その結果を考察した.Coh-Metrix cohesion coherence いった語や文やパラグラフレベルの意味的なつながりや構文の関係を視野に入れた分析を行う ため,語や文の長さを要素として算出していた従来のリーダビリティーとは異なる情報を与えて くれる.この分析により大学入学後の工学部の学生にとって適切な難易度のリーディング教材を 多面的に検討することができる. キーワード リーダビリティー,科学技術英語, Coh-Metrix1Flesch Reading Ease ScoreFlesch-Kincaid Grade Level Analysis of Science & Technology English Texts Using Coh-Metrix KOYAMA, Yukie Nagoya Institute of Technology Gokiso-cho, Showa-ku, Nagoya, 466-8555 Japan Abstract This paper examines two different types of readability indices, conventional indices such as Flesch Reading Ease Score and Flesch-Kincaid Grade Level, and a new measurement method called Coh-Metrix. The distinctive feature of Coh-Metrix is that it computes not only syntactic and lexical information, but also semantic connections such as cohesion and coherence. After analyzing four different scientific texts of different levels by Coh-Metrix, the results are compared and discussed for the purpose of selecting appropriate reading materials for university students. Keyword readability, scientific English, Coh-Metrix, Flesch Reading Ease Score Flesch-Kincaid Grade Level

Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

  • Upload
    others

  • View
    6

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

Coh-Metrix を使った科学技術英語テキストの分析

小山 由紀江

名古屋工業大学

〒466-8555 名古屋市昭和区御器所町 E-mail: [email protected]

概要 本研究では,難易度の異なる 4 種類の科学技術分野の英語テキストを従来のリーダビリ

ティー標識(Flesch Reading Ease Score, Flesch-Kincaid Grade Level)と新しい方式

Coh-Metrix によって分析し,その結果を考察した.Coh-Metrix は cohesion や coherence といった語や文やパラグラフレベルの意味的なつながりや構文の関係を視野に入れた分析を行う

ため,語や文の長さを要素として算出していた従来のリーダビリティーとは異なる情報を与えて

くれる.この分析により大学入学後の工学部の学生にとって適切な難易度のリーディング教材を

多面的に検討することができる.

キーワード リーダビリティー,科学技術英語,Coh-Metrix1,Flesch Reading Ease Score,

Flesch-Kincaid Grade Level

Analysis of Science & Technology English Texts Using Coh-Metrix

KOYAMA, Yukie

Nagoya Institute of Technology Gokiso-cho, Showa-ku, Nagoya, 466-8555 Japan

Abstract This paper examines two different types of readability indices, conventional indices such as Flesch Reading Ease Score and Flesch-Kincaid Grade Level, and a new measurement method called Coh-Metrix. The distinctive feature of Coh-Metrix is that it computes not only syntactic and lexical information, but also semantic connections such as cohesion and coherence. After analyzing four different scientific texts of different levels by Coh-Metrix, the results are compared and discussed for the purpose of selecting appropriate reading materials for university students.

Keyword readability, scientific English, Coh-Metrix, Flesch Reading Ease Score,Flesch-Kincaid Grade Level

Page 2: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

1.始めに 筆者はこれまで,工学部の学生が英語を学習する際の適切な教材作成を目的とし

て,主に ESP (English for Specific Purposes) の手法に基づき研究を行って来た.具体的

には,工学部における英語のニーズ分析,工学部卒業生の職場におけるニーズ分析,科学

技術テキストのコーパス分析であるが,コーパス分析では科学技術コーパスを構築し分析

することによって工学分野での特徴的語彙や表現を抽出する研究を行った. (石川・小山,

2007;小山,2009 など)[1][2]

上述のニーズ分析に関しては,工学部の学生,教員,卒業生のいずれに対する調

査でも最も必要とする英語のスキルは「リーディング」であるという結果を得た.(清水・

小山 2001)[3] コーパス分析で得られた学習重要語彙や特徴表現に関する知見はリーディン

グの基礎知識としての意味を持つが,これらの知識のみによって,センテンス,そしてパ

ラグラフやディスコースの単位で内容を理解し,一つの記事全体,論文全体を把握する能

力を構成しているわけではない.従って,リーディング教材の適切さを判断するためには

使用語彙,語句,構文情報のみならずセンテンス間,パラグラフ間の何らかの意味的なつ

ながりを判断の基準とすることが求められる. 以上述べた,語彙・語句等の知識と包括的な読解力との関係は,昨今のリーディ

ングのメカニズムに関する研究においてはボトムアップ・プロセス,トップダウン・プロ

セスという二つの立場から解明が目指されてきた.寺内(2010)[4] は,ボトムアップ・プ

ロセスとは「文字,形態素単位などの比較的,下位レベルに対する知覚・識別・分析・認

識などに基づく言語処理から着手し,さらに,単語単位,句単位の言語処理を集積し,文

単位,談話単位,パラグラフ単位,さらには,それ以上の文章単位などの言語処理に至る,

という所謂,『部分から全体へ』というアプローチ」と説明している.また,トップダウ

ン・プロセスについては「言語処理を遂行していくより大きな単位である談話やパラグラ

フ単位で全体的に理解し,その統合的な理解を踏まえ,次に,より小さな単位である文字

や語の理解に関わっていく,所謂,『全体から部分へ』というアプローチ」であると述べ

ている.リーディング・プロセスに関してはこれら二つの代表的モデルがあるが,しかし

現在では Grabe and Stoller (2000) [5] 等によって提唱される相互作用的プロセスという考

え方が主流になっており,「読解に関わるすべての構成要素(語,句,節など)がすべて

の言語(情報)処理のレベルで有機的かつ補完的に相互に機能しあって」テキストの理解

が成立すると言われている.(寺内,2010)[4]

以上述べたように,リーディングによる内容理解のプロセスは語彙や語句の知識

にのみ依拠するのではなく,テキストのすべてのレベルの構成要素が相互に作用しあって

成立するものとみなされるが,テキストの理解しやすさを考える場合,文章間,あるいは

パラグラフ間の意味的なつながりを考慮する必要がある.このように考えると,森(2008)[6] が指摘するようにリーディングには,結束性(cohesiveness)の理解と処理が重要な位

Page 3: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

置を占めることが明らかになってくる.1

2.目的 リーディングのプロセスについては以上のように相互作用的モデルによる理解が

主流であるが,実際のリーディング教材を作成する場合には,難易度のレベルが適切であ

るかどうかが重要な要素となる.換言すれば,L12にせよ L2 にせよ言語教育においては適

切な難易度の教材を作成し使用することが成否の鍵となると言ってもよい.そこで,この

テキストの難易度を測る指標として,Brown, Dale-Chall,Flesch Reading Ease,Flesch Grade Level,Fry Graph,FORCAST 等,長年に渡り多くのリーダビリティー指標が提案

されてきた.本研究の目的は,異なるソースから選んだ科学技術関連テキストを従来のリ

ーダビリティー標識と,cohesion や coherence を考慮した Coh-Metrix (Graesser,et al., 2004) [7] によって分析し,それらの結果を比較することにより,大学の工学部の学生に適切

な科学技術英語教材のソースを考察することである.これらのリーダビリティー指標は算

出方法が全く異なり,従来の指標は語彙や文の長さや構文等の言語の形式的な面を算定の

基礎としているのに対し,一方 Coh-Metrix は文と文や,パラグラフとパラグラフ間の

cohesion や coherence を視野に入れ,語の重複などテキストの意味的なつながりをコンピ

ュータを使用して算出する.このように方式の異なるリーダビリティー指標を比較し、よ

り適切な指標を検討する。

3.方法 本研究は,工学部の学生がリーディング教材として読むべきテキストを判定する

ために,難易度が異なると思われるテキスト 4 種類を選びそれらのリーダビリティーを

Coh-Metrix によって算定する.この 4 種類のテキストの分析結果を比較することによって

難易度の適性を判断することにする.4 種類のテキストとは 1) Nature (科学専門誌), 2) Scientific American (一般科学雑誌), 3) Physics (米国高校教科書), 4) CrownII+New HorizonI (日本高校教科書)である.今回は Coh-Metrix による分析を行うため,テキスト

は 1 つの記事,あるいは 1 章というように,ある程度まとまりのある単位で選択した.ま

1 森(2008)は「結束性」(cohesiveness)について以下のように説明している.「結束性

とは,文と文のつながりが目に見える形で表出しているもので,たとえば代名詞(he/she などの人称代名詞や it,this など)や接続詞(but や so),副詞(consequently など)が含

まれる.」cohesion, coherence という概念については後に詳述する. 2 第一言語,母語のことを指す.同様に L2 は第二言語(通常は母語でない外国語)を意味

する.

Page 4: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

た、Coh-Metrix は 1 度に分析できるのは 15000 character までという限界があるため,

Nature の論文は introduction の部分を選んだ.さらに内容に関しても日本の高等学校の

教科書からは科学的な内容の章を選択した.それぞれのテキストの情報は以下の【表 1】の

通りである. 【表 1】対象としたテキスト

テキストの種類

総語数

各テキスト nature1 nature2 nature3 Sci-ame1Sci-ame2 Sci-ame3 Physics1Physics2 Physics3 J-high1 J-high2

語数 557 980 518 606 681 606 843 237 240 192 473

665

J-highNature

2055 1893

Scientific American Physics-US high

1320

4.従来のリーダビリティー指標

リーダビリティー指標は,上記のように Brown, Flesch Reading Ease Score, Flesch-Kincaid Grade Level, Dale-Chall 等があるが,当初はその多くが L1 の学習教材

作成を念頭に開発されたもので,アメリカの K-12 (Kindergarten から 12 年生までの義務

教育)の教材選択の指標として広く用いられ,大きな影響力を持っていた.しかし,その算

定の基本は1)センテンスの難度(一文中の語数の平均)と 2)語の難度という二つの要

素によって計算されている.語の難度については一語中のシラブル数(Flesch Reading Ease Score 等)によって計算する方式と,「よく知られている平易な語」のリストに照ら

し合わせて平易語の割合によって計算する方式(Dale-Chall 等)がある.前者は端的に言

えば「語の長さ」によって難易度が計算されるものであり,センテンスも語も短ければ易

しく,長ければ難しいという算定結果になる.以下の【図 1】は従来のリーダビリティーを,

難易度を決めるファクターによって分類したものである. 【図 1】リーダビリティー指標のファクター

以下,従来のリーダビリティー指標の中から,語の(シラブル)の長さによる指標として

従来のReadability

Difficulty of a word

Length:Syllable

Word List

Difficulty ofa sentence

Length:No. of words

Page 5: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

Flesch Reading Ease Score と Flesch-Kincaid Grade Level Score について,また単語リス

トを使った指標として Dale-Chall の指標について簡単に述べることにする. 4.1 Flesch Reading Ease Score と Flesch-Kincaid Grade Level Score

Flesch Reading Ease Score は Rudolf Flesch が 1948 年に提案したリーダビリテ

ィーの指標で,これによって算出されるリーダビリティー指数は 0から 100の間で示され,

スコアの高いものほどテキストが易しいことを示している.3 計算式は次の通りである. RE = 206.835 – (1.015 x ASL) – (84.6 x ASW) RE = Readability Ease ASL = Average Sentence Length (総語数を文章の数で割ったもの:一文の平均語数) ASW = Average number of syllables per word (一語の平均シラブル数)

Flesch-Kincaid Grade Level Score は Flesch Reading Ease Score 指標を改良し

たもので,教育関係者に使われることの多い指標である.Grade Level の名前が示すように

算出される指標は学年表示の形を取っている.学年で示されることで,教育現場において

この指標を基に学年に適した教材を制定することが容易にできるという利点がある.この

計算式は以下の通りである. Flesch-Kincaid Grade Level Score = (.39 x ASL) + (11.8 x ASW) - 15.59 ASL = Average Sentence Length (総語数を文章の数で割ったもの:一文の平均語数) ASW = Average number of syllables per word (一語の平均シラブル数)

いずれも,センテンスの長さ(語数)と,語の長さ(シラブルの数)を基に難易

度を算出する点は同じであるが,染谷(2009)[8] によるとこれら二つの指標の関係は【表

2】に示す通りである. 【表 2】

Flesch score 評価 対応する学年レベル(FKG equivalent)

90-100 Very easy 5年生

90-80 Easy 6年生80-70 Fairly Easy 7年生70-60 Standard (8-9)60-50 Fairly Difficult 高校(10-12)50-30 Difficult 大学(13-16)

0 Very Difficult 大学卒業以上(17 and above)

3 テキサス大学の Txreadability のホームページによると,一般的に 30 以下は非常に難度

が高く,70 はアメリカの 8-9 年生のレベル,4年生までの教育を受けていれば,スコアが

100 程度のテキストの内容を理解する事ができる.

http://www.utexas.edu/disability/ai/resource/readability/manual/forcast-versus-flesch-Japanese.html

Page 6: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

4.2 Dale-Chall の指標 Dale-Chall の指標は以上述べた二つの指標とは異なり「よく知られている語」

(familiar words) のリストを作成し,対象テキストに使用されている語がそのリストに含ま

れるか否かによって,難易度を算出するものである.この familiar words のリストに含ま

れる語は 4 年生の 80%が理解できる語と規定され,その数は 1948 年発表の旧バージョン

では 763 語であった.1995 年に改訂された新しいバージョンでは 3000 語と大幅に増加し

ている.(Chall & Dale, 1995)[8] 新しいバージョンの Dale-Chall の指標の計算式は以下

の通りである. Raw Score = 0.1579 * (PDW) + 0.0496 * ASL Raw Score = Reading Grade of a reader who can comprehend your text at 3rd grade or below. PDW = Percentage of Difficult Words(難語4のパーセンテージ) ASL = Average Sentence Length in words (総語数を文章の数で割ったもの:一文の平均語

数) 難語(PDW)の率が 5%以上だった場合は以下の調整が必要: Adjusted Score = Raw Score + 3.6365, (5%未満の場合は Adjusted Score = Raw Score) Adjusted Score = Reading Grade of a reader who can comprehend your text at 4th grade or above.

つまり 3 年生以下の学年レベルの難易度を示すのは Raw Score,4 年生以上は

Adjusted Score によってリーディング教材の難易度が示されているわけである.Adjusted Score と学年レベルの換算については以下の【表 3】の通りである.

【表 3】Dale-Chall の新標識によるスコア換算

ADJUSTED SCORE GRADE LEVEL

4.9 and Below Grade 4 and Below

5.0 to 5.9 Grades 5 - 6

6.0 to 6.9 Grades 7 - 8

7.0 to 7.9 Grades 9 - 10

8.0 to 8.9 Grades 11 - 12

9.0 to 9.9 Grades 13 - 15 (College)

10 and Above Grades 16 and Above

(College Graduate)

4 難語とは,familiar words の 3000 語リストに含まれない語のことである.

Page 7: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

5.従来のリーディング指標の問題点と新しいリーディング指標 これまで広範に用いられてきた従来の指標について説明してきたが,これらの指

標は計算もしやすく教育関係者にとって非常に有用なものであった。それにも拘らず,セ

ンテンスや語の長さといったテキストの表層的形式的な側面のみを基礎にして算出され,

読解のプロセス等の複雑なメカニズムを捨象した指標であるとの批判が加えられてきた.

例えば Crossley, Greenfield, & McNamara (2008) [9] は,Dale-Chall の新バージョンによ

るテキストの難易度算定結果とクローズテストを用いた読解力の実験結果が高い相関

(r=.8) を示したとは言え,読解のプロセスを考慮に入れていない点で妥当性は高いとは言

えないとしている.テキストを表層的にしか扱っていないという視点からは,染谷(2009)[7]

の次のような指摘もある.「たとえば A green boy is a dog and cat in the house of fire. のような全く意味を成さない文字列や Four king sons had the. のような非文でも,『読みや

すい文』という評価になる.反対に,長めの地名や人名が多く出てくる文章や,カンマや

セミコロン等で付加的な語句を重層的につなげたものは,仮に文章としてはごく簡単に理

解できるものであっても,リーダビリティ評価は低くなる.」このように,意味を考慮し

ない表層的な側面のみを要素として算定するリーダビリティーが,テキストの難易度を適

正に算定していないことは明確である. さらに L1 と L2 のリーディングを分けて考えるべきであるという立場からの批判

もある.Carrell (1987)[10] は L1 と L2 では,言語の学習プロセスも学習者も異なる特質を

持つことから,L1 用の教材のリーダビリティーをそのまま L2 のリーダビリティーに適用

することはできないと指摘し,また従来のリーダビリティーはテキストに関する統語的な

複雑さ,レトリカルな構造などは説明できないと批判している.従来のリーダビリティー

指標では学年レベルでスコアを出すことが多く教育界ではその利点もあったが,母語話者

の学年指標をそのままで EFL の状況に適用することは必ずしも適切ではない.また田中

(2009)[11] はこれまでのリーダビリティーでは,指標としての学年が量的に捉えられてお

り,学年が上がるにつれリーディングの能力も一定に上がっていくことを仮定しており,

これは大半の生徒が中学で英語学習を始める日本の現状には適さないことも指摘している. 以上述べたような従来のリーダビリティーに関する問題点を解決するために

Brown(1998), Lexil Measure, Ozasa-Fukui Year Level Index (小篠,福井 & 細川, 2009)[12], Coh-Metrix (Graesser, et al., 2004)[6], 順序ロジットモデル5 (田中, 2009) [11] 等,

様々な新しいリーダビリティー標識が提案されている.本研究ではこれらのうち,cohesion,coherence のようなセンテンスの意味的なつながりを視野にいれたCoh-Metrix を使って

5 筆者は,先行研究(小山, 印刷中)[13] において田中(2009) [11] による順序ロジットモデル

によって,4 つの異なるレベルの科学技術テキストを分析したが,科学専門誌,一般科学雑

誌は難易度の点で高過ぎるため正確に判定されず,必ずしも適切でないことが明らかとな

った.これはもともとこのモデルが日本の中学生,高校生レベルのテキストを対象として

いたためであり,高校の教科書からの英文テキストに関しては適切に判定された.

Page 8: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

科学技術テキストを分析し,工学部の学生のリーディング教材として適切なテキストを検

討する.

6.Coh-Metrix 上記のようにCoh-Metrix は cohesion,coherenceなどセンテンス間,パラグラフ

間のつながりをも分析対象に加えた複合的なリーダビリティー指標である.Cohesion, coherenceはテキストの理解に不可欠の要素であるが,これらはGraesser, et al.(2004) [6] に

おいてそれぞれ以下のように説明される.cohesionは “a characteristic of the text” “an objective property of the explicit language and text” であり特定の明確な語や語句,文章

など,重要なideasを解釈し,ある考えを他の考えとつなげることができるような言語的な

素性である.Cohesion の例としてはit, they, she 等の代名詞,therefore 等の接続詞,副

詞等である.このcohesion が読み手のcoherence を形作ることを可能にする.coherence は言語的な手がかりとしてのcohesion を理解した時に到達する “a characteristic of the reader’s mental representation of the text content” であるが換言すれば「心理的な表象あ

るいはプロセスの産物としての達成物」であり,これは簡単に言うと「心理的構成要素」

とも言うことができる.即ちテキストを読んでその内容を「理解できた」と思うその心理

の要素と言っても良いだろう. van Dijk (1985)[14] はやはり cohesion と区別し

て “coherence is provided not only by the ordering of sentences, but also by their meaning and

reference.” (p110)と述べ, a. We went to an expensive restaurant. b. John ordered a big Chevrolet.

という例を挙げている.これら a. と b. のセンテンスは順序のみならず意味的に関連性が

成立せずcoherence が欠けていると言える.

Coh-Metrix は coherence や cohesion,その他 Flesch Reading Ease Score 等テキ

ストを様々な側面から細かく分析した上で計算し,語や句のレベルのみならず談話レベル

の特性をもコンピューターによって数値化して示すツールである. Coh-Metrix は 58 種類のスコアを算定するが,これらは 1.リーダビリティー,2.一般的な

テキスト自体の情報,3.構文指数,4.指示・意味指数,5.状況モデル,以上の 5 種類に

分けられる.以下がその具体的なリストである. 1. Readability indices

a.Flesch Reading Ease b.Flesch-Kincaid Grade Level 2. General Word and Text Information

2.1 Basic count (語・センテンス・パラグラフの数等) 2.2 Frequencies (内容語の頻度) 2.3 Concreteness 2.4 Hypernymy

3. Syntax Indices 3.1 Constituents

Page 9: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

3.2 Pronouns, Types, and Tokens 3.4 Connectives 3.5 Logical Operators 3.6. Sentence syntax similarity

4. Referential and Semantic Indices 4.1 Anaphor 4.2 Coreference 4.3 Latent Semantic Analysis (LSA)

5. Situation model dimensions 5.1 Causal dimension 5.2 Intentional dimension 5.3 Temporal dimension 5.4 Spatial dimension

7.結果と考察 Coh-Metrix 2.0 による全 56 項目の分析結果は以下の【表 4】に示す通りである.

Coh-Metrix には Flesch Reading Ease と Flesch-Kincaid Grade Level を出力する機能が

備わっているので,まずはこの一般的なリーダビリティー指標による分析結果を考察し,

その後,Coh-Metrix に特徴的な意味的なつながりに関する項目を選んで結果を考察するこ

とにする.

7.1 Flesch Reading Ease と Flesch-Kincaid Grade Level の分析結果 まずFlesch Reading Ease あるが,これは,科学専門誌(Nature)28.580 ,一般

科学雑誌(Sci-Ame) 44.030,米国高校教科書(US-High-Phy) 65.782,日本高校教科書

(J-High) 82.136の順に(易しさを示す)指数が高くなり,科学専門誌が最も難度が高く,

日本の高校教科書が一番平易という順当な結果が出た.指数が80 以上のテキストはかなり

易しく30 未満は難度がかなり高いとされるので,これらの4 つのテキストはこの指標によ

ると段階的にそれぞれの能力の学習者に対応し,全体として広い範囲の難易度をカバーし

ていることが分かる.【図1】はFlesch Reading Easeの結果をグラフに表わしたものであ

るが,段階的にほぼ同じような増加率で平易度が上がっていく様子がよくわかる. 他方Flesch-Kincaid Grade Level であるが,分析結果を見ると科学専門誌

(Nature)12.000 ,一般科学雑誌(Sci-Ame) 11.965,米国高校教科書(US-High-Phy) 7.907,日本高校教科書(J-High) 4.827の順番に対応学年が低くなっている.しかし,科学専門誌と

一般科学雑誌の難易度は対応学年が12と11.965であるから,ほとんど変わりは無くいずれ

もL1の高校最上級生に適した難易度の高いテキストという結果となった.米国の高校の教

Page 10: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

科書であるPhysics については7.907(中学2年に相当)と高校レベルとしてはやや易しい

という結果である.これは「物理」という科目の特性から言語的にはなるべくシンプルに

分かりやすくして,物理の内容理解を助ける意図があるかもしれないが,これについては

今後,数学,化学などのサイエンス系の科目のデータと歴史,社会などの文化的な科目の

教科書も調べる必要があるだろう.日本の高校の英語教科書は4.827 即ちL1 の状況では小

学5年生という結果であり,今回分析した4種のテキストの内,やはり相当易しいことが明

らとなった.【図2】はFlesch-Kincaid Grade Levelによる分析結果をグラフにしたもので

ある. 以上の結果を見る限り,高校の英語を習得して大学に入る学生が,それぞれの専

門で必要とされる学術論文を読むまでの間には大変大きなギャップがあることが明らかで

ある.これら二つの指標によれば,アメリカの高校の教科書は,日本の高校の英語教科書

の次に難易度の高いテキストとランクされ,しかも学年レベルの差では3学年程度であるこ

とから,大学入学後に読むテキストとしては適切な難易度であるということができるだろ

う. 【図 1】 【図 2】

0102030405060708090

Flesch Reading Ease (0-100)

02468

101214

Flesch-Kincaid Grade Level (0-12)

7.2 Coh-Metrix の分析結果

Coh-Metrix による 4 種類のテキストの分析結果全体は【表 4】に示すとおりであ

るが,前述のように項目数が 56 と多いため,本研究では考察の対象とするインデックスは

以下のように限定する.今回取り上げる指標は Crossley et al. (2008) に従い a. Lexical Index (使用される語彙),b. Syntactic Index (センテンスを越えた構文),c. Meaning Construction Index (意味的なつながり)の三つの視点から,a. Celex, logarithm, mean for content words (0-6) ,b. Sentence syntax similarity, adjacent,c. Content word overlap とした.さらにテキスト理解の難易度に直接関係すると思われる構文に関する 3 つのイン

デックス(Mean number of modifiers per noun-phrase,Mean number of higher level

Page 11: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

constituents per word,Mean number of words before the main verb of main clause in sentences)を検討の対象とした.それぞれの意味は,以下に示すとおりである.冒頭の番

号は【表 4】の左欄にある番号である. ================================================================= (40) Celex, logarithm, mean for content words (0-6): テキストに含まれる内容語の頻度ロ

グ (52) Content word overlap: 隣接する文が共通する内容語を有する割合 (49) Sentence syntax similarity, adjacent:隣接する文との構造的な類似性 (35) Mean number of modifiers per noun-phrase: 名詞句の修飾語の平均値 (36) Mean number of higher level constituents per word:1 語当たりの(構造的に)上位語の

平均値 (37) Mean number of words before the main verb of main clause in sentences: 主動詞の

前に出てくる語数の平均値

分析結果は【表 5】に示すとおりであるが,数値のままでは理解しにくいため折れ

線グラフにしたものが【図 3】【図 4】【図 5】【図 6】である.(40)のテキストに含まれ

る内容語の頻度ログはやはり日本の高校教科書が 2.394 と一番多く,科学専門誌は最も低

い(1.739).しかし一般科学雑誌と米国教科書は大きな差は見られない.内容語が多いこと

は「分かりやすさ」につながると考えられるため,日本の高校教科書に内容語が多く含まれ

ることは自然である.一方,(52)の隣接する文との内容語の重複を見てみると,科学専門誌

と日本の高校教科書がやや高いという結果が出た.小山(印刷中)の予備的な分析では一般科

学雑誌の結果が一番高かったことを考えると,この点についてはさらに多くのデータで検

証する必要があるだろう.また(49)の隣接する文との構造的な類似性については米国の高校

教科書(0.126)と日本の高校教科書(0.127) がほとんど同じ高い値を得た.このような教

材として書かれたテキストは他の二つのテキストに比べ学習者が理解しやすいように書か

れている可能性がある. 最後に(35) 名詞句の修飾語,(36) 構造的な上位語,(37) 主動詞の前に出てくる語

はいずれもこれらの語数が多いとセンテンスの構造が複雑になり難度が上がると考えられ

る.このような文の難度分析するものであるが,これら 3 つの指標の分析結果は興味深い.

名詞句の修飾語の数は科学専門誌がやや高く日本の高校教科書は低いものの,極めて大き

な違いは見られない.構造的な上位語の数についても同様である.しかし主動詞の前にい

くつ語があるかという点については,明確な傾向が見られた.即ち,一般科学誌は 6.199と 6 語以上が主動詞の前に挿入され,これに対し日本の高校教科書では主動詞の前に置か

れる語は 2.891 と極めて少ない.この結果を見る限り,日本の英語教科書の構文は非常に

分かりやすく書かれており,それとは対照的にアメリカの一般科学雑誌は主動詞は後に置

かれ文章の理解がやや難しくなっていると思われる.

Page 12: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

【表 5】4 種類のテキストの Coh-Metrix による分析結果 nature sci-ame us-high-phy J-high

40 FRQCLacw 'Celex, logarithm, mean for content words (0-6)' 1.739 2.102 2.084 2.39452 CREFC1u 'Proportion of content words that overlap between adjacent sentences'0.155 0.064 0.077 0.14349 STRUTa 'Sentence syntax similarity, adjacent' 0.106 0.073 0.126 0.12735 SYNNP 'Mean number of modifiers per noun-phrase' 1.421 0.894 0.849 0.64636 SYNHw 'Mean number of higher level constituents per word' 0.618 0.722 0.722 0.78437 SYNLE 'Mean number of words before the main verb of main clause in sentences'4.320 6.199 4.872 2.891

【図 3】 【図 4】

0

0.5

1

1.5

2

2.5

3

nature sci-ame us-high-phy J-high

Celex, logarithm, mean for content words (0-6)

00.05

0.10.15

0.2

Content words overlap between adjacent

sentences

【図 5】 【図 6】構文的な情報

00.020.040.060.08

0.10.120.14

Sentence syntax similarity, adjacent'

0

1

2

3

4

5

6

7

modifiers per noun-phrase

higher level constituents per word

words before the main verb

Page 13: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

【表 4】 nature sci-ame us-high-phy J-high

1 CAUSVP 'Incidence of causal verbs, links, and particles' 54.175 55.393 77.995 58.9662 CAUSC 'Ratio of causal particles to causal verbs (cp divided by cv+1)'0.703 0.913 0.750 0.5753 CONADpi 'Incidence of positive additive connectives' 40.400 19.812 30.639 27.7434 CONTPpi 'Incidence of positive temporal connectives' 3.926 9.048 7.963 23.1795 CONCSpi 'Incidence of positive causal connectives' 22.316 24.333 33.462 20.4986 CONADni 'Incidence of negative additive connectives' 12.509 9.538 9.545 14.1557 CONTPni 'Incidence of negative temporal connectives' 0.000 3.300 0.395 1.0578 CONCSni 'Incidence of negative causal connectives' 0.938 2.689 0.395 0.0009 CONi 'Incidence of all connectives' 79.749 67.131 82.400 84.027

10 CREFA1u 'Argument Overlap, adjacent, unweighted' 0.656 0.586 0.378 0.65711 CREFS1u 'Stem Overlap, adjacent, unweighted' 0.687 0.564 0.619 0.60712 CREFP1u 'Anaphor reference, adjacent, unweighted' 0.092 0.369 0.239 0.23613 CREFAau 'Argument Overlap, all distances, unweighted' 0.528 0.425 0.449 0.53914 CREFSau 'Stem Overlap, all distances, unweighted' 0.582 0.410 0.548 0.45915 CREFPau 'Anaphor reference, all distances, unweighted' 0.033 0.113 0.072 0.14216 DENSNP 'Noun Phrase Incidence Score (per thousand words)'252.923 283.193 298.345 308.96017 DENSPR2 'Ratio of pronouns to noun phrases' 0.051 0.127 0.129 0.16918 DENCONDi 'Number of conditional expressions, incidence score'1.279 1.589 3.982 5.77519 DENNEGi 'Number of negations, incidence score' 5.480 11.859 1.582 2.11420 DENLOGi 'Logical operator incidence score (and + if + or + cond + neg)'48.532 34.360 39.365 29.36721 LSAassa 'LSA, Sentence to Sentence, adjacent, mean' 0.313 0.249 0.265 0.32522 LSApssa 'LSA, sentences, all combinations, mean' -0.023 0.412 0.207 0.33423 LSAppa 'LSA, Paragraph to Paragraph, mean' 0.322 0.307 0.289 0.50924 DENPRPi 'Personal pronoun incidence score' 12.910 35.707 39.108 51.56625 HYNOUNaw 'Mean hypernym values of nouns' 4.366 4.894 5.052 5.21326 HYVERBaw 'Mean hypernym values of verbs' 1.835 1.757 1.797 1.46927 READNP 'Number of Paragraphs' 32.333 21.333 33.333 8.00028 READNS 'Number of Sentences' 32.667 31.667 43.667 28.00029 READNW 'Number of Words' 685.000 631.000 440.000 332.50030 READAPL 'Average Sentences per Paragraph' 1.016 2.232 1.138 4.07731 READASL 'Average Words per Sentence' 21.201 20.066 15.388 12.16932 READASW 'Average Syllables per Word' 1.853 1.684 1.483 1.32833 READFRE 'Flesch Reading Ease Score (0-100)' 28.580 44.030 65.782 82.13634 READFKGL 'Flesch-Kincaid Grade Level (0-12)' 12.000 11.965 7.907 4.82735 SYNNP 'Mean number of modifiers per noun-phrase' 1.421 0.894 0.849 0.64636 SYNHw 'Mean number of higher level constituents per word' 0.618 0.722 0.722 0.78437 SYNLE 'Mean number of words before the main verb of main clause in sentences'4.320 6.199 4.872 2.89138 TYPTOKc 'Type-token ratio for all content words' 0.555 0.751 0.704 0.65939 FRQCRacw 'Celex, raw, mean for content words (0-1,000,000)'949.964 2060.529 1343.252 3747.22540 FRQCLacw 'Celex, logarithm, mean for content words (0-6)' 1.739 2.102 2.084 2.39441 FRQCRmcs 'Celex, raw, minimum in sentence for content words (0-1,000,000)'14.595 18.255 29.588 31.45242 FRQCLmcs 'Celex, logarithm, minimum in sentence for content words (0-6)'0.840 1.125 1.054 1.22043 WORDCacw 'Concreteness, mean for content words' 391.085 365.882 393.471 409.05244 CONLGpi 'Incidence of positive logical connectives' 17.025 22.743 30.299 22.53545 CONLGni 'Incidence of negative logical connectives' 13.448 12.227 9.940 14.15546 INTEC 'Ratio of intentional particles to intentional content' 0.000 0.000 0.000 0.00047 INTEi 'Incidence of intentional actions, events, and particles.'19.497 17.975 26.317 27.33048 TEMPta 'Mean of tense and aspect repetition scores' 0.802 0.831 0.954 0.64849 STRUTa 'Sentence syntax similarity, adjacent' 0.106 0.073 0.126 0.12750 STRUTt 'Sentence syntax similarity, all, across paragraphs' 0.097 0.073 0.107 0.11851 STRUTp 'Sentence syntax similarity, sentence all, within paragraphs'0.008 0.037 0.043 0.12952 CREFC1u 'Proportion of content words that overlap between adjacent sentences'0.155 0.064 0.077 0.14353 SPATC 'Mean of location and motion ratio scores.' 0.516 0.611 0.459 0.44854 WORDCmcs 'Concreteness, minimum in sentence for content words'170.000 192.667 192.667 190.00055 GNRPure 'Genre purity' 0.500 0.500 0.500 0.50056 TOPSENr 'Topic sentence-hood' 0.500 1.000 0.563

Page 14: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

8.まとめ 本研究では,科学専門誌,一般科学雑誌,米国高校教科書,日本高校教科書の4種

類のテキストを,これまで広く使われてきた Flesch Reading Ease とFlesch-Kincaid Grade Level の2 指標によって分析し,さらに文やパラグラフの構造と意味に踏み込んで

分析するツールとして新しく提案されたCoh-Metrix による分析を行った.Flesch Reading Easeによる分析では,科学専門誌→一般科学雑誌→米国高校教科書→日本の高校の教科書

ときれいに段階的に難易度が減少することが分かった.またFlesch-Kincaid Grade Levelの分析結果では,日本の高校の教科書→米国高校教科書→一般科学雑誌と難度が高くなり,

科学専門誌は一般科学雑誌よりわずかに難度が高いという結果を得た.以上述べたように,

従来から広く使用されているこの二つの指標の分析結果によると,これら4 種のテキスト

は高校を卒業した後,学生が大学に入学し,専門の論文を読むようになるまでの段階的な

教材として適切な難易度を示していると言えよう.即ち,日本の英語学習者に関して,大

学入学後の教材としては米国の高校の教科書程度の英文テキストが1つの有力な候補とな

り得ることが明確になった. さてCoh-Metrix によるこれらのテキストの分析結果であるが,一般科学雑誌の読

みやすさが明らかとなった小山(印刷中)[13] の予備分析の結果とは異なり,簡単には解釈が

できない.内容語の重複,隣接する文との構文的な類似性,主動詞の前に置かれる語の数,

どれをとっても一般科学雑誌は「読みにくい」テキストであることが推定される結果となっ

ている.主動詞の前に置かれる語数に関しては科学専門誌が一般科学誌,米国教科書に次

いで3番目と意外と低く,内容語の前後の文との重複は最も高かった.科学専門誌は語や文

の長さを要素として算出する従来の指標では最も難度の高い文章と判定されつつも,

cohesion, coherenceを念頭に置いたCoh-Metrixの指標ではそれほど読みにくいテキストで

はないと思われる結果が出たわけである.これについては,テキストのジャンルが異なる

ことによる書き方の違いも要因としては考えられる.しかし,専門用語とその用法を正確

に理解していれば,専門の論文を読むことはそれほど難しくないという経験則がある意味

でテキストのコンピュータ解析によって明らかにされたと考えることもできるだろう.こ

れは従来のリーダビリティー指標ではできなかった分析である. ところで,本研究の対象としたテキストは600~2000語という小さいサイズのも

のであった.今後はさらに多くのテキストを分析の対象とすることによって,一般的な傾

向をより正確に検証する必要がある.また今回は56あるCoh-Metrixの指標のうち6つの結

果について考察したが,どの指標を使って何を見るかという点についても,さらに検討し

なければならない.従って今回の分析のみによって一般的な結論を出すことは尚早である.

しかし,従来のリーダビリティー指標のみならず,Coh-Metrixによって文やパラグラフの

意味的なつながりを考慮した「読みやすさ」「読みにくさ」の指標を検討することによって,

語やセンテンスの長さにとらわれない,適切なテキストの選択が可能になる.そしてその

Page 15: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

ことによって,学習者の目的と能力に適合したリーディング教材の作成が実現すると考え

ている.Coh-Metrix の指標に妥当性を与えるためには実際にリーディングの問題を作成

して回答してもらう必要があるだろう。この実験も今後の課題である。

文 献 [1] 石川有香・小山由紀江 (2007).「学術論文読解を目的とした指導語彙の選定」中部地区英語

教育学会『紀要』2006, p309-316 [2] 小山由紀江 (2009).「科学技術コーパスにおける特徴的 Multi-Word Expression の抽出と

その評価」 統計数理研究所共同研究リポート 233, p61-78 [3] 清水裕子, 小山由紀江 (2001).「工学系大学卒業生の英語ニーズ分析―質問紙調査に基づい

て―」『立命館経済学』50-4, p56-73 [4] 寺内正典 (2010). 認知科学的視点から見たリーディング--大学における望ましい「リー

ディングの習得と指導」の構築に向けて (経済学研究のしおり(6)経済学部学生のための学習案

内)経済志林 77(3), p515-544, 2010-03 法政大学経済学部学会 [5] Grabe, W. and Stoller, F. (2002). Teaching and Researching Reading. Longman [6] 森千鶴 (2008).「リーディング能力をつける指導とは」高校英語教育 2008 夏号 三省堂

http://tb.sanseido.co.jp/english/h-english/pr/08_summer/2008_sansseido_03.pdf Retrieved Jan. 5th, 2012 [7] Graesser, A. C., McNamara, D. S., Louwerse, M. M., & Cai, Z. (2004). Coh-Metrix: Analysis of text on cohesion and language. Behavior Research Methods, Instruments, and Computers, 36, p193-202. [8] 染谷康正 (2009). オンライン版「英文語彙難易度解析プログラム」(Word Level Checker)の概要とその応用可能性について http://someya-net.com/wlc/readability.html Retrieved Jan. 10th, 2012 [9] Chall, J.S., & Dale, E. (1995). Readability Revisited: The New Dale-Chall Readability

Page 16: Coh-Metrix を使った科学技術英語テキストの分析 - …presentation.web.nitech.ac.jp/publication/42.pdfCoh-Metrix を使った科学技術英語テキストの分析 小山

Formula. Northampton MA.:Brookline Books [10] Crossley, S. A., Greenfield, J., & McNamara, D. S. (2008). Assessing Text Readability Using Cognitively Based Indices. TESOL Quarterly, 42, p475-493. [11] Carrell, P. (1987). Readability in ESL. Reading in a Foreign Language, 4, p 21–40. [12] 田中省作(2009).「順序尺度としての学年を指標とした日本人英語学習者のための英文書

リーダビリティの推定」統計数理研究所共同研究リポート 233 [13] 小篠敏明,福井正康,細川光浩 (2009). 「日本人英語学習者のためのリーダビリティ指標の

開発(2 ) 中間報告」『経営研究』福山平成大学経営学部紀要,第 5 号,p35-49. [14] 小山由紀江(印刷中).「Readability 指標による科学テキストの予備分析」New Directions 30, 名古屋工業大学共通教育・英語 [15] van Dijk (1985). Handbook of Discourse Analysis, vol2. Academic Press, London