21
テキス ト要約の複数の正解 に基づ いた評価 石川 開† 安藤 真 一† 奥村 明 俊† 本 稿 で は,要 約 手 法 と し て複 数 の 正 解 に 基 づ く評 価 法 の 提 案 を行 な っ た.従 来のテキ ス ト要 約 の 評 価 方 法 で は 唯 一 の 正 解 を用 い る が,テ キス トによっては観点の異 なる正 しい 要 約 が 複 数 存 在 す る場 合 も あ り,評 価 の 信 頼 性 が 保 証 さ れ な い と い う問 題 が あ っ た.我 々 は,自 動 評 価 の 信 頼 性 を高 め る た め,特 に 重 要 文 抽 出 法 に焦 点 を 当 て て 複 数 の正解 に基づ く評 価 方法 を検 討 した.提 案 手 法 で は,複 数 の 正 解 と評 価 対 象 の 要 約 を 共 にベ ク トルで表 現 し,複 数 の 正 解 の 線 形 結 合 と評 価 対 象 の 要 約 と の 内 積 の 最 大 値 を 評 価 値 とす る.提 案 手 法 の 検 証 の た め に,NTCIR-2要 約 デ ー タ 中 の4記 事 に対 して, 要 約 者7名 で 要 約 の 作 成 を行 な っ た.正 解 の 要 約 問 の 一 致 度 に基 づ く品 質 評 価 の 結 果, 提 案 手 法 の 評 価 の 正 解 と して 用 い る の に 十 分 な 品 質 が 得 られ な か っ た が,要 約 の比較 か ら,照 応 関係,結 束 性 等,元 テ キ ス ト中 の 構 造 を損 な わ な い よ う に 要 約 す る 共 通 の 法 則 性 が 見 出 さ れ,今 後 要 約 の 正 解 を作 成 す る 上 で 有 用 な 知 見 を得 た.提 案手法の有 効 性 を 検 証 す る予 備 実 験 と して,異 な る 幾 つ か の 自動 要 約 手 法 と複 数 正 解 と の 一 致 度 に基づ く評 価 を行 な った.正 解 ご と に評 価 の 高 い 自 動 要 約 手 法 が 異 な る とい う傾 向 が 見 られ,複 数 の 正 解 を用 い る こ と で 評 価 対 象 の 要 約 と の 相 性 に よ ら な い 評 価 結 果 を得 る と い う提 案 手 法 の 前 提 を裏 付 け る結 果 を得 た. キ ー ワ ー ド:テ キス ト要 約,評 価 手 法,複 数 の 正 解,信 頼 性,一 致度 Evaluating Text Summarization Using Multiple Correct Answer Summaries KAI ISHIKAWA•õ,SHINICHI ANDO•õand AKITOSHI OKUMURA•õ We proposed an evaluation method based on multiple correct answer summaries. Conventional evaluation methods had reliability problem due to adopting single mod- el answer while multiple correct answer summaries may exist from various points of view.We aimed to increase the reliability of automatic evaluation,and focused on an evaluation method using multiple answer summaries.In our method,we introduced linear combinations of answer summaries,all denoted by vectors,and calculated its maximum value of the scalar product for the answers and the target summary.To verify the reliability of our method,7 people created summaries for 4 newspaper articles in NTCIR-2 summarization test collection data.However,low agreement among these answer summaries showed these data inadequate to be used as answers for the evaluation method.These summaries showed some tendency of keeping the text configurations due to anaphoric relations and sentence cohesions.Those findings will be valuable in creating model summaries.To verify the feasibility of the eval- uation method,some automatic methods were evaluated using the multiple correct summaries.Most feasible method was varied according to each correct summary. The result has proved our presupposed theory,that multiple correct answers were 33

Evaluating Text Summarization

  • Upload
    others

  • View
    13

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Evaluating Text Summarization

テ キス ト要 約 の複 数 の正 解 に基 づ いた評価

石 川 開† 安 藤 真 一† 奥 村 明 俊†

本稿では,要 約手法 として複数の正解に基づ く評価法の提案 を行なった.従 来のテキ

ス ト要約の評価方法では唯一の正解 を用 いるが,テ キス トによっては観点の異 なる正

しい要約が複数存在す る場合 もあ り,評 価の信頼性が保証 されないとい う問題があっ

た.我 々は,自 動評価 の信頼性 を高めるため,特 に重要文抽出法 に焦点を当てて複数

の正解 に基づ く評価方法 を検討 した.提 案手法では,複 数の正解 と評価対象の要約を

共 にベク トルで表現 し,複 数 の正解の線形結合 と評価対象の要約 との内積の最大値 を

評価値 とする.提 案手法の検証のため に,NTCIR-2要 約データ中の4記 事 に対 して,

要約者7名 で要約の作成 を行 なった.正 解の要約 問の一致度 に基づ く品質評価の結果,

提案手法の評価の正解 として用いるのに十分な品質が得 られなかったが,要 約 の比較

から,照 応 関係,結 束性等,元 テキス ト中の構造を損 なわないように要約する共通の

法則性が見 出され,今 後要約の正解 を作成する上で有用 な知見 を得 た.提 案手法の有

効性 を検証す る予備実験 として,異 なる幾つかの 自動要約手法 と複数正解 との一致度

に基づ く評価 を行 なった.正 解 ごとに評価の高い自動要約手法が異 なる とい う傾向が

見 られ,複 数の正解 を用いることで評価対象の要約 との相性 によらない評価結果 を得

るという提案手法の前提 を裏付 ける結果 を得た.

キー ワ ー ド:テ キス ト要 約,評 価 手 法,複 数 の正解,信 頼 性,一 致度

Evaluating Text SummarizationUsing Multiple Correct Answer Summaries

KAI ISHIKAWA•õ,SHINICHI ANDO•õand AKITOSHI OKUMURA•õ

We proposed an evaluation method based on multiple correct answer summaries.

Conventional evaluation methods had reliability problem due to adopting single mod-el answer while multiple correct answer summaries may exist from various points of

view.We aimed to increase the reliability of automatic evaluation,and focused on anevaluation method using multiple answer summaries.In our method,we introduced

linear combinations of answer summaries,all denoted by vectors,and calculated its

maximum value of the scalar product for the answers and the target summary.Toverify the reliability of our method,7 people created summaries for 4 newspaper

articles in NTCIR-2 summarization test collection data.However,low agreement

among these answer summaries showed these data inadequate to be used as answersfor the evaluation method.These summaries showed some tendency of keeping the

text configurations due to anaphoric relations and sentence cohesions.Those findings

will be valuable in creating model summaries.To verify the feasibility of the eval-uation method,some automatic methods were evaluated using the multiple correct

summaries.Most feasible method was varied according to each correct summary.

The result has proved our presupposed theory,that multiple correct answers were

33

Page 2: Evaluating Text Summarization

自然言語処理 Vol.9 No.4 July 2002

necessary to sufficiently evaluate the target summary data.

Key Words: text summarization, evaluation method,multiple correct answers,reliability,

agreement.

1 は じ め に

本稿では,テ キス ト要約の 自動評価手法について述べ る.テ キス ト自動要約 に関す る研 究

は,テ キス ト中の表層 的な情報か ら重要 な箇所 を判断 し重要な部分のみ を抽 出す るLuhn等,

Edmundson等 の研究(Luhn 1958;Edmundson 1969)に 始 ま り,現 在 も様々な方法が提案 され

ている(Paice 1990;Aone,Okurowski,and Gorlinsky 1998).こ こ数年はインターネットの急速

な普及 に伴 って,国 内外での研究活動が非常 に活発 になっている(奥 村,難 波1999;Maniand

May bury 1999).

テキス ト要約 の研究 において,評 価の重要性 は言 うまで もない.最 も信頼性が高いのは要

約の経験者が直接 要約 を見 て評価す る方法であるが,コ ス トが非常 に大 きい とい うデメリッ ト

がある.こ のため より低 コス トで効率の良い方法 として,要 約の経験者 によって作成 された要

約 を正解 とし,正 解 との一致度 を機械的に評価す る方法が一般によ く用い られる.し か し,要

約は観点や戦略 などの違いから,同 じテキス トに対 して も複数の要約者か ら得 られる結果 は多

様であることが知 られている(Rath,Resnick,and Savage 1961;Jones and Galliers 1996;Jing,

Barzilay,McKeown,and Elhadad 1998;斎 藤,中 川2001).要 約 タス クにおいて唯一の理想的

な要約が存在す る とい う前提 は現実 には成 り立たず,そ れゆえ唯一の正解 に基づ く評価で は,

対象の評価結果が正解 との相性 に影響 され易い という問題がある.

本稿では,こ の ような従来法の問題点 を踏まえ,複 数の正解 に基づ く信頼性の高い評価法の

提案を行 なう.さ らに,正 解 として用いる要約集合の満たすべ き条件について,要 約の品質 と網

羅性の観点か ら検討を試みる.提 案手法は重要文抽 出結果を評価す ることを前提 に定式化 され

ているが,手 法の基本 的アイデアや検討内容の多 くはテキス ト要約一般 に共通す るものである.

2 唯一の理想的な要約 を正解 とする評価法の問題

まず,要 約 の自動評価 に関す る従来方法について検討する.従 来の評価方法 としては,各 テ

キス トごとに人間が唯一の理想的な要約 を作成 し,こ れを正解 とする方法が一般的である.要 約

システムの出力の妥当性 を測る尺度は,正 解か らの単語や文字 に基づ く編集距離,単 語ベ ク ト

ルの内積,抽 出単位(文,文 節 など)の 適合率,再 現率,F値 などが タスクに応 じて用い られて

いる.テ キス ト要約のコンテス トであるNTCIR-2TSC(Fukusima and Okumura 2001)で は,

重要文抽出 タスクの評価 において,抽 出文 に関する再現率R(=要 約中の正解文数/要 約 中の

†NECマ ル チ メ デ ィ ア研 究 所,Multimedia Research Laboratories,NEC CorporatiOn

34

Page 3: Evaluating Text Summarization

石 川,安 藤,奥 村 テキス ト要約の複数の正解 に基づいた評価

表1 評価セットの性質

文数)と 適合率P(=要 約の正解文数/正 解要約の文数)に 基づ く次のようなF値 を用いている.

F= 2・R・P

/ R+P (1)

この重要文抽 出タス クでは,毎 日新聞記事 データ1中 の30記 事か らなる評価セ ッ トが用 い

られた.各 記事 データはヘ ッ ドライン,文,パ ラグラフの タグを含み,専 門家が作成 した要

約率10%,30%,50%で の重要文抽出結果が正解 として与え られてい る.こ の評価セ ッ トの一一

記事 の平均 文数)Nは33.1で あ り,各 タス クに対する実際の要約率の平均値p,抽 出文数の平

均値 π,無 作為 な文抽 出によって得 られる要約のF値 の期待値E(FRandom),お よび標準偏差

σ(FRandom)は 表1に 示す通 りである.

ここで,表 中のF値 の期待値,分 散 は理論値であ り,次 の計算 により求めた.ま ずN文 か

らなるテキス トに対 し,要 約率p(0<p<1)で の重要文抽出の正解,す なわちPVp(正 の整数)

文の重要文が与 えられている.同 じテキス トか らn文 の無作為抽出により要約 を作成 した場合,

その中に含 まれ る正解文の数kは,超 幾何分布HC(n,P;N)に 従 う.正 解 と同 じ文数n=Np

を無作為 に抽出する場合,F値(F=k/n)の 期待値E(P)と 分散V(P)はkに 関す る確率分布

f(kln,P,N)を 用いて次 の ように表 される.表1に 示 した無作為 な文抽 出によるF値 の期待値

E(F)と 標準偏差 σ(FRandom)2の 値 は,こ れ らの関係式 にN,n,Pを 適用 して求めた.

(2)

さて,図1にNTCIR-2TSCの 重要文抽出タスクでの この評価セ ットにおける各参加 システ

ムの評価結果を示す(Fukusima and Okumura 2001).こ こで縦軸 はF値 を表 し,横 軸上のシ

ステム1~10お よびLEAD,TFは,そ れぞれ タスクにおける各参加 システム,お よびベース

ラインシステムの結果 を表す.3種 類ある棒 グラフは凡例が示す ように,そ れぞれ要約率10%,

30%,50%で の結果 を表 している.

特 に要約率50%で の各参加 システムのF値 に注目すると,各 値 は0.58を 中心に差が0.05以

1毎 日新 聞全 文記 事 デ ー タベ ー スCD-毎 日新 聞94年 版,98年 版(毎 日新 聞社 提供)

2標 準偏 差 は関係 式 σ(FRandom)=√V(FRandom)に 基 づ く.

35

Page 4: Evaluating Text Summarization

自然言語処理 Vol.9 No.4 July 2002

図1 評価 セ ッ トに おけ る各 参加 シス テム のF値

内 と,分 散 の小 さな分布 になってい る.こ の値 は,先 程の表1中 の無作為な文抽 出によるF値

の分布0.536±0.086に 非常 に近いため,こ の結果 に基づ く各 システムの性能比較 は信頼性が低

いと考 えられる.一 方,要 約率10%,30%で の各システムの結果は ,ラ ンダムな文抽出による

分布 を明 らか に上回ってお り,各 システムの性能差が評価に現れている.

これ らの評価結果 を解釈す る上で,評 価の方法 自体 の信頼性 について も検討する必要があ

る.上 記のF値 による評価結果が十分信頼で きる場合,要 約率50%で はいずれのシステム も性

能が低いため,有 意 な要約結果が得 られていない という解釈になる.し か し,評 価方法 自体の

信頼性 を疑 うとい う観点に立てば,上 記の評価結果で各評価 システムの評価が同様 に低 く有意

な差が現れていないのは,要 約を機械的 に評価する上での本質的な困難が顕現 しているため と

見ることもできる.

要約 タスクか らテキス トの主題 に関する理解や要約の観点 といった主観的な要素を排 除する

ことは不可能であ り,テ キス トの要約 において唯一の理想的な正解が存在す るという前提は現

実的 とは言えない.こ の点 において,唯 一の正解に基づ く評価方法では,評 価結果が正解 と評

価対象の相性 によって左右 されるという問題が懸念 される.す なわち,正 解 との類似性 に基づ

く評価であるために,正 解 と要約の観点や戦略が一致 していなければ有意な評価結果が得 られ

ない とい う問題である.こ の問題 は,特 に抽出文の組み合わせ数が最大 となる要約率50%で は,

異なる観点や戦略 に基づ く多様な要約が可能 なため より顕著 に現れる と予想 される.

36

Page 5: Evaluating Text Summarization

石 川,安 藤,奥 村 テキス ト要約の複数の正解に基づいた評価

図2 重要文抽出の評価の仕組み(概念図)

3複 数 の 正 解 に 基 づ く 評 価 手 法

3.1従 来 の 評 価 の仕 組 み と問 題 点

ここでは,ま ず重要文抽 出における従来の評価方法の仕組み と問題点 について,定 性 的な議

論 を行 なう.以 降では図2に 示す ような概念図 を用 いる.図 中の水平方向の広が りはN文 のテ

キス トか らのn文 の抽出 によって得 られる可能な要約の集合 を表 し,こ の広が り上の各点は要

約集合中の各要約を表 している.ま た説明の便宜上,要 約集合の広が り上の2点 が近いほ ど,2

つの要約問の類似度は高いもの とする.

要約集合の広が り上の各点 に対 して理想的な評価 を行い,そ の結果 を数値で表現 できると仮

定する.こ れ を,要 約の妥当性の高 さと呼ぶ ことに し,こ の数値 を縦軸に取 って要約集合の各

点 をプロッ トする.す ると,各 点 を結ぶ ことによって図中に示す ような妥当性 の高 さが表現 さ

れた面が出来 る.こ れ を妥当性の表面 と呼ぶ ことにする.あ るテキス トに対 して適切 な要約を

求めるとい う問題 は,こ の概念図 においては妥当性の表面上において十分高い点 を探す問題 に

置 き換えて考 えることが出来る.例 えば図2中 では,最 適な要約は要約Aと 要約Bで ある.こ

こでは両者の間に距離があるため,要 約Aと 要約Bは ある程度異なった要約であ りなが ら,と

もに適切 な要約であると理解できる.

あるテキス トに対 して,適 切 な要約が何通 りか存在することは珍 しくない.こ のような場合

は,概 念図では妥当性 の表面が複数の点において高い値 を持つ場合で考 えることがで きる.こ

の ような状況において,要 約の正解 を一意 に絞 ることによって生 じる評価の問題 について ,図

3を 用いて検討する.

37

Page 6: Evaluating Text Summarization

自然言語処理 Vol.9 No.4 July 2002

(a)

(b)

図3 唯一の正解に基づく評価の問題(概 念図)

図3中 の(a)と(b)で は共 に,同 じテキス トに対 して作成 された二つの要約結果,要 約1と

要約2を 示 している.要 約1と 要約2の 評価 を行 なう際,用 いられる正解の違いによって評価

結果 にどのような違いが生 じるかを,(a)と(b)の 比較 によって検討す る.こ の図では,(a)の

正解 は要約1に より近 く,(b)の 正解 は要約2に より近い.正 解 との類似度 に基づ く評価では,

正解 によ り近い要約の方が よ り高い評価 を得 るので,(a)の 場合 には要約1が よ り評価が高 く,

(b)の 場合 には要約2が より評価が高 くなる.以 上の議論から,要 約の多様性 によって適切な要

約が複数存在す る場合 には,用 いられる正解 との相性 によって評価結果が左右 され るとい う問

題が生 じることが分かる.

この問題 を改善するために,複 数の正解 を用いる評価方法を検討する.正 解 とする要約 を複

数用意 し,評 価対象に最 も近い正解 を用いて評価することで,正 解 と評価対象 との相性 の問題

は緩和 される.こ こでは複数要約を正解 として用いる効果 とともに,用 いる複数要約の数や品

質 と評価の信頼度 との関係について,図4に 基づいて検討を行 なう.

図の(a),(b)は 共 に,あ るテキス トに対す る二つの要約,要 約1と 要約2を 評価する場合 を

示 している.両 者の妥当性 の値は要約1は 十分高いが,要 約2は これに比べて低い とい う状態

を示 している.(a)で は,要 約1の 方が要約2に 比べ てより近 くに正解が存在する.評 価対象 に

38

Page 7: Evaluating Text Summarization

石 川,安 藤,奥 村 テキス ト要約の複数の正解に基づいた評価

(a)

(b)

図4 複数の正解に基づく要約評価の利点(概念図)

最 も近い正解 を用いて類似度で評価 を行な うことにより,要 約1が 要約2に 比べ てより高い評

価 を得る.こ の結果は,本 来の両者の妥当性の高 さの関係 を適切に反映 してい る.一 方,(b)の

場合,要 約1と 要約2は 共に近傍 に正解 を持 つため,両 者は同様 に高い評価 とな り,両 者の本

来の妥当性の差が評価 に現れない.

この(a)と(b)の 違いは,正 解 とす る複数の要約集合の違いにあ る.(a)で 正解に用いてい

る要約集合は妥当性が十分 に高いのに対 し,(b)で 用 いている要約集合では妥当性の低い ものが

混在 している.以 上の議論 か ら,正 解に用いる要約集合 は,(1)要 約の品質が十分に高いこと,

お よび(2)要 約 タスクにおける理想的な要約 を網羅 していることが信頼性 の高い評価を行 なう

上での必要条件 となることが分かる.

3.2 複 数 の 正 解 に基 づ く評 価 方 法

ここで,複 数の正解に基づ く評価方法の具体的な定式化について述べる.こ こでは,N文 か

らなるテキス トか らn文 の重要文抽出 によ り作成 される要約の評価 を考える.ま ず文抽出 によ

る要約結果の表現 として,ベ ク トル表記を導入する.こ こで,N文 のテキス トか らn文 を抽 出

して得 られる要約結果を長 さ1のN次 元ベ ク トルvに よって表現する.ベ ク トルの第i成 分 に

39

Page 8: Evaluating Text Summarization

自然言語処理 Vol.9 No.4 July 2002

は,テ キス ト中の第i文 が要約 に抽出 されている場合 は1/√n,抽 出されていない場合は0の 値

を与 える.例 えば,5文 か らなるテキス トの第1,3文 を抽 出 して得 られる要約のベク トル表現

はv=1/√2(1,0,1,0,0)と なる.

まず,評 価 に正解 を一つ用 いる場合を考える.こ こで正解 と評価対象の要約の抽出文数は同

じとする.正 解のベク トル表現VAn、 と評価対象のベク トル表現VObjを 用いる と,F値 は両者

のベ ク トルの内積 によって得 られる.

F値=Sim(VAns,VObj)=VAns・VObj (3)

このF値 を,複 数の正解を用いた評価尺度に拡張する.次 式のような評価対象の要約と複数

の正解との内積の最大値を複数の正解に基づ く評価尺度として提案する.

F値=maxi=1,...,k[VAns・VObj] (4)

この評価尺度 は最終的に正解 を一つ選択 して評価 を行な うものであるが,複 数正解 において

網羅 性が不足 している場合には,評 価対象 を評価するための適切 な正解が存在 しないために適

切 な評価結果が得 られない とい った問題が生 じる.そ こでさらに,網 羅 性の不足 に対す る頑健

性 を向上す るために,式4の 尺度の拡張 を試みる.ま ず正解 を複数要約の単純 な集合か ら,各

要約 を基底 として張 られる部分空間へ と拡張する.具 体的には次 のような疑似 的な線形性3を 導

入す る.す なわち,k個 の正解の集合VAns1'...,VAnskが 与え られた場合,こ れ らの線形結合

であるベク トルVAn。(α1,...,αk)も 同様 に正解の一つ と見 なす.

(5)

た だ し, (ai≧0) (6)

網羅性の不足に対する頑健性が改善された複数の正解に基づ くF値 を以下のように提案する.

F値=maxα1,…,αk[VAn8(a1,…,ak)・Vobj] (7)

こ こで 結 合 係 数 α1,...,αkは,複 数 正 解 の 結 合 ベ ク トルVAnm(α1,…,αk)と 評 価 対 象Vobj

との 内 積 を最 大 化 す る よ う に決 定 す る.

3こ こで仮定する線形結合によるベク トルは,要 素に0,1以 外の値 を持つ場合は対応す る要約が実在 しないので このよ

うに呼ぶ

40

Page 9: Evaluating Text Summarization

石川,安 藤,奥 村 テキス ト要約の複数の正解に基づいた評価

3.3 正 解 に用 い る要 約 集 合 の 作 成 方 法

ここでは,前 節の類似度に基づ く評価の妥当性 を保証す るために,正 解に用いる要約集合の

満 たすべ き条件 について検討する.提 案手法による評価の妥当性が保証 されるためには,正 解

とす る要約集合にいて,(1)網 羅性 に関する条件,す なわち要約 タスクにお ける可能 な要約 を

網羅 してい ること,お よび(2)品 質 に関する条件,す なわち正解 として用いるのに十分 な品質

であること,の 二つが同時に満足 される必要がある.こ れ らは,任 意の文抽出によって可能な

全ての要約集合か ら,要 約 タスクに対する理想的な要約集合 を抽出する際のPrecisionとRecall

であると言い換 えることもで きる.

(1)網 羅性 に関する条件

まず,要 約者の作成する要約が(2)品 質に関する条件 を十分に満足 している とい う状況 を仮

定 して考 えてみる.こ の場合,(1)の 網羅性に関する条件 を満たすためには,要 約者の人数 を

増 やす などして,可 能な要約のバ リエーションを尽 くし切れば よい.正 解の品質 を高 く保 ちな

が ら,同 じ記事 に対 して作成する要約の数 を増や してい くと,正 解集合のバ リエーシ ョンの数

もそれに従 い増加 して行 くが,要 約 タスクにおける理想 的な要約集合が尽 くされてい く過程で

徐々に飽和 してい くと予想 される.理 想的な要約集合が尽 くされたか どうかを知 るには,要 約

集合の数 を増や して行 く過程で,新 たに加え られる要約 とすでに存在す る要約集合 との一致度

の最大値が飽和 したか どうかを見 れば良い.

要約間の一致度の尺度 として,こ こでは κ係数(Carletta 1996)を 用いる.こ の他の尺度 とし

ては,Marcu等 の研究(Marcu 1997)で 用い られているPercent Agreement(Gale,Church,and

Yarowsky 1992)や,Cochran's Q Summary Statistic(Cochran 1950)な どがあるが,κ 係数は

無作為な文抽出に よって作成 された二つの要約 に対 して0,完 全 に一致 した要約に対 して1を

与 えるので飽和の程度 を知るの に適 している.こ こで κ係数の導入 を行 なう.N文 のテキス ト

か らn文 を抽出す る要約 タスクにおいて,k個 の正解の集合VAns、,…,VAnskが ある時,こ の

中の2つ の要約VAnsiとVAnsjの 間の類似度 は次の ようになる.

Sim(VAnsi,VAnsj)=VAnsi・VAnsj (8)

この類似度か ら2つ の要約中の抽出文の偶然一致 によって生 じる要約問の類似度SimRandom

を差 し引 く.こ の値 はn文 の無作為抽 出によって作成 される2つ の要約間の類似度 の期待値 を

計算すれば よい.無 作為抽出で作成された要約間で偶然 に一致する抽出文数kの 確率分布 は超

幾何分布EG(n,P;N)に 従 うので,期 待値Sim Randomはkに 関する確率分布f(k|n,P,N)を 用

いて次の ように求めることがで きる.

41

Page 10: Evaluating Text Summarization

自然言語処理 Vol.9 No.4 July 2002

(9)

κ係 数(Carletta 1996)は,こ の2つ の 要 約VAnsiとVAnsjに 対 して 次 の よ う に計 算 で き る.

(10)

κ係数は,2つ の要約が完全 に一致する場合 は1を 与え,2つ の要約が抽出文の偶然の一致

を除いて一致 しない場合は0を 与える.KripPendorff等 の研究(KripPendorff 1980)か ら,判 断

が 一致 していると結論するための基準値 は0.7以 上 であることが知 られてい る.こ の基準 に基

づ くと,既 に作成 された要約集合VAns1…VAns nに,新 たな要約VAnsn+1を 加え,要 約集合の

要素数nが 増加 してい く過程 において,要 約集合における網羅性が十分であると判断できるの

はnを 増 や しても以下の基準が常に満たされ,異 なりが飽和 している場合 と言 うことがで きる.

Maxi=1…nκ(VAnsi,VAnsn+1)>0.7 (11)

この条件 を50文 の文書に対 して要約率p=0.3で 要約集合 を作成する場合 にあてはめると,

新たに要約 を加 える過程で要約集合の中で最 も類似 した要約 との抽出文の異な りが常に3文(抽

出文の20%)以 下になった時に網羅性の高い要約集合が得 られたというこ とになる.

(2) 品質に関する条件

品質の条件 を満 たすためには,要 約作成の経験 を積んだ専 門家 など,高 いスキルを持つ要約

者 に要約を作成 させれば よい.し か しなが ら,(1)網 羅性 に関する条件 を同時 に満たす ことを

考慮する と,専 門家 を多人数使 って要約の異な りを尽 くし切 るような方法 はあま りに もコス ト

が膨大で現実的 とは言 えない.し たが って実際に評価 を行 なう上で要約集合の網羅 性と品質の

条件 をどの程度優先 して作成す るか という問題 も検討する必要がある.

対象 とするテキス トが例 えば新聞記事のように,ヘ ッドライン,パ ラグラフ構造 などの要約

作成の指針 となるような情報を多 く含 んでいた り,テ キス ト中の文数や要約の抽出文数が少 な

いような場合は,理 想的 な要約 を作成する上での自由度 も小 さ くなると期待 される.こ の よう

に作成 される要約の多様性が比較的小 さくなると予想 される場合,要 約スキルの高い作成者 に

よって,あ る程度の網羅性 を満たす要約集合 を作成するという方法が良い と思 われる.し か し,

要約 を作成す る上での 自由度が高 く評価対象の多様性が大 きい と期待 される場合や,評 価対象

の要約の品質が低 くそれほど品質の高い正解 を基準 とす る必要がない場合,要 約の品質の高 さ

はそれほ ど高 くな くて も網羅性が保証 された要約集合 を用いるほ うが より有意な評価結果が得

られる とい う考 え方 もで きる.

42

Page 11: Evaluating Text Summarization

石 川,安 藤,奥 村 テキス ト要約の複数の正解 に基づいた評価

後者のような大規模 な要約集合 を作成 した例 として,斎 藤等による人間による要約文の多様

性 の研究(斎 藤,中 川2001)が 挙げ られる.こ の実験では,朝 日新聞のコラム 「天声人語」の原

文か ら140名 の学生 によって20%と30%の 要約率でそれぞれ70の 要約文 を作成 し,原 文か ら

要約文への文節単位 での取 り込み傾向 を分析 している.そ の結果文節 はその取 り込み率によっ

て,取 り込 まれる傾向の もの,取 り込まれない傾向のもの,そ のいずれにも属 さないものへ と

分類 され,6割 以上の要約者が取 り込んでい る文節集合(コ ア)を 並べる と,ほ ぼ意味が通 じる

要約文が完成す るという結果 を得 ている.こ の結果で興味深いのは,そ れほ ど品質の高 さが高

くない と予想 され る要約集合か らも,多 くの要約者 に共通 して重要 と判定 される部分(コ ア),

共通 して重要でない と判断 され る部分,そ れ以外 を分離することが可能で,か つ コアの部分 の

要約の品質が元の要約集合 に比べ て高い とい う点である.

このことか ら,品 質 は高 くないが大規模な要約集合が作成可能 な場合,ま ず網羅性の高 い大規

模 な要約集合 を作成 し,そ の中か ら品質 が比較的保証 されるような部分集合 を切 り出す とい っ

た方法が現実的であると思われる.コ アおよびその周辺の文 を多 く含 む一致度の高い要約の抽

出は,要 約集合の全要約対の間の一致度 に基づいて階層的 クラスタ分析 などの方法 を適用す る

方法で実施で きると思 われる.例 えば,κ 係数の値 の大 きな要約対か ら順次,群 平均 法な どの

階層的クラス タ分析 を適用 して階層構造 を作成 し,こ れ をKrippendorffの 基準(κ>0.7)に 基

づいて全体の階層構造か ら一致度の高い要約の部分集合 を抽出する.こ の部分集合 を正解 の要

約集合 に用いる際 に,部 分集合 を全 て用いるのではな く,含 まれる要約数の大 きい ものだけを

正解集合 に取 り込む ようにすれば,正 解集合はよ りコアに近い文 を多 く含んだ要約のみが残 る

ため,網 羅性に比べて より品質が重視 された集合が得 られる.

4 提 案 評 価 手 法 の 予 備 実 験

4.1 作 成 した正 解 要 約 集 合 の 品 質

提案手法の検証のために,要 約 タスクにおいて複数要約の作成を試みた.こ こでは,NTCIR-2

TSCの 重要文抽出 タスク(Fukusima and okumura 2001)に お ける評価セ ッ ト430記 事 中の4

記事980503045,980505037,940701176,940701189を 選 び(1テ キス トあた りの平均文数は

40.8),評 価セ ットに付 いている専門家による正解に加え,新 たに要約者7名 によって要約 を作

成 した.要 約 は評価 セ ットの全要約率10%,30%,50%に ついて行 なった.な お,要 約者 は理

系大学の卒業生で,要 約 に関連す る特別 な技術 を持たない非専門家である.

これらの要約者によって作成 された4記 事 に対する要約の品質 と網羅 性について検討するた

めに,評 価セ ッ トの正解(専 門家による要約)と 非専門家7名 による要約間の κ係数 を求め,表

4毎 日新聞社新聞記事 デー タよ り作成 された要約 デー タ(国立情報学研究所提供)

43

Page 12: Evaluating Text Summarization

自然言語処理 Vol.9 No.4 July 2002

表2 各 要約 対 の κ係数 の値(評 価 セ ッ ト全4記 事,要 約率10%,30%,50%の 平均 値)

2に示 した.Eは 専門家による要約結果,N1~N7は それぞれ7名 の非専門家 による要約 を表す.

表中の各値 は,新 聞記事4記 事 に対 し要約率p=0.1,0.3,0.5で 作成 されたそれぞれ(計12)の

要約の κの平均値である.ま た,,平均',は,各 評価者 とそれ以外の要約者7名 との問の κ係数の

平均値 を示 している.

すべ ての κ係数の値が正であることは,全 要約者の問に有意 な一致が見 られることを示 して

いる.特 に専門家 と他 の要約者 との値が最 も高い .こ れは専門家 による要約結果が非専 門家に

よる要約結果のコア(要 約者 によって共通 して抽出されている文集合)を よ り多 く含 んでいるこ

とを示 してい る.こ の ことは専 門家による要約が非専門家の要約に比べて品質が高いこ とに起

因 している と理解 される.品 質の高い要約 はコアを含んだ理想的な要約集合 における抽出文 か

ら構成 されるが,品 質の低い要約では理想的 な要約集合 には含 まれない文 も混在す るため,結

果 として品質の低い要約 に比べ ると品質の高い要約の方が より多 くコアを含む と考え られるか

らである.

この要約集合 における値 をSalton等 が報告 している2人 の要約者による50の 文書の要約結

果(Salton,Singhal,Mitra,and Buckley 1997)と 比較 してみる.こ の結果では,2人 の要約者

による要約の間の重な りは45.81%,Randomに よるベースラインは39.16%で あ り,Salton等

は得 られた一致度が驚 くほど低い と分析 している.要 約の対象は百科辞典のテキス トであ り要

約率はお よそ40%,要 約者のスキルについては情報が な く,実 験条件が異 なるので単純に比較

するには問題があるが,κ に換算する と0.1093で あ り我々の作成 した要約の値 より低い値 であ

ることが分 かる.

また作成 された要約集合は,κ 係数の平均値がいずれ もKrippendorff等 による基準 を下回っ

ているこ とか ら,非 専 門家による要約の品質の問題だけでな く網羅性の不足 も懸念 される.さ

らに詳細 に要約集合の網羅性 を検)討するため,評 価セ ット中の記事940701176に 対 して30%と

50%の 要約率で作成 された要約結果 を具体例 として取 り上げ検討す る.

表3 は要約率30%で の要約結果 に対する値 を示 している.表2で の平均 の値 と異 なり,各 要

44

Page 13: Evaluating Text Summarization

石 川,安 藤,奥 村 テキス ト要約の複数の正解に基づいた評価

表3 各 要約対 の κ係 数 の値(評 価 セ ッ ト:940701176,要 約率:30%)

表4 各 要約 対 の κ係 数の値(評 価 セ ッ ト:940701176,要 約 率:50%)

約 問の一致度の差が より明確 に現 れていることが分 かる.こ の中で,要 約対(E,N5)と(N2,

N5)は 基準値である0.7を 越えていることか ら,要 約E,N2,N5は この集合のコアを構成 して

いると考 えられ る.

しか し要約集合全体では,要 約Eに 対 して,要 約N1,N2,と 順次要約 を追加 して行 く過程

での κ係数の最大値の推移 を見ると,0.30,0.54,0.30,-0.16,0.76,0.30,0.54,と い うよう

に式11の 基準 を下回る低い値 で振動 してい ることが分かる.こ の ことか ら,こ こで作成 された

要約集合は,飽 和す るまでにまだかな り要約の数を増やす必要があることが分かる.表4は 要

約率50%で の要約結果 に対す る値 を示 しているが,全 体的な傾 向は要約率30%で の結果 と変わ

らない.た だ,要 約率50%で は,抽 出文の組み合わせの数が最大 となるため,要 約の可能性が

より多様 になる分,全 体的な κ係数の値 も低 くなっている.こ れに伴 って,飽 和す るまでに必

要な要約 の数 もさらに大 きくなると推測 される.

以上の議論か ら,作 成 された要約集合は専門家による要約 と非専門家 による要約 との間に品

質の差があ り,ま た要約集合の網羅 性を満たすためには要約 の数が不足 していることが結論出

来る.

45

Page 14: Evaluating Text Summarization

自然言語処理 Vol.9 No.4 July 2002

表5 評価 セ ッ ト中の記 事940701176に 対 す る要約 結果

4.2各 要 約 者 の 要 約 結 果 の 異 な り の検 討

ここでは,前 節で既に取 り上げた評価セ ット中の記事940701176に ついて,各 要約者の要約

結果が どのような箇所においてばらつ きが生 じているのか をさらに詳細 に検討する.記 事の本

文 を付録 に示 し,専 門家お よび非専門家 によって作成 された要約結果 を以下表5に 示す.各 行 は

記事 中の各文番号,列 は各要約率10%,30%,50%に おける専門家E,非 専門家1~7(既 出の

N1~N7に 対応)に よる要約 を示 し,そ れぞれの値が1で あれば重要文 として要約に含 まれ,0

であれば要約に含 まれないことを表 している.

まず,表5の 結果を見 ると,要 約率10%に おいて専 門家"E"は,重 要文 として第4,19文 を

選択 していることが分かる.一 方,非 専門家,'1~7,,の判断のうち過半数が一致 しているのは,第

1文 である(第1,17,19文 の3文 には3人 以上が集中).ま た,要 約率30%で は,専 門家が重要 と

判断 している第1,2,4,7,8,19文 の6文 に対 し,非 専門家の過半数が一致 しているのは第1,4,17,19

文 の4文 である.要 約率50%で は,専 門家が重要 と判 断 している第1,2,4,6,7,8,13,14,17,18,19

文の11文 に対 して,非 専門家の過半数が一致 しているのは第1,4,5,6,10,11,12,13,14,15,17,18,19

文の13文 である.こ れらの結果か ら,非 専門家の多数が重要 と判断 している文は,専 門家の判

断によ く一致 していることが分 かる.

さらに各要約結果の中身 を詳細 に検討すると,要 約者が重要文を決定する際に,テ キス ト中

での文の重要性 と同時 に,文 間の結束性 も考慮 されていることが分かる.強 い結束関係 によっ

て結 ばれた2文 の一方のみを重要文 として抽出 して も,要 約 において意味が正 しく伝わ らない

場合が生 じるためである思 われる.同 記事中に存在す る文 間の結束性 のうち,指 示,代 用,省

46

Page 15: Evaluating Text Summarization

石川,安 藤,奥 村 テキス ト要約の複数の正解に基づいた評価

略に相当す ると思われるものを以下に挙げる.

省略1第1文:"ダ ウレット.ト ルリハ ノブさんは,,←{第2,3,4,5,6,8文,ヘ ッ ドライン}

省略2第1文:"カ ザフス タン"← 第4文:"独 立",第6文:"最 高会議議員"

省略3第2文:"レ ス リング"← 第3文:"チ ャンピオン"

省略4第2文:"五 輪"← 第4文:"メ ダリス ト"

省略5第12文:"カ ザ フス タンは"← 第13文

指示1第4文:"褒 賞金"← ヘ ッドライン:"褒 賞金"

指示2第4文:"実 業界"← ヘ ッドライン:"実 業界"

指示3第5文:"ス ポーッジム"← 第9文:"ス ポーッジム"

指示4第7文:"カ ザフス タンの レス リング"← 第8文:"そ れ"

指示5第11文:"「 奨学金」"← 第14文:"奨 学金"

指示6第13文:"給 与生活者"← 第14文:"そ の"

代用1第7文:"広 島アジア大会"← 第19文:"広 島",第20文:"ア ジア大会"

代用2第10文:"有 望選手六十五人"← 第15文:"選 手"

例 えばテキス ト中の第2,3,4,5,6,8文 お よびヘ ッドラインにおいては,"ダ ウレット.ト ル リ

ハ ノブさんは"と いう主語が,第1文 中において既出であるため省略 され,省 略の関係 にある.

また,第8文 の"そ れ"は,第7文 の"カ ザ フスタンの レス リング"を 指 してお り,指 示 の関係 に

あると思われる.

表5の10%の 要約結果 を結束性 に基づいて考慮すれば,非 専門家',1~7"の 判断が第1文 に集

中 したのは,第1文 とそれ以降の文 との問で,結 束関係が多数結ばれていたためと考 えられる.

専 門家による要約では,第4,19文 が選択 されているが,第4文 自身は,ヘ ッ ドラインとの結束

性が高いため,重 要性が高い と考えられる.こ の場合 も,"ド ル リハ ノブ"と"カ ザ フスタン"が

第19文 に含 まれてお り,第4文 との問での結束性が保存 される組合せ となっている.

ここで,表5の 要約率30%に おいて,専 門家 と非専 門家の過半数が重要 と判断 している第

1,2,4,7,8,17,19文 の7文 に注目 して検討 を行 うことにす る.第(1~20)文 を文脈的なまとまりで

分 けると,(7~15),(16~17),(18~20)の3つ の部分 に分割す ることが出来る.そ れぞれの部

分 に閉 じた結束関係 は,ま ず最初の部分(1~6)に ついては,,省略1","省 略2","省 略3",,,省

略4","指 示1","指 示2"で ある.こ れ らの結束性 をなるべ く保存 しなが ら文抽出 を行 うとす

る と,第1文,第2文,第4文 の順 に抽 出す ることにな り(ヘ ッドラインを重視すれ ば第4文

はよ り優先 される)要 約率30%に おいて第1,2,4文 が重要文 と評価 された結果 と矛盾 しない.同

様 に(7~15)の 部分 における結束関係 は"省 略5","指 示4","指 示5","指 示6"で あるが,第

7,8文 を抽出 している結果はこの うち,,指示4,,の 結束関係 を保存 し,構 造 全体においても以降に

続 く文の展開の起点 となっているため妥当である と考 えられる.さ らに修辞構造 もまた同様 に,

要約結果 を大 きく決定づける要因である と考えられる(Marcu 1997).

47

Page 16: Evaluating Text Summarization

自然言語処理 Vol.9 No.4 July 2002

このように,複 数要約者が要約作成する際,観 点の違いによって要約結果の違いを生 じるこ

とはあっても,結 束性,照 応 関係,修 辞構造な どの要約の対象である元テキス トが持っている

構造 をなるべ く保存するような原則が働いてい るもの と考 えられる.こ のことは,今 後 よ り品

質の高い要約の正解 を作成する上で有用 な知見であると思われる.

4.3 自動 要 約 手 法 との 比 較

ここでは,要 約の戦略の異 なるい くつかの重要文抽出法 との比較 を行 なう.重 要文抽出法で

は,テ キス ト中の文の重要度を計算 し,重 要度の高い文か ら順 に要約率 に達するまで抽出す る.

この文の重要度の計算には,(1)キ ーワー ドの出現頻度,(2)文 位置,(3)ヘ ッドライ ン,(4)文 同

士の関係 に基づ くテキス ト構造,(5)手 がか り表現,(6)文 あるいは単語間の関係,(7)文 間の類

似性,な どのテキス ト中の情報が有用であることが知 られてお り(Paice 1990;奥 村,難 波1999),

現在 に至 るまでこれ らの情報 にもとつ く様 々な要約手法が検討 されて きた(Edmundson 1969;

Aoneetal.1998;野 畑,関 根,村 田,内 元,内 山,井 佐原2001;吉 見,奥 西,山 路,福 持1999;

内山,井 佐原2000).こ こでは,以 下に示すTF,TF+H,LEAD,Hyb(rid)1,Hyb(rid)2

の5つ の自動要約手法(Ishikawa,Ando,and Okumura 2001)を 用いて,こ れらの手法 による要

約結果 と,先 に作成 した複数の正解要約 との比較評価 を行 なう.

TFTF法.次 式 のIWTF(s)を 文 の重要度 に用いる.{t}∈sは 文8中 に出現す る単語集合,

f(t)は キーワー ドォの文書中における出現頻度 を表す.

IWTF(s)=Σf(t)

{t}∈s

TF+Hヘ ッ ドライン情 報 を考慮 したTF法,次 式のIWTF+H(8)を 文 の重要度 に用い る.

A=20を 用いる.

IWTF+H(5)= Σa(t)・f(t),

{t}∈s

a(t)= {Atが ヘ ッ ドライ ン中に出現

1そ れ以外

LEADLEAD法.記 事テキス トの先頭か ら文 の並 び順に要約率に達するまで文抽 出を行 う.

Hyb(rid)1TF+HとLEADを 組み合わせた手法.次 式のIWHyb(s,i)を 文 の重要度 に用い

る.iは 文sの テキス ト中での先頭か らの位置,IWTF+H(s)はTF十Hで 用いた文の

重要度 を表す.パ ラメー タは経験 的に求められた最適値A=20,B=10,N=3を 用

いる.

IWHyb(s,i)=β(i).IWTF+H(s), β(i)= {Bif1<i<N

1ifi>N

Hyb(rid)2 Hyb1と 同 じ11WHyb(s,i)を 文 の 重 要 度 に 用 い る.パ ラ メ ー タ にA=20,

B=100,N=3を 用 い る.Bが 十 分 大 きい の で,先 頭N文 を無 条 件 に 抽 出(LEAD法)

48

Page 17: Evaluating Text Summarization

石 川,安 藤,奥 村 テキス ト要約の複数の正解に基づいた評価

表6 複数の正解要約と自動要約手法による要約結果のκ係数の値

した後 にTF+Hを 適用するの と同様 の効果 を持つ.

先 に複数の要約正解 を作成 したNTCIR-2要 約 データ中の4記 事に対 し,以 上の5つ の自動

要約手法TF,TF+H,LEAD,Hyb1,Hyb2を 適用 し,要 約結果を作成 した.こ れ らの自

動要約手法に よる要約結果 と,複 数の正解要約 との間の一致度 を κ係数の値 として求め,表6

に示 した.こ こでは要約間の一致度の相対的な異な りを議論するために,偶 然 による一致度が

除かれる κ係数の値 を示 しているが,太 字で示 した最大値 は本質的 に,先 に提案 した複数の正

解 に基づ くF値(4式)に 相当する ものである.表 中で,Eは 専門家 による正解要約,N1~N7は

それぞれ7名 の非専門家 による正解要約,TF,TF+H,LEAD,Hyb1,Hyb2,は 自動要約手

法 を表す.各 κ係数の値は,新 聞記事4記 事 と3種 類の要約率P=0.1,0.3,0.5に 関す る平均値

を表 している.

表 を見 ると,一 致度の高 い自動要約手法は,正 解 ごとで異 なってい ることが分かる.正 解

要約E,N2,N4に 対 しては要約手法Hyb2,正 解要約N1,N5,N6,N7に 対 しては要約手法

LEAD,正 解要約N3に 対 しては要約手法TF+Hが 最 も高い値 となっている.こ れは,正 解要

約の作成 において,そ れぞれの要約者の観点や戦略が異 なるため と考えられる.と くに,正 解要

約N1,N5,N6,N7を 作成 した要約者達 はテキス トの先頭数文 を重要文 として抽出するLEAD

法 と類似 した戦略 をとっているが,正 解要約N2,N3,N4を 作成 した要約者達 は全 くそのよう

な戦略 をとっていない ということが表か ら読み とれる.こ の結果 に見 られるような,要 約正解

の観点や戦略の違いなどによる相違は,提 案手法 において複数正解 を用いる上で期待 されてい

た ような傾 向であ り,正 解 の品質を十分に高め られた場合に,要 約結果 と正解の間の相性 によ

らず に適切 に評価出来 るとい う,提 案手法の目指す枠組が有効に機能することを示唆 している.

より品質の高い正解要約による提案手法の完全 な検証は今後の課題 である.

49

Page 18: Evaluating Text Summarization

自然言語処理 Vol.9 No.4 July 2002

5 お わ り に

本稿では,要 約手法 として特 に重要文抽出法に焦点を当て,複 数の正解 に基づ く評価法の提

案 を行 なった.従 来の評価方法では,テ キス トの要約 において唯一の正解 を用いるが,テ キス

トによっては観点の異 なる正 しい要約が複数存在する場合 もあ り,評 価の信頼性 が保証 され な

い とい う問題がある.要 約評価 の例 として,NTCIR Workshop2の テキス ト要約 タスクの評価

結果 を取 り上 げ,特 に要約率50%に おいて複数の要約問での有意な差が現れていないという現

象 に着 目 して議論 した.

我々は,こ の要約 の自動評価の信頼性 を高めるために,評 価 において複数の正解 を用いる方

法 について検討 を行 なった.提 案手法では,複 数の正解要約 と評価対象 を共に,0,1の バイナ

リ値 を要素 とするベ ク トル表現で表 した時,複 数の正解要約のパラメー タを含 んだ線形結合 と

評価対象 との内積の最大値 を評価値 とする.こ の評価値 は,個 々の正解要約か ら計算 される評

価値か ら最大の ものを選ぶ方法 と異な り,複 数の正解要約を組み合わせたような中間的 な要約

を適切に評価 できる とい う性質を持つ.

提案手法 の検 証の ため に,要 約 タス クに対 して複 数の正解の作成 を行 なった.こ こで は

NTCIR-2要 約 デー タ中の4記 事に対 して,要 約者7名 で正解要約の作成を行 なった.適 切な評

価 を行 なう上で,作 成 された要約が正解 として十分 な品質であるか どうかを,正 解の要約問の

一致度 κ係数で評価 した .そ の結果,Krippendorff等 による κ係数の条件 をはるかに下回 り,

複数正解に基づ く評価 を行 なう上で品質が不十分であることが明らか となった.

この正解の作成過程 において,作 業 コス ト,要 約作成の経験,対 象 テキス トの性 質等は正解

の品質に影響 し,要 約の品質 を高めるため にはこれ らの要約作成条件 を注意深 く管理すること

が重要であることが分かった.さ らに,作 成 された複数の要約 を詳細 に検討 した結果,観 点の

違いによって要約結果の違い を生 じて も,元 テキス ト中の結束性や修辞関係 に基づ く構造 をな

るべ く損 なわない様 に要約す るという共通の法則性 も見出された.こ の知見 は,今 後複数の要

約正解 を作成する上で も有用 な知見であると思われる.

最後 に,提 案手法の有効性 を検証する予備実験 として,異 なる幾つかの 自動要約手法 と複数

正解 との一致度 に基づ く評価 を行なった.そ の結果,最 も評価の高い自動要約手法は正解 によっ

て異なる とい う結果が得 られた.こ の結果 は,正 解の品質を十分に高め られた場合,要 約者の

観点や戦略が異なる複数正解 の存在 によって,要 約結果 と正解の間の相性 によらない適切な評

価 を実現す るという,提 案手法の枠組の有効性 を示唆 している.よ り品質の高い正解要約によ

る提案手法の完全な検証 は今後の課題である.

参考文献

Aone, C., Okurowski, M. E., and Gorlinsky, J.(1998)." Scalable Summarization Using Robust

50

Page 19: Evaluating Text Summarization

石 川,安 藤,奥 村 テキス ト要約の複数の正解に基づいた評価

NLP and Machine Learning." In Proceedings COLING-ACL'98, Vol.1, pp.62-66.

Carletta, J.(1996)." Assessing agreement on classification tasks: the kappa statistic." Com-

putational Linguistics, 22 (2).

Cochran, W. G.(1950)." The comparison of percentages in maching samples.." Biometrika,

37, pp.256-266.

Edmundson, H. P.(1969)." New methods in Automatic Extracting.." ACM, 16 (2), pp.264-

285.

Fukusima, T. and Okumura, M.(2001)." Text Summarization Challenge: Text summariza-

tion evaluation at NTCIR Workshop2." In Proceedings of the Second NTCIR Workshop

Meeting on Evaluation of Chinese•¬Japanese Text Retrieval and Text Summarization.,

pp.45-50.

Gale, W., Church, K. W., and Yarowsky, D.(1992)." Estimating upper and lower bounds

on the performance of word-sense disambiguation programs." In Proceedings of the 30th

Annual Meeting of the Association for Computational Linguistics (ACL-9), pp.249-

256.

Ishikawa, K., Ando, S., and Okumura, A.(2001)." A Hybrid Text Summarization Method

based on the TF Method and the Lead Method." In Proceedings of the Second NT-

CIR Workshop Meeting on Evaluation of Chinese 4 Japanese Text Retrieval and Text

Summarization., pp.325-330.

Jing, H., Barzilay, R., McKeown, K., and Elhadad, M.(1998)." Summarization Evaluation

Methods: Experiments and Analysis." in Intelligient Text Summarization Technical

Report., SS-98-06, pp.51-59.

Jones, K. S. and Galliers, J. R.(1996). Evaluating Natural Language Processing Systems: An

Analysis and Review. Springer.

Krippendorff, K.(1980). Content Analysis: An Introduction to its Methodology. Sage Publi-

cations.

Luhn, H. P.(1958)." The automatic creation of literature abstracts." IBM Journal of Research

and Development, 2 (2), pp.159-165.

Mani, I. and Maybury, M. T.(1999). Advances in Automatic Text Summarization. The MIT

Press.

Marcu, D.(1997)." From Discourse Structures to Text Summaries." In Proceedings of the

ACL'97/EACL'97 Workshop on Intelligent Scalable Text Summarization, pp.82-88.

野畑周, 関根聡, 村田真樹, 内元清貴, 内山将夫, 井佐原均 (2001)." 複数の評価尺度 を統合的

に用いた重要文抽 出システム." 言語処理学会第7回 年次大会発表論文集, pp.301-304.

51

Page 20: Evaluating Text Summarization

自然言語処理 Vol.9 No.4 July 2002

奥村学, 難波英嗣 (1999)." テキス ト自動要約に関する研究動向(巻 頭言 に代 えて)." 自然言語

処理, 6 (6), pp.1-26.

Paice, C. D.(1990)." Constructing literature abstracts by computer: techniques and prospect-

s.." Information Processing and Management, 26 (1), pp.171-186.

Rath, G. J., Resnick, A., and Savage, T. R.(1961)." The Formation of Abstracts by the Se-

lection of Sentences." American Documentation (now entitled Journal of the American

Society for Information Science), 12 (2), pp.139-143.

斎藤喜永子, 中川裕志 (2001)." 文書要約戦略の要約者依存性 に関する実験 的考察." 信学技報,

TL 2001-5, pp.27-33.

Salton, G., Singhal, A., Mitra, M., and Buckley, C.(1997)." Automatic Text Structuring and

Summarization." Information Processing and Management, 33 (2), pp.193-207.

内 山 将 夫, 井 佐 原 均 (2000)." 自 動 要 約 の た め の 文 重 要 度 の 比 較" 自 然 言 語 処 理, 7 (4),

pp.261-270.

吉 見 毅 彦, 奥 西 稔 幸, 山 路 孝 浩, 福 持 陽 士 (1999)." 表 題 へ の つ な が りに 基 づ く文 の 重 要 度 評

価." 自然 言 語 処 理, 6 (1), pp.43-57.

付 録 評 価 セ ッ ト(940701176)の 本 文(毎 日新 聞全 文 記 事 デ ー タ

ベ ース)

ヘ ッドライン[ヒ ロシマ ・熱風]/5褒 賞金で実業界へ … 後進 を支援 【大阪】

1 ダウレッ ト.ト ルリハノブさん(30)は カザフス タンでいま,一 番有名で,忙 しい人物だろう.

2 九歳か らレスリングを始め,ソ ウル五輪 十 九八八年)で 銀,バ ルセロナ五輪(九 二年)で 銅 メダルを獲得.

3 全 ソ連のチャンピオンに七回輝いた.

4 独立後の経済 自由化の波に乗 り,メ ダリス トの褒賞金 を元手に実業界に転身.

5 レスリングジムを手始めに現在はアルマ トイでレス トラン,バ ー,ス ポーツジムなどか らなる複合 レジャー施設 「ダ

ウリヤ ッ ト」や出版社な どを経営する.

6 今年三月には日本の国会議員 に当たる最高会議議 員に当選,ど こへ行 っても握手攻めに遭 う国民的英雄だ.

7 カザフス タンの レスリング水準は高 く,広 島アジア大会で も金メダル三個は狙 える といわれる.

8 それを個人の財力で支援 している.

9 トル リハ ノブさんのスポーツジムには,ド イツ製の最新 トレーニ ングマシンがず らっと並ぶ.

10 レス リングのほか,ボ クシング,重 量挙げなどの有望選手六十五人が所属.

11 毎月一人最高で日本円二万円相当の 「奨学金」 をもらっている.

12 カザフスタンは天然資源が豊富なのに,精 製工場が国内にない旧ソ連の分業生産体制のなご りで,エ ネルギー危機が

続 く.

52

Page 21: Evaluating Text Summarization

石川,安 藤,奥 村 テキス ト要約の複数の正解 に基づいた評価

13 独自通貨 の導入 に伴 う激 しいインフレで,給 与生活者の大半は本業だけでは生活で きず,国 家公務員がアルバイ トに

タクシーを運転す る.

14 その平均給与の約八倍に も当たる奨学金 は,破 格の待遇.

15 それだけに 「やる気のないものは出ていけ.余 分 なやつの面倒はみられない」 とい うレス リングコーチ,サ プノブ ・

ゲナンデ ィさん(55)の ハ ッパは厳 しく,選 手たちの表情 も真剣だ.

16 大理石 を敷 きつめた高級 レス トランの奥で,ト ル リハ ノブさんが力説 した.

17「 経済,文 化,科 学は危機的状況 だが,ス ポーツは生 き残 らせ てみせる.わ た したちは国づ くりに踏み出 したばか

り.国 民の士気 を盛 り上げるためにスポーツは非常に重要だからね」

18 七月一 日から,従 来の 「CCCP」(旧 ソ連)の パスポー トが,カ ザフスタン独 自のものに切 り替 わ り,民 族意識は

より高 まる.

19「 カザフス タンの存在をアジアの仲間に訴えたい」 と意気込む トルリハノブさん自身 もコーチ兼選手 として,広 島に

乗 り込む予定だ.

20 アジア大会開幕 まで,あ と三カ月―.

21(お わ り)

(2001年9月28日 受付)

(2001年12月19日 再 受付)

(2002年2月22日 再 々受付)

(2002年4月5日 採 録)

53