16
Rでリーダビリティを計算する @langstat Tokyo.R #48 2015/06/20 At NIFTY Corpora@on 1

TokyoR_48: Rでリーダビリティを計算する

Embed Size (px)

Citation preview

Page 1: TokyoR_48: Rでリーダビリティを計算する

Rでリーダビリティを計算する

@langstat    

Tokyo.R  #48  2015/06/20  

At  NIFTY  Corpora@on

1

Page 2: TokyoR_48: Rでリーダビリティを計算する

自己紹介 •  小林 雄一郎  (@langstat)  

–  しがない任期つき研究者  –  テキストマイニングなどに興味あり

2

Page 3: TokyoR_48: Rでリーダビリティを計算する

いま最もホットなニュース

hDp://www.afpbb.com/ar@cles/-­‐/3049269?pid=0  

3

Page 4: TokyoR_48: Rでリーダビリティを計算する

研究結果 •  ヒット曲の歌詞の標準的な読解レベルは小学校3年生(アメリカの教育制度で約8歳)  

•  10年前と比べて、大きく低下  

•  音楽のジャンルの中で読解レベルが最も高いのはカントリーミュージックで小学校3.3年生、R&Bとヒップホップは最低の2.6年生レベル  

•  小学校1年生レベルを下回ったのは、ヘビーメタル界の帝王オジー・オズボーンの「レット・ミー・ヒア・ユー・スクリーム」など

4

Page 5: TokyoR_48: Rでリーダビリティを計算する

オジー・オズボーン?  誰それ??

5

Page 6: TokyoR_48: Rでリーダビリティを計算する

この人です 6

hDps://humandynamics.files.wordpress.com/2011/07/11050_ozzy-­‐osbourne-­‐impotent.jpg

Page 7: TokyoR_48: Rでリーダビリティを計算する

街の声 •  オジーの歌詞が小学校1年生以下だって?  •  信じられない結果だ!  •  何かの間違いに違いない!  •  俺のオジーがそんなアホなわけがない!                              (当社脳内調べ)

7

hDp://www.afpbb.com/ar@cles/-­‐/3049269?pid=0  

Page 8: TokyoR_48: Rでリーダビリティを計算する

どんな指標で測った? •  Flesch–Kincaid  Grade  Level  (FKGL)  

–  文章の読みやすさ(リーダビリティ)を測るための一般的な指標  –  1文あたりの平均単語数)  x  0.39  +  (1単語あたりの平均音節数)  x  11.8  -­‐  

15.59  •  1文あたりの平均単語数 =  英文中の総単語数 /  英文中の総文数 •  1単語あたりの平均音節数 =  英文中の総音節数 /  英文中の総単語数  

–  結果として得られるスコアは、アメリカの学校の学年(小学校1年生ならば1、中学校1年生ならば7)  

–  公式文書の作成、英作文の評価など、幅広く活用  –  hDps://en.wikipedia.org/wiki/Flesch%E2%80%93Kincaid_readability_tests  

8

Page 9: TokyoR_48: Rでリーダビリティを計算する

Rで検証してみよう •  オジーの“Let  Me  Hear  You  Scream”の歌詞を入手し、テキストファイルに保存  –  hDp://www.azlyrics.com/lyrics/ozzyosbourne/letmehearyouscream.html  

•  RのkoRpusパッケージで分析 >  #  パッケージのインストール >  install.packages(“koRpus”,  dependencies  =  TRUE)  >  #  パッケージの読み込み >  library(koRpus)  >  #  データの読み込み >  tok  <-­‐  tokenize(“LetMeHearYouScream.txt”,  lang  =  “en”)  >  #  FKGLの計算 >    flesch.kincaid(tok)

9

Page 10: TokyoR_48: Rでリーダビリティを計算する

検証結果

•  FKGLの値がマイナスに!!  –  つまり、小学校1年生以下  –  年齢でいうと、4.6歳程度の英文レベル

10

Hyphena@on  (language:  en)      |===================================================================|  100%    Flesch-­‐Kincaid  Grade  Level      Parameters:  default                  Grade:  -­‐0.37                      Age:  4.63

Page 11: TokyoR_48: Rでリーダビリティを計算する

他の指標だと? •  Coleman–Liau  Index  (CLI)  

–  (100語あたりの平均文字数)  x  0.588  +  (1文あたりの平均単語数)  x  0.296  -­‐  15.8  

–  結果: -­‐0.71  –  hDps://en.wikipedia.org/wiki/Coleman%E2%80%93Liau_index  

•  Automated  Readability  Index  (ARI)  –  (1語あたりの平均文字数)  x  4.71  +  (1文あたりの平均単語数)  x  0.5  -­‐    

21.43  –  hDps://en.wikipedia.org/wiki/Automated_Readability_Index  –  結果: -­‐2.46  

•  実行した関数などは、以下を参照  –  語彙の豊富さや文章の難しさを測る (1)  –  langstat  blog  

hDp://langstat.hatenablog.com/entry/20140707/1404660387  

–  語彙の豊富さや文章の難しさを測る (2)  –  langstat  blog  hDp://langstat.hatenablog.com/entry/20140708/1404745200  

11

Page 12: TokyoR_48: Rでリーダビリティを計算する

結論

12

•  FKGL、CLI、ARIのいずれの指標を用いた場合でも、結果がマイナスの値  

     ↓  •  やはり小学校1年生以下の英文だった。。。

hDp://www.doseofmetal.com/wp-­‐content/uploads/2010/10/ozzy-­‐osbourne.jpg  

Page 13: TokyoR_48: Rでリーダビリティを計算する

がーん 13

hDps://humandynamics.files.wordpress.com/2011/07/11050_ozzy-­‐osbourne-­‐impotent.jpg

Page 14: TokyoR_48: Rでリーダビリティを計算する

他のテキストは? •  Stephen  KingのThe  Green  Mile  

–  FKGL:  8.4  •  CNN.comの記事  

–  FKGL:  10.9  hDp://www.readabilityformulas.com/flesch-­‐grade-­‐level-­‐results.php  

 

•  Hadley  Wickhamの論文(Tidy  data)の概要  –  FKGL:  11.31  

•  センター試験の長文問題(平成27年度本試験、第6問)  –  FKGL:  12.84  

•  NIFTY代表取締役社長のメッセージ(英語版)  –  FKGL:  14.75  

14

Page 15: TokyoR_48: Rでリーダビリティを計算する

おまけ •  日本語テキストのリーダビリティを計算するには?  

–  日本語文章難易度判別システム jReadability  •  hDp://jreadability.net/  

–  日本語リーダビリティー測定(長岡技術科学大学リーダビリティー・リサーチ・ラボ)  •  hDp://readability.nagaokaut.ac.jp/research/html/modules/@nyd0/  

–  日本語の文章の難易度を測るWebサービス「帯」  •  hDp://efcl.info/2008/0502/res166/  

                     etc.

15

Page 16: TokyoR_48: Rでリーダビリティを計算する

Enjoy!! 16 hDp://ozzfestjapan.com/