4
1 ――計量テキスト分析用フリーソフトウェア「KH Coder」の開発―― 立命館大学産業社会学 樋口耕一 社会科学分野におけるより良い活用のためのツール整備 テキストマイニング2018 @同志社大学 2 本報告の概要 KH Coderのご紹介 開発の目的・分析事例・特徴 (分析デモ) より良い活用を目指しての最近の取組 機能の向上:特徴的な共起を探る 成功した研究事例のレビュー 産学連携による展開 4 分析の専門家でなくとも使いやすく 手軽なマウス操作による分析 →必要に応じて高度なカスタマイズも オーソドックスな分析手法 →計算法・挙動が広く知られ、解釈が容易 ☆分析の専門家というより応用分野の専門家 の皆様にお使いいただきやすいソフトを ただし応用分野の知識は大切 →データ・収集法・収集元・特有の言葉など 分析事例 (阪口・樋口 2015) 事例: 高校生を脱原発へと向かわせるもの 8 脱原発志向 原発リスク認知 震災リスク認知 理系ダミー 福岡ダミー 東京ダミー 女性ダミー 普通科ダミー リスク認知 .954** .664** –.010 –.097** –.072** .040** .189** –.068** .175** –.056** N = 5865, chi-square = 111.947 (DF = 8, p < .01 ) RMSEA = .047, CFI = .981, TLI = .957, ** p < .01 下線の変数は順序尺度と見なしWLSMVで推定。 独立変数間の共分散と誤差変数は表示を省略。 R-Square = .082 女性や理系以外の高校生は、どのような理由づけで脱原発へ向かうのか? (阪口・樋口 2015分析事例 9 先行研究からの示唆と課題 女性と科学技術 科学技術から受ける便益が少なく、制御する権 力にも欠けるので危険視 (Finucane et al. 2000) 女性はケア役割の担い手として社会化され、自 然保護を支持する傾向(Blocker & Eckberg 1997) 専門家と人々 専門家は、年間死亡者数のような客観的リスク から判断(Slovic et al. 1979) コントロールできるという信念(土屋・小杉 2011) 以上の解釈は高校生にも当てはまるのか? 自由回答から実証的な手がかりを(樋口 2014) (成人の)社会意識形成プロセスの解明にも寄与 以上の理論的解釈は、高校生の段階でも当てはまるのか? 分析事例

分析事例 (阪口・樋口2015)mjin.doshisha.ac.jp/lab/ppt/higuchi.pdf開発の目的・分析事例・特徴 (分析デモ) より良い活用を目指しての最近の取組

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 分析事例 (阪口・樋口2015)mjin.doshisha.ac.jp/lab/ppt/higuchi.pdf開発の目的・分析事例・特徴 (分析デモ) より良い活用を目指しての最近の取組

1

――計量テキスト分析用フリーソフトウェア「KH Coder」の開発――

立命館大学産業社会学 樋口耕一

社会科学分野におけるより良い活用のためのツール整備

テキストマイニング2018 @同志社大学 2

本報告の概要

KH Coderのご紹介開発の目的・分析事例・特徴

(分析デモ)

より良い活用を目指しての最近の取組機能の向上:特徴的な共起を探る

成功した研究事例のレビュー

産学連携による展開

4

分析の専門家でなくとも使いやすく

手軽なマウス操作による分析→必要に応じて高度なカスタマイズも

オーソドックスな分析手法→計算法・挙動が広く知られ、解釈が容易

☆分析の専門家というより応用分野の専門家の皆様にお使いいただきやすいソフトを

ただし応用分野の知識は大切→データ・収集法・収集元・特有の言葉など

7

分析事例

(阪口・樋口 2015)

事例: 高校生を脱原発へと向かわせるもの

8

脱原発志向

原発リスク認知震災リスク認知

理系ダミー

福岡ダミー

東京ダミー

女性ダミー

普通科ダミー

リスク認知

.954**.664**–.010

–.097**

–.072**

.040**

.189**

–.068**

–.175**

–.056**

N = 5865, chi-square = 111.947 (DF = 8, p < .01 )RMSEA = .047, CFI = .981, TLI = .957, ** p < .01下線の変数は順序尺度と見なしWLSMVで推定。独立変数間の共分散と誤差変数は表示を省略。

R-Square = .082

女性や理系以外の高校生は、どのような理由づけで脱原発へ向かうのか?

(阪口・樋口 2015)

分析事例

9

先行研究からの示唆と課題

女性と科学技術科学技術から受ける便益が少なく、制御する権力にも欠けるので危険視 (Finucane et al. 2000)

女性はケア役割の担い手として社会化され、自然保護を支持する傾向(Blocker & Eckberg 1997)

専門家と人々専門家は、年間死亡者数のような客観的リスクから判断(Slovic et al. 1979)

コントロールできるという信念(土屋・小杉 2011)

以上の解釈は高校生にも当てはまるのか?自由回答から実証的な手がかりを(樋口 2014)

(成人の)社会意識形成プロセスの解明にも寄与

以上の理論的解釈は、高校生の段階でも当てはまるのか?

分析事例

Page 2: 分析事例 (阪口・樋口2015)mjin.doshisha.ac.jp/lab/ppt/higuchi.pdf開発の目的・分析事例・特徴 (分析デモ) より良い活用を目指しての最近の取組

10

調査データと自由回答項目

高校生の生活と価値観に関する調査東京・大阪・福岡の11校、有効回収6,092

2013年9月~10月に実施

自由回答項目によるマイクロインタビュー「2011年3月11日に発生した東日本大震災では、東北地方で大きな地震と津波がありました。そして福島県で

原子力発電所の事故がおきました。あなたはこの東日本大震災について、どのようなことを感じたり、考えたりしていますか。何でもご自由にお答

えください」

4,856ケース(79.7%)が回答

文字数:平均59.1 標準偏差56.3 最大855

属性による記入有無の顕著な偏りはなし

分析事例

12

共起ネットワーク

配置:Fruchterman & Reingold (1991)グループ検出:Pons & Latapy (2005)

回答から:

① 家族や友だちを大切にしようと思った(大阪・女性)

② いつ起こるのか分からない震災(福岡・男性)

③ 人間の力ではどうにもならない(大阪・女性)

① ②

震災一般・国の対応

態度・感情

分析事例

性別・賛否との対応分析

15

身近な人の大切さ、怖さ辛さなどの感情面(女性)

電力供給・報道のあり方など、より大きな仕組み(男性)

回答から:

震災さえ起きなければ、原発事故も起こらず、電気供給が安定していた(福岡・男性)

さわぎすぎだと思う。主にメディアと外国(東京・男性)

家族や友達の大切さを考えました(福岡・女性)

本当に怖いと感じた。当たりまえじゃなくなるということを改めて実感(福岡・女性)

原子力のおそろしさを身をもって体験した(大阪・女性)

分析事例

19

研究事例のまとめ

ジェンダーの効果女性は家族・友人を大切にし、人の感情面を重視する傾向。おそらくこれが脱原発の一因に。

高校生段階ではケア役割仮説が該当か

権力や恩恵についてはまだ意識していない可能性

理系クラスの効果理系クラスでは、原発リスクを制御可能なものと見なす傾向

専門的知識や明確な根拠がなくても、科学を強く信頼する態度

かつては理系クラスの高校生だった「大人」の科学者にも、この態度は残っているのか?

分析事例

20

分析方法とソフトウェアの特徴

21

データ探索と信頼性向上特徴

データの全体像

引用すべき部分

どこにデータの特徴があらわれている?

全体としてデータの様子はどんなか?

分析者は偏った印象を持っていないか?

引用する部分を分析者はどう選んだのか?

分析者 第三者

データをより良く理解すると同時に、分析の信頼性を向上!

(表裏一体)

Page 3: 分析事例 (阪口・樋口2015)mjin.doshisha.ac.jp/lab/ppt/higuchi.pdf開発の目的・分析事例・特徴 (分析デモ) より良い活用を目指しての最近の取組

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

一 六 十一

十六

二十一

二十六

三十一

三十六

四十一

四十六

五十一

五十六

静(お嬢さん)

静の母(奥さん)

22

量的方法と質的方法

妻はそれをこんにちに困らない(財産がある)から心に弛みが出るのだと観察していたようでした。(・・・)しかし私の動かなくなった原因の主なものは、全くそこにはなかったのです。(・・・)自分もあの叔父と同じ人間だと意識した時、私は急にふらふらしました。他に愛想を尽かした私は、自分にも愛想を尽かして動けなくなったのです。

量的分析 質的分析(引用・解釈)

循環的な関係「質的方法が洞察にあふれ、量的方法が仮説検証のための単に機械的なものだと決めつけるべきではない。この両者の関係は循環的なものである。すなわち、それぞれが新たな洞察をもたらし、それによって他方に資するものである」 (Pool 1959: 192, 筆者訳)

特徴

23

素データを検索・確認する機能にも注力

“Closeness to Data”(Stone et al. 1966)

特徴

25

柔軟性・拡張性も

MySQL(整理と検索)

(統計分析)

テキスト 分析結果

検索結果

茶筌・MeCab(語の取り出し)

KH Coder

→お仕着せの分析しかできない既製品ではなく、創意工夫を発揮できる「環境」として

特徴

27

より良い活用のために

28

把握している応用研究は2,000件強利用動向

0

100

200

300

400

2001

2002

2003

2004

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

30

意味のある分析結果を得るには

テキストを投入すれば分析結果は出るが…学術的な意義はあるか?

実用的な価値はあるか?

おもしろい発見はあるか?

利用動向

上手くお使いいただくための最近の取組データ内容に迫る機能の向上

良い結果が出るように狙いを定め、分析結果の中から意味のある部分を見出す力を

方法とソフトウェアの正しい使用をサポート

→ツール開発者が整備できることには限界もありつつできる範囲で

Page 4: 分析事例 (阪口・樋口2015)mjin.doshisha.ac.jp/lab/ppt/higuchi.pdf開発の目的・分析事例・特徴 (分析デモ) より良い活用を目指しての最近の取組

31

特徴語から特徴的な共起へ 1

腰痛あり/なしの看護師へのインタビュー腰痛ありの場合は「プレッシャー」や「緊張」が直接「ストレス」と共起

腰痛なしの場合、そうした共起はしない

機能の向上

32

特徴語から特徴的な共起へ 2

『赤毛のアン』で「マリラ」と共起する語の変化

機能の向上

Higuchi 2017

01‐07 08‐19 20‐28 29‐38

Matthew .053 say .072 say .042 Matthew .041

mare .040 ANNE .059 think .034 look .040

Cuthbert .040 just .039 ANNE .032 sit .039

table .038 think .036 cake .030 ANNE .038

dish .037 brooch .031 make .028 say .038

child .033 tell .030 minister .028 face .031

bed .032 evening.025 Allan .026 girl .026

say .032 home .024 feel .025 think .024

uncomfortable .032 set .024 know .024 want .022

sorrel .032 let .023 time .023 lean .022

“Marilla really did not know how to talk to the child, and her uncomfortable ignorance made her crisp and...” (c4)

The “feel” and “look”

→物語の進行とともにマリラが変化!

[関連語検索]

33

特徴語から特徴的な共起へ 3

共起の有無を表す2値変数と、他の変数との相関をカラー表示

機能の向上

[新機能]

・位置情報との相関

・同じ「奥さん」でも位置によって使われる文脈が変化

・使われる文脈が変われば意味も変化していく。この変化を可視化。

※本機能の開発にあたっては大阪大学大学院人間科学研究科・川端亮教授のご示唆を得ました。

34

成功した研究事例に学ぶ

研究事例8件をレビューネット、マスメディア、社会調査データ、会議録を分析した研究各2例

どのようにKH Coderを使えば、意義ある分析結果を得やすいのか考察

樋口 2017

35

産学連携による展開

(株) SCREENアドバンストシステムソリューションズ様の事業展開

夏休み・春休みのセミナー開催(初級編とステップアップ編)

データ準備・前処理用のプラグイン販売「文錦クレンジング for KH Coder」

分析コンサルテ-ション(5万円~)

※立命館大学との間に技術指導契約を結んでいただき、コミュニケーションをとっています。セミナーでは開発者が半分強ほどお話しさせていただきます。

36

主要文献

樋口耕一, 2014, 『社会調査のための計量テキスト分析――内容分析の継承と発展を目指して』 ナカニシヤ出版.

樋口耕一, 2017, 「計量テキスト分析およびKH Coderの利用状況と展望」 『社会学評論』 68(3): 334-350.

Higuchi, K., 2017, "A Two-Step Approach toQuantitative Content Analysis: KH CoderTutorial Using Anne of Green Gables (Part II)"『立命館産業社会論集』53(1): 137-147.

阪口祐介・樋口耕一, 2015, 「震災後の高校生を脱原発へと向かわせるもの――自由回答データの計量テキスト分析から」 友枝敏雄編 『リスク社会を生きる若者たち』 大阪大学出版会 186-203.

武田啓子・渡邉順子, 2012, 「女性看護師の腰痛の有無と身体・心理・社会的姿勢に関連する因子とその様相」『日本看護研究学会雑誌』35(2): 113-122.

→同じ言葉でも使われる文脈が異なる!

武田・渡邉 2012

[共起ネットワークの比較]