Upload
sakaue-tatsuya
View
932
Download
7
Tags:
Embed Size (px)
DESCRIPTION
Citation preview
R の基本操作—まだまだ実行するのだ編—
阪上 辰也@名古屋大学Nagoya.R #12010-03-26
Saturday, March 27, 2010
c()関数の補足
hako <- c(1,2,3,4,5)
の「<-」は左向きの矢印を表現
Saturday, March 27, 2010
本日の目標
•基本操作を「知る」 (覚えない)
•演習での不実行ゼロ•「R いいよ R」と勧めたくなる• ついでに「Nagoya.R いいよ」とも...
Saturday, March 27, 2010
Agenda
1. 大量のデータを扱う2. 作図して保存する3. 一人 Lightning Talks
Saturday, March 27, 2010
Agenda
1. 大量のデータを扱う2. 作図して保存する3. 一人 Lightning Talks
Saturday, March 27, 2010
前半では一行で表せる数値を扱いましたが
Saturday, March 27, 2010
実際のデータは複数行あるはず
Saturday, March 27, 2010
例えば...
•身長と体重•年齢と年収•作文の単語数とTOEICスコア
Saturday, March 27, 2010
表にすれば...身長 体重
A 180 75B 170 65C 165 60D 175 70E 190 80
Saturday, March 27, 2010
複数の行や列で表されるデータを扱うために
Rでは「行列」を使う
Saturday, March 27, 2010
行列を扱うために
matrix() 関数を使う
Saturday, March 27, 2010
このようなデータなら身長 体重
A 180 75B 170 65C 165 60D 175 70E 190 80
Saturday, March 27, 2010
karada <- matrix(c(180, 170, 165, 175, 190, 75, 65, 60, 70, 80), 5, 2)
以下を入力
1. c() 関数で、数値を連結2. matrix() 関数で、行列に変換
• 「5行で2列」にするという指定をする3. karada という名の変数に代入
Saturday, March 27, 2010
> karada
と入力して変数の中身を確認
Saturday, March 27, 2010
今日のところは「行列」という存在を覚えて帰ってください
Saturday, March 27, 2010
詳しくはNagoya.R #2 以降にて
Saturday, March 27, 2010
ちょちょちょっと待ってくれ
Saturday, March 27, 2010
入門編とは言え行列を作るのに
ちまちまとデータを入力しないといけないの?
Saturday, March 27, 2010
もし1000行以上のデータがあったらどうするの?
Saturday, March 27, 2010
Saturday, March 27, 2010
ご安心を!
Saturday, March 27, 2010
Saturday, March 27, 2010
多くの人はExcel 等にデータを入力し保存・管理しているかと思います
Saturday, March 27, 2010
Excel 等のファイルからCSV 形式のファイルを作成しそれをRに読み込ませて解決!
Saturday, March 27, 2010
ただしトラブル多発項目のため今日のところは
デモのみお見せします詳しくは
Nagoya.R #2 以降にてSaturday, March 27, 2010
Agenda
1. 大量のデータを扱う2. 作図して保存する3. 一人 Lightning Talks
Saturday, March 27, 2010
Agenda
1. 大量のデータを扱う2. 作図して保存する3. 一人 Lightning Talks
Saturday, March 27, 2010
データを集めたら数値要約だけでなくデータの視覚化も必要
Saturday, March 27, 2010
というわけで作図の時間です
Saturday, March 27, 2010
基本的な作成手順
1. 変数に値を代入する
2. 作図用の関数を使って処理する
Saturday, March 27, 2010
たった2段階です
Excel や SPSS と来たら... orz
Saturday, March 27, 2010
まずはヒストグラム
【事例】身長のヒストグラムを
作成する
Saturday, March 27, 2010
まずはヒストグラム
> height <- c(160, 160, 160, 165, 170, 170, 170, 170, 175, 175, 180, 185, 185, 185, 190)
> hist(height)
Saturday, March 27, 2010
次は円グラフ
【事例】内閣支持率を円グラフで示す
Saturday, March 27, 2010
次は円グラフ
> rating <- c(30.5,53.9)
> pie(rating)
Saturday, March 27, 2010
続いて散布図【事例】
TOEICスコアと英作文の語数の相関を見る
Saturday, March 27, 2010
続いて散布図> score <- c(600, 500, 720, 430, 500, 550, 430, 500, 850, 400)
> words <- c(340, 190, 465, 170, 130, 225,140, 310, 580, 120)
> plot(score,words)
Saturday, March 27, 2010
最後は箱ひげ図【事例】
英語の学習者と英語の母語話者が書いた英作文の語数の幅を
比較するSaturday, March 27, 2010
最後は箱ひげ図> nns <- c(350, 285, 315, 340, 210, 185, 120, 740, 425, 155)
> ns <- c(365, 570, 645, 540, 645, 665, 880, 550, 410, 585)
> boxplot(nns,ns, names=c("NNS", "NS"))
Saturday, March 27, 2010
Agenda
1. 大量のデータを扱う2. 作図して保存する3. 一人 Lightning Talks
Saturday, March 27, 2010
Agenda
1. 大量のデータを扱う2. 作図して保存する3. 一人 Lightning Talks
Saturday, March 27, 2010
Lightning Talks とは元々は
60分もしくは90分の枠に5分間のtalkを詰め込んだもの
Saturday, March 27, 2010
さすがに5分は短すぎますが短時間の漫談なら
Lightning Talks
Saturday, March 27, 2010
今回は @sakaue が2件20分ずつでお話をいたしますが
Saturday, March 27, 2010
Nagoya.R #2 以降はみなさまのお話を是非お聞かせください
Saturday, March 27, 2010
話題はRにかすっていれば
何でもOK
Saturday, March 27, 2010
話題はRにかすっていれば
何でもOK
Saturday, March 27, 2010
例えば...
• 自分の研究・業務とRの関係(自己紹介)
• R でこれがしたい!(希望だけ)
• このデータで R をどう使うか悩んでます
• R の情報仕入れました(例:サイト紹介)
• R の小技・裏技教えます
Saturday, March 27, 2010
話しても OK!!という方はお題と時間を
阪上までお知らせください
Saturday, March 27, 2010
それではLightning Talk #1
Saturday, March 27, 2010
それではLightning Talk #1
「言語(習得)研究とR」
Saturday, March 27, 2010
私は英語の学習者と英語の母語話者の違いを分析しています
Saturday, March 27, 2010
なんで?
Saturday, March 27, 2010
両者の違いを見つけて学習者の弱点を知りその弱点を鍛えれば英語が上達するだろう
Saturday, March 27, 2010
いわゆる
教育的示唆というものを得るわけです
Saturday, March 27, 2010
具体的には学習者コーパスというデータベースを分析しています
Saturday, March 27, 2010
何を分析するかというと...
Saturday, March 27, 2010
NNS(111) NS(177)
1. のべ語数(token) 360.59 590.49
2. 異なり語数(type) 143.05 247.14
3. 文の数(sentences) 26.50 32.02
4. AWL (Average Word Length) 4.47 4.52
5. MLU (Mean Length of Utterances) 14.22 19.71
6. TTR (Type / Token Ratio) 0.41 0.43
Saturday, March 27, 2010
これらの数値を2つの統計手法で
分析
Saturday, March 27, 2010
①重回帰分析
TOEIC の得点を基準としどの要因が英語力に強い影響を与えているか
Saturday, March 27, 2010
TOEICの得点を説明する要因として有意であったのは
MLU と type
結果
Saturday, March 27, 2010
Saturday, March 27, 2010
Saturday, March 27, 2010
つまり長い文を書けて
いろんな単語を使える人はTOEICで高得点
Saturday, March 27, 2010
②判別分析
どの要因が学習者と母語話者を
分けるのかSaturday, March 27, 2010
tokenとtypeが判別の鍵
結果
Saturday, March 27, 2010
0
50
100
150
200
250
300
350
400
450
0 200 400 600 800 1000 1200 1400 1600
Token
Type NNS
NS
Saturday, March 27, 2010
つまり単語数が多く
単語の種類が多ければ母語話者の作文として
判別されるSaturday, March 27, 2010
強引ですがいろんな種類の単語を使ってたくさん書けば
母語話者っぽい作文になる
Saturday, March 27, 2010
ただし文の構造
文章の組み立てなどの考慮していない
要因もあるSaturday, March 27, 2010
よって数値化可能な要因をさらに足した上で再分析が必要
Saturday, March 27, 2010
数年前の研究で当時はRを使えなかったので再挑戦したいと思ってます
Saturday, March 27, 2010
以上です
何かご質問などあれば...
Saturday, March 27, 2010
もうちょい喋りますLightning Talk #2
「Mac いいよ Mac」
Saturday, March 27, 2010
今からひたすらMac を使うべきと訴えます
Saturday, March 27, 2010
なんで?
Saturday, March 27, 2010
① 工業製品として美しい(phenomenal! )
Saturday, March 27, 2010
•Mac:見た目の美しさを重視 → 持っていてオシャレ
•Windows PC:機能重視でデコボコ→ 仕事のための道具...
Saturday, March 27, 2010
② フォント表示が美しい(incredible!)
Saturday, March 27, 2010
Saturday, March 27, 2010
③ UNIX ベースの高速・安定システム(amazing!)
Saturday, March 27, 2010
UNIX 系で使える研究ツールが抱負
大量のデータを処理する際の安定性
Saturday, March 27, 2010
④ すべての主要OSが動く(awesome!)
Saturday, March 27, 2010
起動OS\仮想OS Windows Linux Mac
Windows *** OK NG
Linux OK *** NG
Mac OK! OK! ***
Saturday, March 27, 2010
状況に応じて最適の OS を使える
Saturday, March 27, 2010
価格も下がり新規に買うなら
Mac はお勧めですよ!
Saturday, March 27, 2010
おわりに
Saturday, March 27, 2010
何を使うにせよ研究ツールのことはある程度知っておくべき
だと思います
Saturday, March 27, 2010
“iPad Keynote in less than 180 Seconds: Incredible,
Beautiful, Amazing!”
参考資料(?)
Saturday, March 27, 2010
以上です
何かご質問などあれば...
Saturday, March 27, 2010
Nagoya.R #1
のメインイベントはこれにて終了です
Saturday, March 27, 2010
本日はお集まりいただき
ありがとうございました
Saturday, March 27, 2010