Upload
nguyenhuong
View
222
Download
7
Embed Size (px)
Citation preview
実習の手順(161101)
★ 本日の手順の概要
解析の準備をする 検定に使う 3つの遺伝子の発現データを選ぶ エクセルで「対応のある t検定」をする Rで「対応のある t検定」をする Rで「対応のあるU検定」をする 両方の検定の結果を比べる
★ 解析の準備をする
遺伝子発現データを開く。 遺伝子発現データを Zドライブに保存していない人は、第 2回の手順書の「遺伝子発現データを開く」を参考にして開いてください。
「atgenx4biostat16」シートの B列に平均値、C列に分散値が入っていることを確認する。
★ 検定に使う3つの遺伝子の発現データを選ぶ 「atgenx4biostat16」シートの右をクリックして新しいシート(Sheet1とする)を作る。
「atgenx4biostat16」シートで注目遺伝子を探す(遺伝子 Aとする)。 「Ctrl + F」で検索ウインドウを開き、注目遺伝子の IDを検索する。
遺伝子Aの発現データをコピーする。 遺伝子Aの行番号をクリックして、Ctrl+Cを押す。 Sheet1のA1セルをクリックして、Ctrl+Vを押す。
遺伝子Bの発現データをコピーする。 遺伝子 Aと発現量が近く、分散値がかなり異なる遺伝子を選ぶ(遺伝子Bとする)。
遺伝子Bの行番号をクリックして、Ctrl+Cを押す。 Sheet1のA2セルをクリックして、Ctrl+Vを押す。
遺伝子Cの発現データをコピーする。 遺伝子 Aと発現量がかなり異なる遺伝子を選ぶ(遺伝子 Cとする)。
遺伝子Cの行番号をクリックして、Ctrl+Cを押す。
Sheet1のA3セルをクリックして、Ctrl+Vを押す。 検定用にデータセットを整える。
Sheet1で、実習で計算した平均値、分散、標準偏差、標準誤差の列を削除する。 列ラベルの「B」から「E」をドラッグして選択し、右クリックして「削除」を押す。 必ず削除すること!! 削除しないと Rの作業の時にエラーが出ます。
検定のときには不要になります。 検定用のテキストデータを出力する。
「ファイル」タブをクリックし、「名前を付けて保存」をクリックする。 「名前を付けて保存」ウインドウが表示される。
ファイル名を「testdata」とする。 ファイル名を間違えないように!! 「testdate」としやすいようです。
「ファイルの種類」を「テキスト(タブ区切り) (*.txt)」に変えて「保存」をクリックする。 注意のウインドウが表示されるが、OKボタンを押す。
「選択したファイルの種類は……」 タブで区切られたテキスト形式で保存される。 必ずデスクトップに保存すること!! タブで区切られたテキスト形式で保存される(testdata.txt)。 デスクトップにできた「testdata.txt」を右クリックし、「プログラムから開く」→「ワードパッド」をクリックする。
選んだ 3遺伝子分の 3行のデータが保存されていることを確認する。 必ず確認すること!! この後の t検定の結果を間違って保存するミスが多いようです。
もう一度エクセル形式で上書き保存する。 この段階ではテキストファイルなので、複数のワークシートを使うと不具合が出る可能性があります。
「ファイル」タブをクリックし、「名前を付けて保存」をクリックする。 「名前を付けて保存」ウインドウが表示される。
「ファイルの種類」を「Excelブック(*.xlsx)」に変えて、「保存」をクリックする。
Zドライブの「atgenx4biostat16.xlsx」を選んで上書き保存する。
★ エクセルで対応のある t検定をする エクセルで遺伝子AとBとの対応のある t検定をしておく。
後で、Rでの t検定の結果と比較する。 「データ」→「データ分析」で「一対の標本による平均の検定」を開く。 「データ分析」の確認は前の手順書を参照する(授業では説明します)。
「変数 1の入力範囲」には、遺伝子 Aの発現データを入れる。 「変数 2の入力範囲」には、遺伝子 Bの発現データを入れる。 「OK」ボタンを押す。 結果のシートの「P(T<=t)両側」の値を覚える。
★ Rで「対応のある t検定」をする Rを開く。
「スタート」→「すべてのプログラム」→「R」→「R x64 …」をクリック 「R console」ウインドウが開く
データセットをRに入力する。 「rawdata <- read.table
(file="C:/Users/tyo23047/Desktop/testdata.txt",header=FALSE,row.names=1,sep="\t")」
「tyo23047」の部分は自分のアカウント番号に変える。 「\」はR上では「バックスラッシュ(\)」になる。
データが無事に入力されたことを確認する。 「rawdata[1:3,1:10]」
3遺伝子と左から 10実験分を表示する。 データの縦と横を入れ替える。
検定のためには必要な手順です。 「data <- t(rawdata)」 入れ替えたデータを確認する。
「data[1:10,1:3]」 遺伝子Aと遺伝子Bの t検定をする。
「t.test(x=data[,1],y=data[,2],paired=TRUE)」 対応のある t検定を行う。
コマンドの意味:1列目のデータ、2列目のデータ、対応があるかどうか。
結果の読み方 t値:今回は特に不要です(t分布表で調べるときには使います)。
df:自由度、今回の場合は「実験数-1」になります。 p値:危険率(帰無仮説の確率)、この値が重要です。
0.05、0.01、0.001と比べて小さいかどうかを確認する。 エクセルで計算した p値と比べる。
Rでの p値は限りなく 0に近いときに、「 p≤2.2E-16」と表示されるようです。その場合には、t値で比べてください。
遺伝子Aと遺伝子Cについても t検定をする。 作業は遺伝子Aと遺伝子Bの場合と同様です。
★ Rで「対応のあるU検定」をする 遺伝子Aと遺伝子BのU検定をする。
「wilcox.test(x=data[,1],y=data[,2],paired=TRUE)」 対応のあるU検定を行う。 コマンドの意味:1列目のデータ、2列目のデータ、対応があるかどうか。
結果の読み方 V値:W値ともいう。今回は不要です(U分布表で調べるときには使います)。
p値:危険率(帰無仮説の確率)、この値が重要です。 0.05、0.01、0.001と比べて小さいかどうかを確認する。
遺伝子Aと遺伝子CについてもU検定をする。 作業は遺伝子Aと遺伝子Bの場合と同様です。
★ 両方の検定の結果から考察する
まずは、遺伝子AとBの結果と遺伝子AとCの結果を比べる。 帰無仮説を捨てられるか、統計的に有意かどうか。 統計的に有意な場合
ふたつの遺伝子の平均発現量の差について何が言えるか。 統計的に有意でない場合
ふたつの遺伝子の平均発現量の差について何が言えるか。 検定の結果について、データの特徴(平均値、ばらつき、ヒストグラムのピークなど)を踏まえて考察する。
次に、t検定とU検定の結果を比べる。 同様の結果が出た場合または違う結果が出た場合、なぜそうなったのかをデータの特徴を踏まえて考察する。
特に、パラメトリック、ノンパラメトリックについて議論する。