· Web viewデスクトップにできた「testdata.txt」を右クリックし、「プログラムから開く」→「ワードパッド」をクリックする。選んだ3遺伝子分の3行のデータが保存されていることを確認する。必ず確認すること!!

実習の手順(161101)

★ 本日の手順の概要

解析の準備をする検定に使う 3つの遺伝子の発現データを選ぶエクセルで「対応のある t検定」をする Rで「対応のある t検定」をする Rで「対応のあるU検定」をする両方の検定の結果を比べる

★ 解析の準備をする

遺伝子発現データを開く。遺伝子発現データを Zドライブに保存していない人は、第 2回の手順書の「遺伝子発現データを開く」を参考にして開いてください。

「atgenx4biostat16」シートの B列に平均値、C列に分散値が入っていることを確認する。

★ 検定に使う3つの遺伝子の発現データを選ぶ「atgenx4biostat16」シートの右をクリックして新しいシート（Sheet1とする）を作る。

「atgenx4biostat16」シートで注目遺伝子を探す（遺伝子 Aとする）。「Ctrl + F」で検索ウインドウを開き、注目遺伝子の IDを検索する。

遺伝子Aの発現データをコピーする。遺伝子Aの行番号をクリックして、Ctrl+Cを押す。 Sheet1のA1セルをクリックして、Ctrl+Vを押す。

遺伝子Bの発現データをコピーする。遺伝子 Aと発現量が近く、分散値がかなり異なる遺伝子を選ぶ（遺伝子Bとする）。

遺伝子Bの行番号をクリックして、Ctrl+Cを押す。 Sheet1のA2セルをクリックして、Ctrl+Vを押す。

遺伝子Cの発現データをコピーする。遺伝子 Aと発現量がかなり異なる遺伝子を選ぶ（遺伝子 Cとする）。

遺伝子Cの行番号をクリックして、Ctrl+Cを押す。

Sheet1のA3セルをクリックして、Ctrl+Vを押す。検定用にデータセットを整える。

Sheet1で、実習で計算した平均値、分散、標準偏差、標準誤差の列を削除する。列ラベルの「B」から「E」をドラッグして選択し、右クリックして「削除」を押す。必ず削除すること!!　削除しないと Rの作業の時にエラーが出ます。

検定のときには不要になります。検定用のテキストデータを出力する。

「ファイル」タブをクリックし、「名前を付けて保存」をクリックする。「名前を付けて保存」ウインドウが表示される。

ファイル名を「testdata」とする。ファイル名を間違えないように!!　「testdate」としやすいようです。

「ファイルの種類」を「テキスト（タブ区切り） (*.txt)」に変えて「保存」をクリックする。注意のウインドウが表示されるが、OKボタンを押す。

「選択したファイルの種類は……」タブで区切られたテキスト形式で保存される。必ずデスクトップに保存すること!! タブで区切られたテキスト形式で保存される(testdata.txt)。デスクトップにできた「testdata.txt」を右クリックし、「プログラムから開く」→「ワードパッド」をクリックする。

選んだ 3遺伝子分の 3行のデータが保存されていることを確認する。必ず確認すること!!　この後の t検定の結果を間違って保存するミスが多いようです。

もう一度エクセル形式で上書き保存する。この段階ではテキストファイルなので、複数のワークシートを使うと不具合が出る可能性があります。

「ファイル」タブをクリックし、「名前を付けて保存」をクリックする。「名前を付けて保存」ウインドウが表示される。

「ファイルの種類」を「Excelブック(*.xlsx)」に変えて、「保存」をクリックする。

Zドライブの「atgenx4biostat16.xlsx」を選んで上書き保存する。

★ エクセルで対応のある t検定をするエクセルで遺伝子AとBとの対応のある t検定をしておく。

後で、Rでの t検定の結果と比較する。「データ」→「データ分析」で「一対の標本による平均の検定」を開く。「データ分析」の確認は前の手順書を参照する（授業では説明します）。

「変数 1の入力範囲」には、遺伝子 Aの発現データを入れる。「変数 2の入力範囲」には、遺伝子 Bの発現データを入れる。「OK」ボタンを押す。結果のシートの「P(T<=t)両側」の値を覚える。

★ Rで「対応のある t検定」をする Rを開く。

「スタート」→「すべてのプログラム」→「R」→「R x64 …」をクリック「R console」ウインドウが開く

データセットをRに入力する。「rawdata <- read.table

(file="C:/Users/tyo23047/Desktop/testdata.txt",header=FALSE,row.names=1,sep="\t")」

「tyo23047」の部分は自分のアカウント番号に変える。「\」はR上では「バックスラッシュ（＼）」になる。

データが無事に入力されたことを確認する。「rawdata[1:3,1:10]」

3遺伝子と左から 10実験分を表示する。データの縦と横を入れ替える。

検定のためには必要な手順です。「data <- t(rawdata)」入れ替えたデータを確認する。

「data[1:10,1:3]」遺伝子Aと遺伝子Bの t検定をする。

「t.test(x=data[,1],y=data[,2],paired=TRUE)」対応のある t検定を行う。

コマンドの意味：1列目のデータ、2列目のデータ、対応があるかどうか。

結果の読み方 t値：今回は特に不要です（t分布表で調べるときには使います）。

df：自由度、今回の場合は「実験数－1」になります。 p値：危険率（帰無仮説の確率）、この値が重要です。

0.05、0.01、0.001と比べて小さいかどうかを確認する。エクセルで計算した p値と比べる。

Rでの p値は限りなく 0に近いときに、「 p≤2.2E-16」と表示されるようです。その場合には、t値で比べてください。

遺伝子Aと遺伝子Cについても t検定をする。作業は遺伝子Aと遺伝子Bの場合と同様です。

★ Rで「対応のあるU検定」をする遺伝子Aと遺伝子BのU検定をする。

「wilcox.test(x=data[,1],y=data[,2],paired=TRUE)」対応のあるU検定を行う。コマンドの意味：1列目のデータ、2列目のデータ、対応があるかどうか。

結果の読み方 V値：W値ともいう。今回は不要です（U分布表で調べるときには使います）。

p値：危険率（帰無仮説の確率）、この値が重要です。 0.05、0.01、0.001と比べて小さいかどうかを確認する。

遺伝子Aと遺伝子CについてもU検定をする。作業は遺伝子Aと遺伝子Bの場合と同様です。

★ 両方の検定の結果から考察する

まずは、遺伝子AとBの結果と遺伝子AとCの結果を比べる。帰無仮説を捨てられるか、統計的に有意かどうか。統計的に有意な場合

ふたつの遺伝子の平均発現量の差について何が言えるか。統計的に有意でない場合

ふたつの遺伝子の平均発現量の差について何が言えるか。検定の結果について、データの特徴（平均値、ばらつき、ヒストグラムのピークなど）を踏まえて考察する。

次に、t検定とU検定の結果を比べる。同様の結果が出た場合または違う結果が出た場合、なぜそうなったのかをデータの特徴を踏まえて考察する。

特に、パラメトリック、ノンパラメトリックについて議論する。

Documents

· Web viewデスクトップにできた「testdata.txt」を右クリックし、「プログラムから開く」→「ワードパッド」をクリックする。 選んだ3遺伝子分の3行のデータが保存されていることを確認する。必ず確認すること!!

· Web viewデスクトップにできた「testdata.txt」を右クリックし、「プログラムから開く」→「ワードパッド」をクリックする。選んだ3遺伝子分の3行のデータが保存されていることを確認する。必ず確認すること!!