6
66 医薬品医療機器レギュラトリーサイエンス  Vol. 50 No. 2(2019) 本誌掲載記事の無断転載・翻訳を禁止します.また,無断複写・複製は著作権法上の例外を除き禁止されています. [医薬品医療機器レギュラトリーサイエンス,PMDRS50 2),66 712019)] 総説 1. はじめに 非劣性(Noninferiority)という用語が初めて登場したの は,ICH-E9 ガイドライン 1,俗に統計ガイドラインとい うものであった.ICH とは,日米欧で医薬品認可の規制 を調和する枠組みのことである.1990 年代,本邦では後 発品(ジェネリック医薬品とは異なり,同種同効品のこと) の承認に当たっては,先発品との臨床同等性を検証する比 較試験が行われていた.しかし,プロトコル逸脱などが多 い,質の劣る試験を実施すると,群間差は小さくなり,同 等性が証明しやすいことが問題視されていた.両群間に有 意差がないことで同等としていたことも問題だった.例数 の少ない試験をすれば有意差はつかないからである. このような同等性試験への反省を踏まえ,ICH の中で 非劣性試験という枠組みが初めて 1998 年に提唱されたの である 12. 非劣性の定義 被験薬と対照薬との比較試験を考える.Fig. 1 に示した ように,優越性・非劣性・判定不能・劣性という四つの可 能性が存在する.優越性試験のおいては,群間差が「0」よ り左側なら,被験薬が優越と判断する.統計学的には, 95%信頼区間(95CI と略す)の下限(右端)がゼロを超 えていれば優越と定義する.被験薬が対照薬より優越では ないものの,劣ってはいないことを示すのが非劣性試験で ある.どこまでが劣っていないとするかのことを,Fig. 1 では「-δ」で表し,非劣性マージンと呼ぶ.95%信頼下限 がこのマージンを上回っていれば非劣性と定義する. Fig.1 の下から 2 番目は少し微妙である.95%信頼下限 が「-δ」を上回っているので非劣性となるが,95%信頼上 限が「0」を下回っているので,被験薬は対照薬より劣ると も思える.このような場合は判定不能と呼んだほうがよい かもしれない.Fig. 1 の一番下のケースは 95%信頼上限 が「-δ」を下回っているので,明らかに劣性を示している. 3. REFLECT 試験 REFLECT 試験とは切除不能肝細胞癌患者 954 例を対 象としたランダム化比較試験(RCT)であり,被験薬レン バチニブと対照薬ソラフェニブを比較している(Fig. 22地域,浸潤の有無,PS Performance Status),体重で層 別化割付した.主要評価項目は全生存率(OS)であり,副 次評価項目は無増悪生存率(PFS),増悪までの期間 TTP),全奏功率(ORR),QOL などを含めた.OS に対 する非劣性試験として計画されたが,非劣性が証明された ときには優越性も分析すると事前に宣言していた.非劣性 の証明は, PFS より OS に対して行うほうがよいとされる. PFS ではイベント数が多くなり,非劣性が証明しやすく なるからである.ITT Intention-to-treat)が好ましくな 癌臨床試験における非劣性試験デザインと結果の解釈 折笠 秀樹 Designing a Non-inferiority Trial as well as Interpreting Results in Cancer Clinical Trials Hideki ORIGASA 富山大学医学部バイオ統計学・臨床疫学 富山県富山市杉谷 2630 (〒 930-0194Faculty of Medicine, University of Toyama, 2630 Sugitani, Toyama 930-0194, Japan

癌臨床試験における非劣性試験デザインと結果の解釈 review...[折笠:癌臨床試験における非劣性試験デザインと結果の解釈] 68 医薬品医療機器レギュラトリーサイエンス

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 癌臨床試験における非劣性試験デザインと結果の解釈 review...[折笠:癌臨床試験における非劣性試験デザインと結果の解釈] 68 医薬品医療機器レギュラトリーサイエンス

66  医薬品医療機器レギュラトリーサイエンス  Vol. 50 No. 2(2019)

本誌掲載記事の無断転載・翻訳を禁止します.また,無断複写・複製は著作権法上の例外を除き禁止されています.

[医薬品医療機器レギュラトリーサイエンス,PMDRS,50(2),66~ 71(2019)]

総 説

1. はじめに

非劣性(Noninferiority)という用語が初めて登場したのは,ICH-E9ガイドライン1),俗に統計ガイドラインというものであった.ICHとは,日米欧で医薬品認可の規制を調和する枠組みのことである.1990年代,本邦では後発品(ジェネリック医薬品とは異なり,同種同効品のこと)の承認に当たっては,先発品との臨床同等性を検証する比較試験が行われていた.しかし,プロトコル逸脱などが多い,質の劣る試験を実施すると,群間差は小さくなり,同等性が証明しやすいことが問題視されていた.両群間に有意差がないことで同等としていたことも問題だった.例数の少ない試験をすれば有意差はつかないからである.このような同等性試験への反省を踏まえ,ICHの中で非劣性試験という枠組みが初めて 1998年に提唱されたのである1).

2. 非劣性の定義

被験薬と対照薬との比較試験を考える.Fig. 1に示したように,優越性・非劣性・判定不能・劣性という四つの可能性が存在する.優越性試験のおいては,群間差が「0」より左側なら,被験薬が優越と判断する.統計学的には,95%信頼区間(95% CIと略す)の下限(右端)がゼロを超えていれば優越と定義する.被験薬が対照薬より優越では

ないものの,劣ってはいないことを示すのが非劣性試験である.どこまでが劣っていないとするかのことを,Fig. 1では「-δ」で表し,非劣性マージンと呼ぶ.95%信頼下限がこのマージンを上回っていれば非劣性と定義する.Fig.1の下から 2番目は少し微妙である.95%信頼下限が「-δ」を上回っているので非劣性となるが,95%信頼上限が「0」を下回っているので,被験薬は対照薬より劣るとも思える.このような場合は判定不能と呼んだほうがよいかもしれない.Fig. 1の一番下のケースは 95%信頼上限が「-δ」を下回っているので,明らかに劣性を示している.

3. REFLECT試験

REFLECT試験とは切除不能肝細胞癌患者 954例を対象としたランダム化比較試験(RCT)であり,被験薬レンバチニブと対照薬ソラフェニブを比較している(Fig. 2)2).地域,浸潤の有無,PS(Performance Status),体重で層別化割付した.主要評価項目は全生存率(OS)であり,副次評価項目は無増悪生存率(PFS),増悪までの期間(TTP),全奏功率(ORR),QOLなどを含めた.OSに対する非劣性試験として計画されたが,非劣性が証明されたときには優越性も分析すると事前に宣言していた.非劣性の証明は,PFSよりOSに対して行うほうがよいとされる.PFSではイベント数が多くなり,非劣性が証明しやすくなるからである.ITT(Intention-to-treat)が好ましくな

癌臨床試験における非劣性試験デザインと結果の解釈

折笠 秀樹*

Designing a Non-inferiority Trial as well as Interpreting Results in Cancer Clinical Trials

Hideki ORIGASA*

* 富山大学医学部バイオ統計学・臨床疫学 富山県富山市杉谷 2630 (〒 930-0194) Faculty of Medicine, University of Toyama, 2630 Sugitani, Toyama 930-0194, Japan

Page 2: 癌臨床試験における非劣性試験デザインと結果の解釈 review...[折笠:癌臨床試験における非劣性試験デザインと結果の解釈] 68 医薬品医療機器レギュラトリーサイエンス

[折笠:癌臨床試験における非劣性試験デザインと結果の解釈]

Pharmaceutical and Medical Device Regulatory Science Vol. 50 No. 2(2019)  67

No reproduction or translation of articles in this journal without permission. Moreover, copy or reproduction without permission is prohibited except for exception under copyright laws.

いのと同様の理由である.24件の非劣性癌臨床試験の主要評価項目の調査によると3),OSが 10試験,PFSが 5試験,そしてORRが 9試験という結果であった.第 II相試験では,ORRを一次エンドポイントにすることが多い.なお,REFLECT試験の副次評価項目については優越性の検証を計画していた.

4. 非劣性試験を見るときのポイント

Table 1に非劣性試験を見るときの九つのポイントを示した.REFLECT試験を例にとって順に解説する.

4.1 対照薬の適切性対照薬の適切性は,分析感度(Assay sensitivity)と一定性(Constancy)にまとめられる.対照薬が十分効果のあるものでないと,比較自体の意味がなくなる.弱い対照薬に劣っていないことを立証したとしても,それは被験薬が十分有効であるという証拠にはならない.対照薬の効果がプラセボに比べて十分大きければ,非劣性試験の分析感度は高いとみられる.分析感度を確保するには,非劣性試験において,第 3群としてプラセボ群を置いて確かめる手法もある.対照薬がプラセボに対して有意に優れることを示すことにより,被験薬と対照薬の比較分析の感度は保証さ

Fig. 1 優越性と非劣性の違い

横棒は 95%信頼区間を表す.δは非劣性マージンを表す. 「-δ」までが非劣性,つまり劣性とはみなさない.

Fig.1 優越性と非劣性の違い横棒は95%信頼区間を表す。 δは非劣性マージンを表す。「-δ」までが非劣性、つまり劣性とはみなさない。

優越性(superiority)95%信頼下限が「0」を上回る

対照薬が優れる(被験薬が劣る)被験薬が優れる

非劣性(noninferiority)95%信頼下限が「-δ」を上回る

判定不能(inconclusive)非劣性だが信頼上限が「0」を下回る

0δ -δ

劣性(inferiority)95%信頼上限が「-δ」を下回る

Fig .2 REFLECT試験の試験概要多施設共同、ランダム化、非盲検、国際共同第III相、非劣性試験

切除不能幹細胞癌患者954例(20か国、154施設)

●全身化学療法の治療歴がない●測定可能標的病変≧1●BCLC病期B又はC●Child-PughクラスA●ECOG PS 0-1

除外●Vp4●胆管浸潤●腫瘍肝占拠率50%以上

層別化因子●地域:アジア・太平洋 vs 西洋●肉眼的門脈浸潤/肝外転移:あり vs なし●ECOG PS: 0 vs 1●体重: <60㎏ vs ≧60㎏

ランダム化

レンバチニブ群

12㎎/日(体重≧60kg)8㎎/日(体重<60kg)

n=478例

ソラフェニブ群

1回400㎎ 1日2回

n=476例

主要評価項目●OS副次評価項目●PFS,TTP,ORR (mRECIST)●QOL:EORTC QLQ-C30, QLQ-HCC18●safety, tolerability●PK, PK/PD

Fig. 2 REFLECT試験の試験概要

多施設共同,ランダム化,非盲検,国際共同第Ⅲ相,非劣性試験

Page 3: 癌臨床試験における非劣性試験デザインと結果の解釈 review...[折笠:癌臨床試験における非劣性試験デザインと結果の解釈] 68 医薬品医療機器レギュラトリーサイエンス

[折笠:癌臨床試験における非劣性試験デザインと結果の解釈]

68  医薬品医療機器レギュラトリーサイエンス  Vol. 50 No. 2(2019)

本誌掲載記事の無断転載・翻訳を禁止します.また,無断複写・複製は著作権法上の例外を除き禁止されています.

れることになる.対照薬のソラフェニブはプラセボ対照の比較試験を実施しているので,REFLECT試験は間接的に分析感度が保証されているといえるだろう.一定性というのは,対照薬とプラセボの比較試験の結果が複数あったとき,それらの結果はほぼ同様の成績を示していることを指す.

4.2 試験デザインの適切性試験デザインに対して,被験薬に有利になるような対象

の選択や,エンドポイントの選択は容易にできる.即効性が特徴の被験薬であれば,初期にエンドポイントを持ってくるかもしれないが,それは不公平な試験デザインである.薬剤の特徴を立証するからいいではないかという意見もあるが,その疾病にとって意味のあるエンドポイントを設定するのが筋であろう.癌臨床試験では結果が明確で信頼性も高いことから,OSがエンドポイントとして用いられることが多い.用法用量についても,同じ効力を示すと思われる用量同士にしなければ,正しい比較にはならない.

4.3 実施の適正性ランダム割付の逸脱,盲検性の逸脱,エンドポイント判

定のいい加減さ,このようなことがあれば群間差はゼロへ

近づきがちとなる.割付治療への遵守が損なわれても同等の方向となる.そうなると非劣性がいいやすくなってしまう.

4.4 非劣性マージンの設定癌臨床試験では,1.25(HR: Hazard Ratio=0.8, 20%抑制に相当),1.33(HR=0.75, 25%抑制に相当),1.43(HR=0.7, 30%抑制に相当)辺りを非劣性マージンに設定することが多かった.ベースの医療水準が上がるにつれ最小差が小さくなり,1.18(HR=0.85, 15%抑制相当)や 1.11(HR=0.9, 10%抑制相当)辺りを「-δ」に設定されるようになってきた.およそ,非劣性マージンは 1.049~ 1.43に分布しているようである4).これは臨床的に意味のある最小差で設定する,Conventional methodと呼ばれる.Fixed margin approachでは,ヒストリカル(先行研究)データにおいて,プラセボとの差の点推定値(例えば,HR=1.2)を起点にする.非劣性のライン「-δ」は,プラセボとの差である 1.2より小さくしなければならない.どれくらい小さくするかは,実薬の効果に保持率(Retention or Preservation)を考慮する.保持率 0%ではマージンは 1.2のままであり,保持率 100%ではマージンは 1.0になる.保持率は 50%にすることが多く(50%ルール),HR=1.2のときは,(1.2- 1)/2=1.1をマージンとする.95%-95% CI methodでは,起点はプラセボとの差の点推定値ではなく,その 95%信頼下限値とする.REFLECT試験の非劣性マージン設定は,“Non-inferiority margin of 1.08 by the 95% CI lower-limit method”と書かれている2).上に書いた 95%-95% CI methodに相当することが分かる.すなわち,対照薬であるソラフェニブのプラセボに対する効果を表すハザード比の 95%信頼下限を起点とした.論文には,“HR for overall survival was assumed to be 0.80”と書かれているので,HRの点推定は 0.80と分かる.このHRはソラフェニブのプラセボに対するHRであるが,逆に表すとHRの点推定は 1.25に相当する.95%信頼下限のことまでは論文中に言及されていないが,仮に 1.2であったとしよう.更に,“non-inferiority margin of 1.08 (corresponding to 60% retention of sorafenib vs placebo)”とあるので,保持率は 60%と分かる.Fig. 3に示したように,非劣性マージン「-δ」は確かに 1.08と算出された.通常の 50%保持率(50%ルール)では「-δ」は 1.10なので,1.08は厳しめの非劣性マージンであると分かる.なお,24件の非劣性癌臨床試験の調査では,全て 95%-95% CI methodが使われていたようである3).保持率を加味したかどうかは不明である.

Table 1 非劣性試験を見るときのポイント ① 対照薬の適切性 Assay sensitivity(分析感度)→対照薬はプラセボに比べ

て十分優れていたか Constancy(一定性) →対照薬 vs プラセボの比較試験の

結果はほぼ一定だったか ② 試験デザインの適切性 対象の組み入れ基準・治療法(用法用量など)・エンドポ

イントは両群に公平であったか ③ 実施の適正性 ランダム割付・二重盲検・エンドポイント判定などは 適正であったか

④ 非劣性マージンの適切性 先行する試験結果などに基づいて設定したか ⑤ 例数設計の適切性 非劣性を考慮した例数設計を行ったか ⑥ 解析対象集団の適切性 一般には ITT 集団がベストとされるが,非劣性につい

ては PP 集団も行っていたか ⑦ 検定手法の適切性 片側であれば 97.5%信頼区間,両側であれば 95%信頼

区間を用いていたか ⑧ 結果表現の適切性 「非劣性が有意だった」のように,優越性の有意性を 伺わせる表現ではないか

下駄をはかせた検定 P 値を示さずに,両側 95%信頼区

間のみ提示するのがよい ⑨ 仮説スイッチの適切性 非劣性仮説が立証されたのちの優越性仮説の立証は

よいが,その逆をしていないか

Page 4: 癌臨床試験における非劣性試験デザインと結果の解釈 review...[折笠:癌臨床試験における非劣性試験デザインと結果の解釈] 68 医薬品医療機器レギュラトリーサイエンス

[折笠:癌臨床試験における非劣性試験デザインと結果の解釈]

Pharmaceutical and Medical Device Regulatory Science Vol. 50 No. 2(2019)  69

No reproduction or translation of articles in this journal without permission. Moreover, copy or reproduction without permission is prohibited except for exception under copyright laws.

4.5 例数設計非劣性試験の例数設計は優越性の例数設計とは異なる.

非劣性試験は本質的に片側検定なので,第 1種の過誤はα/2ではなく,αそのものとなる.ただし,α=0.025(片側97.5% CI)が勧められているので,両側検定で第 1種の過誤α(両側 5%)と本質的には同じである.REFLECT試験では,1群当り目標症例数 500例に対して検出力計算がなされていた2).優越性の期待ハザード比 1.2に対する検出力は 82%,非劣性マージン 1.08に対する非劣性の検出力は 97%と記載があった2).Table 2に示したように,優越性の検出力 82%のとき 1群 554例と計算され,目標症例数 500例にほぼ一致していた.非劣性ではHR=1.2に下駄(HR=1.08)をはかせるので,対立仮説はHR=1.28と設定した.検出力 97%のとき 1群 537

例と計算され,こちらもほぼ一致していた.第 1種の過誤は,非劣性も優越性も片側 2.5%にした.非劣性は片側検定なので片側 5%にすることもあるが,ほとんどで片側2.5%(両側では 5%)が推奨されている.

4.6 解析対象集団RCTでは ITT解析がデフォルトであるが,非劣性試験ではそれだけでなく,PP(Per protocol)解析もすることが勧められる.ITT解析のほうが例数も増え,信頼幅は狭まる.また,ITT解析のほうが差は薄まりやすい.そこで,ITT解析のほうで非劣性が証明しやすいので,非劣性試験では PP解析も同時に実施することが勧められる.

Fig. 3 ヒストリカルデータ(実薬とプラセボの比較)から非劣性マージンの設定実薬(A)とはソラフェニブのことであり、非劣性試験では対照薬として設定された。

0.8 0.9 1 1.1 1.2 1.3

ハザード比(PAに関する)

実薬(A)が優れるプラセボ(P)が優れる

95%信頼区間(実薬ソラフェニブとプラセボを比較した既存データ)

論文データ2)ハザード比(𝐴𝐴𝐴𝐴

𝑃𝑃𝑃𝑃)=0.8 →ハザード比(𝑃𝑃𝑃𝑃

𝐴𝐴𝐴𝐴)=1/0.8=1.25 [点推定値]

→95%信頼下限値を1.2と仮定した(論文中には記載なし).Retention rate =0.6(60%) → (1.2-1) x (1-0.6) + 1 = 1.08 (-δ)←論文2)事例Retention rate =0.5(50%) → (1.2-1) x (1-0.5) + 1 = 1.10(-δ)

[60% retention (preservation)]

1.08

[50% retention (preservation)] ー50%ルールと呼ぶ

1.10

厳しめの設定

甘目の設定

Fig. 3 ヒストリカルデータ(実薬とプラセボの比較)から非劣性マージンの設定

実薬(A)とはソラフェニブのことであり,非劣性試験では対照薬として設定された.

Table 2 非劣性試験のための例数設計 優越性試験(Superiority trials) → N = 2 [Z1-α/2 + Z1-β]2 / [ln (HR)] 2 [per group] HR=ハザード比 事例 2)(対立仮説: HR=1.2, 1 群当たり約 500 例で, Power 82%と算出した.) → α/2=0.025, Power 82%(β=0.18), 期待 HR=1.2 で算出すると,N=2 (1.96+0.92) 2/ [ln (1.2)] 2 = 499 イベント/group → 554 例(最終的死亡率を 90%と仮定すると,499/0.9=554 例と算出)~500 例 非劣性試験(Noninferiority trials) → N = 2 [Z1-α + Z1-β]2 / [ln (HR’ )]2 [per group] 事例 2)(対立仮説: HR’ =1.28, 1 群当たり約 500 例で, Power 97%と算出した.) → α=0.025, Power 97%(β=0.03), 期待 HR’=1.28 で算出すると,N=2 (1.96+1.88)2/ [ln (1.28)]2 = 484 イベント/group → 537 例(最終的死亡率を 90%と仮定すると,484/0.9=537 例と算出)~500 例 論文事例 2)における例数設計(優越性 82%検出力,非劣性 97%検出力)にほぼ一致していた. 非劣性試験マージン 1.08 なので,HR=0.08 分の下駄をはかせ,期待 HR’ =1.2+0.08=1.28 とした.

Page 5: 癌臨床試験における非劣性試験デザインと結果の解釈 review...[折笠:癌臨床試験における非劣性試験デザインと結果の解釈] 68 医薬品医療機器レギュラトリーサイエンス

[折笠:癌臨床試験における非劣性試験デザインと結果の解釈]

70  医薬品医療機器レギュラトリーサイエンス  Vol. 50 No. 2(2019)

本誌掲載記事の無断転載・翻訳を禁止します.また,無断複写・複製は著作権法上の例外を除き禁止されています.

4.7 信頼区間の適切性非劣性試験の例数設計では片側検定が分かりやすいが,

実際のデータ解析をするときは両側 95% CIを示すのが通常である.片側検定では片側 97.5% CIを示すのと同じである.医療機器では片側 95% CIを認める例もあるようである5).

4.8 結果の解釈非劣性の証明というのは,両群の差を直接比較して検定

するのではなく,被験薬のほうに「δ」だけ下駄をはかせてから比較することに等しい.非劣性の検定でも P値は出るが,それは下駄をはかせたうえでの P値であり,直接比較,つまり優越性の検定 P値とは異なる.そこで,非劣性は統計学的に有意であったと表現すると,優越性試験が有意であったと誤解されがちである.したがって,非劣性試験では検定結果 P値を示すことはせずに,両側95% CI(あるいは片側 97.5% CI)だけを示し,それを見て読者が判断するだけのほうが無難であろう.非劣性 Pがいくら,優越性 Pがいくらとする例を見か

けることがあるが,私自身は非劣性を主にした臨床試験では P値は書かないほうがよいと思っている.REFLECT試験においても,主要評価項目であるOSだけは P値が優越性と非劣性の両者に伴うので,あえて空白にされていた(論文 2)のTable 2).副次評価項目については優越性の検証を計画していた.PFSのハザード比は 0.66(95% CI 0.57-0.77, P<0.0001),TTPのハザード比は 0.63(95% CI 0.53-0.73, P<0.0001),ORRのオッズ比は 3.31(95% CI

2.15-4.56, P<0.001)であった.このように,優越性については P値を示すことは問題ないと思われる.

4.9 非劣性と優越性のスイッチ非劣性は証明されたが,よく見ると「0」を上回っており,優越性が有意に証明されていることがある.このときに,当初の計画では非劣性を検証することであったが,優越性が検証されたと結論してもよいだろうか.より厳しいハードルについての検証なので,多重性の議論と同じように,細部を検証するのは問題ないと思われる.しかし,逆は勧められない.優越性を証明するつもりが叶わなかったが,下駄をはかせた非劣性は証明できた.こちらは 1段目をクリアしていないので,次の仮説へ進むことは論理的に許されないだろう.被験薬レンバチニブの対照薬ソラフェニブに対するハザード比は 0.92であり,両側 95% CIは[0.79, 1.06]であった(Fig. 4).ここでは,ハザード比が 1より小さいことは,被験薬のほうが有効であることを意味する.被験薬から見ると 1.06という値は有効性の下限なので,95%信頼下限と表した.95%信頼下限(=1.06)は非劣性マージン(=1.08)よりも上回っていたため,非劣性は統計学的に証明された.その結果,優越性も検定することになった.95%信頼区間が 0をまたいでいるので,優越性は非有意ということが分かる.優越性の P値と非劣性の P値があると紛らわしいので,論文中には P値は提示せず,95%信頼区間だけが示された.

Fig. 4 論文事例2)における非劣性の検証非劣性マージン(-δ)は、計画段階で1.08と設定されていた。数値上1.06は95%信頼上限のようだが、被験薬から見ると有効性の下限なので、95%信頼下限とした。癌臨床試験では、逆数(対照薬vs被験薬, S/L)のハザード比(HR>1で優越性)を示すこともある。

ハザード比 ( 𝐿𝐿𝐿𝐿𝑆𝑆𝑆𝑆

)

95%信頼下限(1.06)が「-δ」(=1.08)を上回っていたので,非劣性は証明されたことを表す.この例のように,非劣性検証のためのP値はあえて示さないほうが誤解を招かない.ln (HR)に関する95%CIは対称だが,HRに関する95%CIは対称とは限らない.

0.8 0.9 1 1.1

対照薬ソラフェニブ (S)が優れる被験薬レンバチニブ(L)が優れる

0.79 0.92 1.06 HR=0.92 (95%CI 0.79-1.06)

-δ(=1.08)

非劣性優越性

Fig. 4 論文事例 2)における非劣性の検証

非劣性マージン(-δ)は、計画段階で 1.08と設定されていた. 数値上 1.06は 95%信頼上限のようだが,被験薬から見ると有効性の下限なので,95%信頼下限とした. 癌臨床試験では、逆数(対照薬 vs被験薬,S/L)のハザード比(HR>1で優越性)を示すこともある.

Page 6: 癌臨床試験における非劣性試験デザインと結果の解釈 review...[折笠:癌臨床試験における非劣性試験デザインと結果の解釈] 68 医薬品医療機器レギュラトリーサイエンス

[折笠:癌臨床試験における非劣性試験デザインと結果の解釈]

Pharmaceutical and Medical Device Regulatory Science Vol. 50 No. 2(2019)  71

No reproduction or translation of articles in this journal without permission. Moreover, copy or reproduction without permission is prohibited except for exception under copyright laws.

5. おわりに

これまで多くの抗癌剤の比較試験において非劣性の証明が失敗してきた.REFLECT試験では,被験薬レンバチニブの対照薬ソラフェニブに対する非劣性が証明された.しかし承認審査においては,非劣性の証明だけで被験薬の製造販売が認可されることはない.副次評価項目の優越性など,周辺情報が被験薬に優位に働いていることを十二分に確認したうえでなされる.このため,非劣性が証明されたことのみをこと更に言い立てることのないように注意したい.

文   献1) International Conference on Harmonization. E9 Statistical

principles for clinical trials, 1998.2) Kudo, M.; Finn, R.; Qin, S.; Han, K.H.; Ikeda, K.; Piscaglia, F.; Baron, A.; Park, J.W.; Han, G.; Jassem, J.; Blanc, J.F.; Vogel,

A.; Komov, D.; Evans, T.R.J.; Lopez, C.; Dutcus, C.; Guo, M.; Saito, K.; Kraljevic, S.; Tamai, T.; Ren, M.; Cheng, A.L.. Lenvatinib versus sorafenib in first-line treatment of patients with unresectable hepatocellular carcinoma: A randomized phase 3 non-inferiority trial. Lancet .2018, 391(10126), p.1163-1173. doi: 10.1016/S0140-6736(18)30207-1.

3) Saad, E.D.; Buyse, M.. Non-inferiority trials in breast and non-small cell lung cancer: Choice of non-inferiority margins and other statistical aspects. Acta Oncologica . 2012, 51(7), p.890-896. doi: 10.3109/0284186X.2012. 702924.

4) Suda, K.J.; Hurley, A.M.; McKibbin, T.; Moreney, S.E.M.. Publication of noninferiority clinical trials: Changes over a 20-year interval. Pharmacotherapy. 2011, 31(9), p.833-839.

5) Burotto, M.; Prasad, V.; Fojo, T.. Non-inferiority trials: Why oncologists must remain wary. Lancet Oncology. 2015, 16(4), p.364-366. doi: 10.1016/S1470-2045(15)70129-4.