34
部会資料 臨床試験の用量選択に関わる 諸問題と展望 平成 21 9 医薬品評価委員会 統計・DM 部会 発行 医薬出版センター

臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

部会資料

臨床試験の用量選択に関わる 諸問題と展望

平成 21 年 9 月

日 本 製 薬 工 業 協 会

医薬品評価委員会 統計・DM 部会

発行 医薬出版センター

Page 2: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

目 次 1. はじめに .................................................................................................................................... 1 2. 背景 ........................................................................................................................................... 2

2.1 臨床試験を取り巻く環境 ...................................................................................................... 2 2.2 海外のリワーク事例 ............................................................................................................. 2 2.3 国内のリワーク事例 ............................................................................................................. 3

3. 用量反応試験 ............................................................................................................................. 4 3.1 医薬品開発における用量反応情報と用量反応試験 .............................................................. 4 3.2 用量反応試験の目的とデザイン ........................................................................................... 5

3.2.1 服薬頻度 ........................................................................................................................ 5 3.2.2 用量幅 ............................................................................................................................ 5 3.2.3 用量群の数 ..................................................................................................................... 6 3.2.4 各用量の間隔 ................................................................................................................. 6 3.2.5 対照群の利用 ................................................................................................................. 7 3.2.6 各群の被験者数 ............................................................................................................. 7 3.2.7 固定用量/用量漸増法 ................................................................................................... 7 3.2.8 評価項目 ........................................................................................................................ 7 3.2.9 対象集団 ........................................................................................................................ 8

3.3 日本で行われている用量反応試験 ....................................................................................... 8 3.4 欧米で行われている用量反応試験 ....................................................................................... 8

4. アダプティブ・デザイン ......................................................................................................... 10 4.1 アダプティブ・デザインの基本概念 .................................................................................. 10 4.2 日米欧の産官を交えたアダプティブ・デザインに対する活動 .......................................... 11 4.3 アダプティブ・デザインの利点と問題点 .......................................................................... 12 4.4 国内外におけるアダプティブ・デザイン試験の現状 ........................................................ 12

5. アダプティブ用量反応試験 ...................................................................................................... 14 5.1 PhRMAの取り組み ............................................................................................................. 14

5.1.1 手法の紹介 ................................................................................................................... 14 5.1.1.1 Traditional approach (ANOVA) ........................................................................... 15 5.1.1.2 General adaptive dose allocation approach (GADA) ........................................... 15 5.1.1.3 D-optimal response-adaptive approach (Dopt) .................................................... 18 5.1.1.4 Multiple comparison-modeling approach (MCP-Mod) ........................................ 19

5.1.2 シミュレーション ........................................................................................................ 19 5.1.3 推奨事項 ...................................................................................................................... 21

Page 3: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

5.2 アダプティブ用量反応試験の事例 ..................................................................................... 22 5.2.1 臨床試験の概要 ........................................................................................................... 22 5.2.2 有効性評価 ................................................................................................................... 23 5.2.3 割付比率の変更 ........................................................................................................... 24 5.2.4 試験の早期中止 ........................................................................................................... 24 5.2.5 試験データの入手とLongitudinalモデル .................................................................... 25 5.2.6 試験結果 ...................................................................................................................... 25

5.3 考察 .................................................................................................................................... 25 6. まとめ ...................................................................................................................................... 27 7. 参考文献 .................................................................................................................................. 28

Page 4: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

1. はじめに

Dose-finding is difficult, essential and often badly done. It is a safe bet that many a potentially useful

drug has been lost by failing to establish an appropriate dose.

Stephan Senn, 1997

近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

りも数倍以上大きいことも珍しくない(DiMasi, 2003)。このため第Ⅲ相試験で用いる用量を適

切に選択することは真に有効な薬剤の効果を効率よく検証するために重要であるばかりでな

く、用量選択に起因する第Ⅲ相での試験失敗のリスクを低減するためにも重要である。我々は、

試験計画における用量反応情報の採り方と得られた用量反応情報の解釈について、一般論を交

えながら解説するとともに、新たな方策として Adaptive Dose Ranging Study(アダプティブ用量

反応試験)を採り上げる。それらの解説と国内外での現状を踏まえ、用量反応試験において考

えられるリスク低減の方策を探る。

医薬品開発において、用量反応試験の段階での失敗は、試験のやり直しや、時には本来有効

な薬剤を見逃すことにもなる。また、用量選択の判断の誤りは、比較的大規模となる第Ⅲ相試

験(検証試験)での失敗に繋がることになり、結果として製薬企業は開発期間、費用等の面で

大きな損失を被ることになる。そのため用量選択に関わるリワーク(試験のやり直しや後戻り)

を防ぐことは医薬品開発におけるリスク低減に繋がるものである。

上述の点を踏まえ、我々は臨床開発のリワーク、特に検証段階でのリワークのリスクを低減

させるために適切な用量反応試験のあり方に着目した。ここでいう用量反応試験は、検証的な

第Ⅲ相試験の用量を決定するための試験(後期第Ⅱ相試験)であるが、ひとつの試験で PoC

(Proof-of-Concept) と用量設定を目的とする場合も含めて検討した。有効性の検証試験(第Ⅲ

相試験)には用量反応の検討を目的に含むものや、近年、欧米を中心に検討されている至適用

量の決定(第Ⅱ相試験)と検証(第Ⅲ相試験)をシームレスに行うアダプティブ・デザイン試

験(シームレス第Ⅱ/Ⅲ相試験デザイン)もあるが、これらは検討対象外とした。

参考にした報告や文献には、用量反応試験(dose response study)、用量範囲試験(dose ranging

study)、用量設定試験(dose finding study)等のいくつかの用語が使われているが、本報告書で

は全て「用量反応試験」を用いることとした。また、optimal dose 及び target dose は至適用量と

した。

1

Page 5: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

2. 背景

2.1 臨床試験を取り巻く環境 医薬品の開発に要する時間とコストは増加の一途を辿っており、新薬候補物質が承認・市販

に至るケースは限られてきている。Kola ら(2004)は 1991 年から 2000 年にかけて製薬企業 10

社から得たデータより臨床試験のフェーズ別の成功確率を疾患領域ごとに報告している。その

データによると、すべての疾患領域を総合した場合、第Ⅰ相試験が実施された薬剤のうち実際

に承認・市販に至った薬剤は全体の 11%、疾患領域毎にみると最も成功確率が高い循環器領域

でも 20%、成功確率が比較的低い腫瘍領域および中枢神経領域ではそれぞれ 5%、8%であった。

疾患領域全体での臨床試験各段階の成功確率をみると、第Ⅱ相から第Ⅲ相に移行できた薬剤は

38%、第Ⅲ相試験実施から承認申請に至るものは 55%、さらに承認申請を行った薬剤のうち実

際に承認取得・市販に至った薬剤は 77%であり、第Ⅱ相試験を実施した薬剤のうち約 2/3 が第

Ⅲ相に移行できず、その後多大な投資を行って第Ⅲ相試験を実施したにもかかわらず半分以上

の薬剤が承認取得に至らなかったというデータが得られた。その結果が製薬企業へ与えたイン

パクトは甚大であったことは容易に推察できる。2000 年時点の主な失敗の原因は、”Lack of

efficacy”,”Clinical safety/toxicology”がそれぞれ 30%程度との報告がある。”Lack of efficacy”に関

しては、疾患領域によって動物モデルからその薬剤の有効性を予測することの困難さが指摘さ

れているが、それ以上の詳細な分析・記載は無く、残念ながら今回我々が着目した用量選択に

直接関わる失敗がどの程度であったかなどの検討はなされていない。

2.2 海外のリワーク事例 リワークの具体的な事例として、変形性関節症治療薬の用量反応関係を検討した臨床試験を

紹介する(Ting, 2008; 小宮山, 2008)。用量反応試験を 4 群(Placebo 、160 mg、120 mg、80 mg)

で実施し、いずれの用量でも Placebo との差は検出できたが、実薬群での反応がほぼ等しかっ

た(Study 1)。次に、低用量を含めた実薬の 3 群(Placebo、120 mg、80 mg、40 mg)を設定し

再度試験を実施したが、結果は初回のものと同様で実薬群での反応に違いはなかった(Study 2)。

3回目の用量反応試験(更に低用量群で実施:Placebo、40 mg、10 mg、2.5 mg)で、ようやく

用量が増えるにつれて実薬の反応が大きくなっていく用量反応情報が得られた(Study 3)。こ

の事例では、先行していた他の適応症での選択用量が決まっていたこともあり、比較的狭い用

量幅(高用量 160 mg/低用量 80 mg=2 倍)で最初の試験が実施されていた。

2

Page 6: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

Study 1 Study 2 Study 3

図 2.2-1 用量反応試験のリワーク事例 (Ting の論文より)

ある外資系製薬会社でリワークの原因に関する調査結果によると、最初に患者で用量反応関

係を調べる試験で、設定した用量幅が狭かった開発プロジェクトではリワークが多く発生した

が、10 倍以上の用量幅を設定したプロジェクトではリワークは発生しなかったとしている。よ

って、狭い用量幅の設定が用量反応情報を1回で見極められなかった要因のひとつである可能

性を指摘している。

また、後述する米国研究製薬工業協会(Pharmaceutical Research and Manufacturers of America,

PhRMA)の White Paper(Bornkamp, 2007)では、「実際の数は分からないが、第Ⅲ相試験での

多くの失敗は、製薬企業に損害を与え続けている。その理由のひとつには、不適切な用量選択

が挙げられるであろう。すなわち期待される効果を得るには低過ぎることもあれば、用量依存

的な有害事象を生じる程高過ぎることもある。」と述べている。

2.3 国内のリワーク事例 国内の臨床開発における用量反応試験のリワーク事例について、独立行政法人 医薬品医療

機器総合機構(Pharmaceuticals and Medical Devices Agency, PMDA)の新薬の承認審査に関する

情報をもとに検討した。

検討対象とした承認品目はオーファンドラッグを除く新規有効成分とし、PMDA の HP より

審査報告書及び審議会審議結果報告書が入手できるものとした(平成 13 年 4 月~平成 19 年 4

月承認品目中、計 254 成分を検討)。しかしながら、用量反応試験に関わる明らかなリワーク

事例を特定することはできなかった。

これは、審査報告書に掲載される品目は承認を得た、いわゆる成功事例であり、用量反応試

験の段階での失敗を含む事例は特定できなった。また、リワークをせざるを得ないような明白

な失敗があった場合には開発中止も想定され、そのような場合には開発経緯が審査報告書等の

形で公開されることはない。これらの点を考慮すると、審査報告書からの情報収集・分析には

限界があるものと考えられた。

3

Page 7: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

3. 用量反応試験

3.1 医薬品開発における用量反応情報と用量反応試験 医薬品の臨床開発計画全体において、用量(用法を含む)と反応に関する情報をいつどのよ

うに収集するかは重要な論点である。「新医薬品の承認に必要な用量-反応関係の検討のため

の指針」(ICH E4)によると、用量反応情報の収集は、非臨床から臨床開発の全体を通して、

各段階で必要な情報を収集し、その後の治験及び市販後の使用に有益な情報を得ることが目的

である。すなわち、用量、血中濃度および臨床での反応(有効性及び安全性)の関係を知り、

集団あるいは個々の患者に対して、適切な開始用量、特定の患者の必要性に合わせて用量を調

整する最もよい方法や、また、増量してもそれ以上有益性が期待できないか、あるいは増量す

ると忍容できない副作用が発現すると思われる用量を見いだすことである。

医薬品の用量反応に焦点をあてた数少ない教科書のひとつに ”Dose Finding in Drug

Development”(Ting, 2006)があり、その中で Ting は医薬品開発におけるリワーク削減という

観点から用量反応試験について重要な示唆を与えている。本報告書の中でそのいくつかを紹介

する。用量反応情報の収集において最も重要な段階は「至適用量幅の決定のための用量設定試

験」、すなわち検証的な第Ⅲ相試験で用いる用量を決定する第Ⅱ相試験であろう。第Ⅱ相試験

の用量は、第 I 相試験で得られた情報等に基づいて、第 I 相試験の用量は非臨床で得られた情

報等に基づいて設定される。第 I 相試験では、薬物動態の推定と最大耐量(Maximum Tolerable

Dose, MTD)の推定を目的としている。第Ⅱ相試験にはいくつかの目的がある。多くの場合、

最初の患者対象試験では薬効の存在確認(Proof-of-Concept, PoC)を目的とし、MTD あるいは

MTD に近い投与量で薬効の存在を確認する。高用量を用いる理由は、効果が単調増加である

と想定すれば、より高い用量でより大きな効果が期待できるからである。いわゆる用量反応試

験は、通常プラセボ群といくつかの用量群を含み、理想的には、低い用量から高い用量まで幅

広い範囲をカバーすべきである。また、実対照薬の設定も考慮すべき場合もある。用量反応試

験の主たる目的は、有効性と可能であれば安全性に関する用量反応関係を推定すること及び検

証的な第Ⅲ相試験で設定する用量を決めることである。第Ⅲ相試験では、選択された用量で薬

剤の有効性を検証し、原則として有効性が検証された用量が臨床推奨用量(承認用量)となる。

臨床試験計画においては、複数の目的をそれぞれ別々の試験で達成することもできるし、ひ

とつの試験の中で複数の目的を持つようにデザインすることもできる。例えば、薬物動態に関

する情報と MTD をひとつの試験で得ることができる。また、PoC と用量反応関係の推定をひ

とつの試験で達成するようにデザインすることが可能な場合もある。

医薬品の用量反応試験に関する教科書には、「医薬開発のための臨床試験の計画と解析」(上

坂、2006)、”Statistical Methods for Dose-Finding Experiments”(Chevret, 2006)がある。さらなる

理解のためにはこちらも参照されたい。

4

Page 8: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

3.2 用量反応試験の目的とデザイン 用量反応試験を計画するときに重要なことは、試験の目的を明確にした上で必要な規模(サ

ンプルサイズ)の試験を計画することである。

用量反応試験の目的としては、例えば

- 用量と反応の間に意味のある関係があるかどうかを調べる

- 用量反応曲線を推定する

- 最小有効用量(Minimum Effective Dose, MinED)を見つける

- 特定の用量とプラセボ群との間に意味のある差があるかどうか調べる

などが挙げられるが、おそらく最も重要な目的は検証的な第Ⅲ相試験の用量を決定すること

である。用量反応試験には複数の目的が設定されることが多く、そのような場合には、目的

に優先順位を付けることが重要である。通常、用量反応試験の場合、検定の多重性を調整す

るか否か、有意水準及び検出力(目的を達成する確率)は基本的に企業側の責任で決定すべ

き事項である(Krams, 2008; Wang, 2007)。

用量反応試験を計画する段階では、試験デザインを決定する上で必要な情報に不明確な点が

ある場合が多い。その時点で得られている情報は、非臨床試験や第 I 相臨床試験から得られた

情報であり、患者での有効性・安全性の情報は全くないか、あってもごく僅かな情報に限られ

ている。第 I 相試験で MTD が求められているとしても考えられる用量反応曲線は多くあり、

想定する曲線によって最適な試験デザインは異なる。このため、検討すべき用量範囲や投与量、

サンプルサイズの設定を誤り、用量反応試験を失敗するリスクを抱えている。

Ting は用量反応試験を計画する際に主に検討すべきこととして、服薬頻度,用量幅,用量群

の数,各用量の間隔,対照群の利用,各群の被験者数,固定用量/用量漸増法の7項目を挙げ

ている(Ting, 2006)。これらに加えて評価項目及び対象集団について検討する際の注意点を以

下にまとめる。

3.2.1 服薬頻度 用量反応試験における服薬頻度は、一般的に第 I 相 PK/PD 試験結果から得られた情報(消失

半減期等)より決定されることが一般的である。

しかし、点眼剤などのように血中薬物動態から服薬頻度が定まらない場合には、用量反応試

験において異なる服薬頻度の群を設定する必要があるかもしれない。その際には要因計画を用

いることも考えられる。

3.2.2 用量幅 ここで使用する用量幅とは試験に用いる実薬の最低用量と最高用量の比(差)とする。ICH E4

では、「臨床的に意義のある差異を識別するために、実施可能性および患者の安全性を両立で

きる範囲で広い用量を選択することが重要である。」と記載されている。また、Ting は、「用量

5

Page 9: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

反応試験は有効性と安全性の用量反応関係を描く情報を得るために、最大有効用量(Maximum

Effective Dose, MaxED)、MinED が推定できるように計画すべきであり、可能であれば MTD に

対する追加の情報を得られるように計画すべきである。」と述べている(Ting, 2006)。その他に

具体的な用量の幅としては、「最初の用量反応試験では少なくとも用量幅を 10 倍とすべきであ

る。」とも述べている。

3.2.3 用量群の数 幅広い用量反応関係を推定するためには多くの投与群を設定することが望ましいが、費用の

面などから試験に用いる用量の数には限界がある。ICH E4 では、「広く使われ、成功を収め、

かつ一般的に受け入れられているデザインは、3 用量あるいはそれ以上の用量を並行群間比較

する無作為化用量反応試験である。そのうちの 1 つは用量ゼロ(プラセボ)である場合もある。」

との記載や、「用量は数用量必要であり、プラセボに加えて 2 用量は必要である。しかし、一

般的に 2 用量よりも多くの用量を用いた試験が望ましい。」との記載がある。

対象疾患や治験薬、すでに得られている情報の量などにもよるが、検討すべき用量幅を幅広

くカバーし、適切な用量選択・用量反応関係の推定を行えるだけの十分な数の用量群を設定す

る必要がある。しかし、固定デザインの用量反応試験では、予め比較検討する用量範囲と投与

量を設定する必要がある。ある用量における効果の有無を統計的に示すために必要な被験者数

は自ずと決まるため、投与群の追加は試験全体の必要被験者数を増やすこととなり、試験コス

トを増大させる。試験全体の症例数を増やすことなく投与群を追加した場合,投与群あたりの

症例数が減ることになり,第Ⅲ相で用いる用量の情報量が減少する。この問題の対応策として

海外では後述するアダプティブ・デザインによる用量反応試験が実施され始めている。

3.2.4 各用量の間隔 各用量の間隔は試験の用量幅、用量群の数にも依存することであるが、やはり重要な問題で

ある。Ting は、「プラセボと MTD に近い高用量を割り当てた後に低用量群と中用量群を選択す

るのはとても難しい問題である。」と述べている。その理由は用量反応関係の特定が困難であ

るためである。低用量で有効性が期待されるのであれば低用量に多くの群を用いる必要があり、

高用量にならないと有効性が期待できないのであれば高用量に多くの群を用いる必要がある

が、用量反応試験開始時においてはこれらの情報が不明であることが一般的である。

Wong ら(1996)は低用量から高用量までを等間隔にすることを提案しており、Hamlett ら

(2002)は Binary dose spacing を用いるように提案している。この方法は MinED の特定に役立

ち,MTD に近い用量を用いにくいという特徴がある。Binary dose spacing では、例えばプラセ

ボおよび実薬 m 用量を設定する試験では、最低用量を「MTD/2m」とし,それ以降の用量を「MTD

×3/2(m+2-i) 」とする(i = 2~m)。具体的には、最高用量(i=m)を MTD の 3/4 倍、続いて用量を

1/2 倍ずつ減じていき、最低用量(i=1)の場合のみ用量を 1/3 倍に減じる。

6

Page 10: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

各用量間の幅の決定について、Ting は「統計家、臨床薬理家、臨床家などが協同で検討すべ

き問題である。」と述べている。

3.2.5 対照群の利用 ICH E4 には、「プラセボ対照をおいた試験と同様に、一つあるいはそれ以上の実薬対照を含

めた試験もまた有益であろう。」と記載されている。プラセボに加えて実薬対照を含めること

により、対照薬との臨床的位置づけ・開発戦略の確認や次相の試験デザインの検討などにも有

益であると思われる。また、試験の目的によっては実薬対照の用量を複数設定することも考え

られる。

3.2.6 各群の被験者数 「臨床試験のための統計的原則」(ICH E9)では、「臨床試験の被験者数は、提示された問題

に信頼のおける解答を与えられるよう常に十分多くすべきである。」と記載されている。ICH E9

では用量反応試験の特に重要な目的として、有効性の確認、用量反応曲線の形状と位置の研究、

適切な開始用量の推定、個人毎の用量の調整に最適な戦略の同定、それ以上臨床上の利益を見

込むことができない最大用量の決定を挙げている。用量反応曲線の形状と位置を精度良く推定

するためには有効性の存在確認よりも多くの被験者数が必要となることが一般的であり、試験

の目的を勘案し適切に被験者数を決定することが重要である。試験の目的などによっては各群

の被験者数を均等にする必要がない場合もある。

3.2.7 固定用量/用量漸増法 用量反応試験に用いる投与量/投与方法としては、各被験者が決まった用量を服薬する固定

用量試験と試験期間中に用量を変更する用量漸増試験がある。また、用量漸増試験は強制的漸

増試験や任意漸増試験などに分類される。その他にクロスオーバー試験なども考えられるが、

用量漸増試験やクロスオーバー試験の利用については用量反応関係と時間との相互作用など

が問題として挙げられており、十分な注意が必要である。詳細については ICH E4 を参照され

たい。

3.2.8 評価項目 第Ⅲ相試験で用いる用量を決定するという用量反応試験の目的を考えれば、用量反応試験に

おける主要評価項目には第Ⅲ相試験で用いる主要評価項目を用いることが望ましい。しかし、

長期の観察期間を要する場合は、比較的短期間で観察可能で第Ⅲ相試験の主要評価項目と強い

関連性を持つと考えられる評価項目を用量反応試験の主要評価項目とする場合も考えられる。

例えば骨粗鬆治療薬などの場合、第Ⅲ相試験の主要評価項目には骨折を用いることが多いが、

7

Page 11: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

骨折を評価するためには長期間が必要であるため、用量反応試験では骨密度などを主要評価項

目として用いることがある。開発期間の短縮などを考えるとこれらの方法は有用であるが、異

なる主要評価項目を用いることによるリスクも伴うことを十分に理解した上で用いるべきで

ある。

3.2.9 対象集団 用量反応試験と第Ⅲ相試験の対象集団についても同一であることが望ましいが、異なる場合

もある。対象集団が異なるケースとしては,用量反応試験で対象集団を厳格に制限しておいて

第Ⅲ相試験でより広い集団を対象にする場合や、用量反応試験の結果を受けて第Ⅲ相試験では

より有効性の期待できる集団に対象を限定する場合などが想定される。用量反応試験で対象集

団を厳格に制限する場合は限られた対象集団での用量反応情報から次相のデザインを計画す

ることになるため、細心の注意が必要である。

3.3 日本で行われている用量反応試験 ICH E4 で述べられている用量反応試験のデザインや用量設定に関する考え方を踏まえ、本邦

において過去に行われた用量反応試験を簡単に振り返ってみる。

2.3 で述べたように、我々は平成 13 年 4 月から平成 19 年 4 月承認品目中、計 254 成分の審

査報告書をもとに国内臨床試験に関する調査を行った。その調査結果からは、用量反応試験(第

Ⅱ相)は実薬 2または 3用量の試験が多かったが 4用量以上が設定された試験も存在していた。

また、プラセボを設定した試験は全体の 1/3 程度と少なかった。

このようなデザインが多く採用されて最終的に承認に至った理由のひとつは、日本単独での

開発を除き、海外で臨床試験が先行しているケースが多く、日本で用量反応試験を行う段階で

は海外の用量反応試験のデータが得られており不確実性が少なくなっている、すなわち薬物動

態の人種による違い等も検討され、どの用量で目標とする効果が得られるかおよそ予測がつい

ていることが考えられる。そして、これが用量反応試験に関連するリワークがほとんどない理

由でもあろう。また、用量反応試験の統計解析に用いる手法は、対照群との対比較検定、傾向

性検定あるいは対比を用いた検定が多いようである。

3.4 欧米で行われている用量反応試験 1980 年から 1999 年に米国で承認された新規化合物(New Molecular Entities, NME)の市販後

の用量変更に関する調査によると、評価可能であった 354 の NME のうち 73(21%)が何らか

の用量変更があり、うち 58(79%)が安全性の観点からの減量であった(Cross, 2002)。WHO

の Defined Daily Dose(DDD)に関する別の調査では、1982 年から 2000 年に 115 化合物に DDD

の変更があった。1980 年代には抗生物質の用量増加が多く、1990 年代は循環器病薬の減量が

多かった(Heerdink, 2002)。

8

Page 12: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

欧米の製薬企業では、第Ⅲ相で用いる最適な用量を選択することが第Ⅱ相試験の最も重要な

課題のひとつであることが再認識され(Krams, 2007)、そのためには幅広い用量範囲で用量反

応性を探索することが重要であると考えられている。その考えに基づき必要とする用量反応情

報を得るためには幅広い用量範囲に多数の用量群を設定することが必要不可欠である。そのよ

うなデザインを用いた臨床試験を実施可能とし、試験から得られる情報を最大化するためにア

ダプティブ用量反応試験が精力的に検討され活用され始めている。そして、用量反応試験の解

析では、パラメトリック、ノンパラメトリック、ベイズ推測など多くの手法が検討、使用され

ている。

最近では従来の第 I 相、第Ⅱ相、第Ⅲ相という臨床試験のフェーズに代わり、Learn(学習)、

Confirm(検証)という区別が使われるようになってきた(Gombar, 2007; Sheiner, 1997)。Learn

は開発初期で企業内部での意思決定を目的とし、Confirm は開発後期で規制当局が治験薬を医

薬品として承認する根拠を得ることを目的とする。医薬品開発の中で最も重要な選択のひとつ

は、第Ⅲ相試験で使用する用量を正しく選択することである。Learning Phase でのアダプティ

ブ・デザインは、用量反応に関する学習効率を大きく改善し、結果として第Ⅲ相の用量選択を

確実にする可能性を持っている。ここでは、Confirmatory Phase で要求されるような厳密な type

I error の制御は必ずしも必要ないであろう。海外の規制当局の専門家もアダプティブ用量反応

試験は歓迎するが、情報のロスにも注意すべきである、すなわち開発後期への移行時には従来

と同じ量の(有効性及び安全性の)情報が必要であるとも述べている(EMEA , 2008)。その点

を踏まえ、我々は Learning Phase でのアダプティブ用量反応試験に注目することとした。

9

Page 13: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

4. アダプティブ・デザイン

4.1 アダプティブ・デザインの基本概念 近年、注目を浴びているアダプティブ・デザインとは、蓄積されたデータに基づいて試験の

途中で試験デザインを変更できるデザインである。これにより、医薬品開発全体の効率化、成

功可能性の向上に寄与することが期待されている。具体的には、開発にかかる総期間の短縮や

開発費用の抑制が期待できる。また、臨床試験に参加する被験者により良い治療を提供できる、

あるいは無効又は安全でない治療への暴露を減らすことができる可能性もある。

アダプティブ・デザインは、その幅広いアイディアに起因して、以下のようにいくつかの定

義がある。

・ 第 1 種の過誤を制御できる統計手法を用い、中間解析においてデザインの要素(被験者数、

割付比、群の数など)の変更を許容する場合、その試験デザインを「アダプティブ」とよ

ぶ(EMEA, 2007)。

・ 試験の継続中に、その試験の中で蓄積されているデータに基づいて、臨床試験の妥当性

(validity)やインテグリティ(integrity)を損なうことなく、試験の特徴の変更法を決定す

る臨床試験デザインである(Dragalin, 2006; 小宮山, 2009)。

・ アダプティブ・デザインは、プロスペクティブに複雑な逐次の中間解析を利用するデザイ

ンである。中間解析により、目標被験者数、治験薬の群の数、用法・用量、投与量の漸増

ルール等について、試験の統計学的なインテグリティを損なうことなしに、動的に試験計

画を変更する。(Golub, 2006)

・ 試験デザインのひとつ又はいくつかの特徴を事前の計画に従って変更する。その変更は、

試験中にその試験の被験者からのデータの中間解析に基づきあらかじめ定められた方法に

よって一度又は複数回実行される。中間解析は、事前に規定した時点で、完全な盲検下で

あるいは盲検を解除して行い、正式な統計的仮説検定を用いることも、用いないこともあ

る。(Wang, 2008)

これらの表現をふまえると、アダプティブ・デザインとは事前に定められた方法や手順に従

って、試験の中で蓄積されたデータを利用して、「妥当性」や「インテグリティ」を損なうこと

なく、試験途中にそのデザインの一部を変更する方法といえる。具体的には、各群への被験者

の割付け比の変更、特定の群の中止又は追加、目標被験者数の変更、試験治療が有効あるいは

無効であると判断するために十分なエビデンスが得られた場合の試験の途中中止などがある。

アダプティブ・デザインのための統計学的方法論はかなり開発が進んでいる。最も重要な統計

学上の問題のひとつは第 1 種の過誤確率の制御であるが、この問題は広く解決されてきている

(Gallo, 2006; Chow, 2007; Chang, 2008)。

10

Page 14: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

4.2 日米欧の産官を交えたアダプティブ・デザインに対する活動 本節では、2008 年 12 月時点までに得られている日米欧の産官におけるアダプティブ・デザ

インに対する意見をまとめる。

2006 年 3 月、医薬品開発の停滞に危機感を感じた FDA は”Critical Path Opportunities Report and

List”を公表した。TOPIC 2 では、”STREAMLINING CLINICAL TRIALS、36. Use of Prior Experience

or Accumulated Information in Trial Design”と題して、臨床試験の効率化について述べている。こ

の内容としては革新的な試験デザインの推進と題して Adaptive Trial Design を紹介している。

EMEA は 2007 年 10 月に、”Reflection paper on methodological issues in confirmatory clinical trials

with an adaptive design”を公表し、アダプティブ・デザインに対する考えを述べている。

2005 年の春、PhRMA は臨床開発をより良くしていくために、アダプティブ・デザインの利

用が広がり、規制当局が受け入れ可能な環境を育み、促進していくために、アダプティブ・デ

ザインのワーキンググループ(PhRMA Working Group on novel adaptive clinical trial design,

PhRMA ADWG)を組織した(Gallo, 2006)。そこでは、種々のアダプティブ・デザインにおけ

る課題に対して検討をしている。その目的は、産官学および統計家、臨床家、当局の対話を通

じて、臨床開発でいつ、どのようにしてアダプティブ・デザインを適用するかを合意すること

にある。そこで、PhRMA ADWG はアダプティブ・デザインに関するいくつかの論文を公表す

るとともに、ワークショップの開催を通じて FDA、EMEA など規制当局との対話を進めてきて

いる(Chuang-Stein, 2009)。

PhRMA ADWG は、規制当局の受け入れ可能性の観点からアダプティブ・デザインを「現時

点で受け入れ可能なもの」、「受け入れられないもの」および「ケースバイケース」の3つに分

類している。「現時点で受け入れ可能なもの」は、Confirmatory Phase での盲検下での標本サイ

ズ再設定(blinded sample size re-estimation)及び群逐次デザイン(group sequential design)であ

る。Learning Phase では、正確な統計的推測(correct statistical inference)と実施バイアスの管理

(controlling operational bias)が担保されれば良い。次に「受け入れられないもの」は、不十分

な計画、実証されていないもの、プロトコールに記載がないもの、後付アダプティブである。

最後の「ケースバイケース」に相当するものは、シームレスⅡ/Ⅲ、完全なベイズアプローチで

ある(Krams, 2007)。FDA もこれらはケースバイケースであることを認めており、シームレス

第Ⅱ/Ⅲ相試験デザインの実施が認められたいくつかの事例が PhRMA ADWG によって報告さ

れている。FDA の基本的なスタンスは、探索試験で Learn のためにアダプティブ・デザインを

用いることと、検証試験でアダプティブ・デザインを用いることは区別する必要がある。一方

で、統計の理論から、同一の試験の中に Learn と Confirm を組み入れると(すなわち、シーム

レス第Ⅱ/Ⅲ相試験デザイン)、第 I 種の過誤の上昇や検出力の過大評価をもたらすことが明ら

かになっている(Wang, 2008)。

日本においても、統計学会、計算機統計学会、科研費シンポジウム等でアダプティブ・デザ

インについてとりあげられ、産学の議論は活発になってきた。また、2008 年 10 月には PhRMA

ADWG メンバーが来日し、東京開催された DIA で PMDA を交えたセッションが行われるとと

11

Page 15: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

もに PMDA に対するトレーニング・セッションも行われた(Chuang-Stein, 2009)。このように本

邦においても、産官学を交えてアダプティブ・デザインについて議論できる場が出来つつある。

今後、種々のアダプティブ・デザインの適用について産官で活発に議論できる場がさらに増え

ることが望まれる。

4.3 アダプティブ・デザインの利点と問題点

ここでは、固定デザインとアダプティブ・デザインについて割付比、投与群、被験者数、開

発費用の観点で考察する。

固定デザインでは、割付比、投与群、被験者数を事前に規定し、試験途中では変更できない。

また、試験途中でデザインを変更する選択がないため、試験の成否はこの結果だけに基づく。

したがって、開発費用はおおよそ事前に見積りが可能となる。

一方、アダプティブ・デザインは、試験の目的により、割付比の変更、一部投与群の中止や

追加、被験者数の追加も可能である。更に、Confirmatory Phase のような試験であれば事前に

Type I error rate の適格な制御も必要となる。また、試験デザインを変更するために必要な中間

解析には、データモニタリング委員会(Data Monitoring Committee, DMC)等の設置やデータの

即時入力、迅速なデータクリーニングが必須であり、EDC (Electronic Data Capture)の利用を考

慮すべきである。また、開発費用や必要な治験薬の数量については、起こり得る全てのシナリ

オを考慮した上で、その最大値や期待値を見積らなければならない。

アダプティブ・デザインは、従来の固定デザインに比べて、開発プロジェクトの継続の有無

について早期に意思決定が可能である大変柔軟な計画であるが、統計解析の論点やオペレーシ

ョン面の課題(中間解析の実施、DMC の運営、EDC 導入等)は大きい。安易にアダプティブ・

デザインを取り入れるのではなく、十分な議論と入念な準備と計画を経てアダプティブ・デザ

インを適用すべきである。なお、試験デザインの変更は、試験開始前に想定しておくべきもの

であり、無計画に試験途中で何らかの情報により試験デザインを変更したケースは、アダプテ

ィブ・デザインの範疇には入らないどころか、試験としての正当性も疑わしくなる。

4.4 国内外におけるアダプティブ・デザイン試験の現状 国内外で一部の製薬企業において、既にアダプティブ・デザインを適用した臨床試験が開始

されている。2008 年 12 月に行われた日本臨床薬理学会年会では、国内の臨床開発におけるア

ダプティブ・デザインの審査状況について「実際の承認審査対象として本格的に議論した例は

まだないものの、治験相談は十数件行われている」との講演が PMDA から行われた。

一方、国外においては 2003 年から 2008 年にかけて、PhRMA ADWG が 59 件の臨床試験のデ

ータを調査・収集している(計画中を含む)。これらのうち、Learning Phase II が 26 件(44.1%)、

Confirmatory Phase II が 4 件(6.8%)、Confirmatory Phase II/Ⅲが 17 件(28.8%)と 47 件に上り、

全体のほぼ 80%を占めていた(図 4.4-1)。Learn と Confirm の試験の比率は同程度であった。

12

Page 16: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

8 (13.6%)

17 (28.8%)

4 (6.8%)

26 (44.1%)

1 (1.7%)3 (5.1%)

0

5

10

15

20

25

30

35

Learning PhaseI

Learning PhaseI/II

Learning PhaseII

ConfirmatoryPhase II

ConfirmatoryPhase II/III

ConfirmatoryPhase III

図 4.4-1 アダプティブ・デザインを用いた試験数

各試験において”アダプティブ”とした内容を表 4.4-1 に示した。被験者数の変更が 32 件

(54.2%)、治療群の変更が 30 件(50.8%)、割付比率の変更が 17 件(28.8%)あり、その大半が

複数の変更を組み合わせたものとなっていた。試験目的に用量選択が含まれることが予想され

る第Ⅱ相及び第Ⅱ/Ⅲ相に限定すると、47 件中 27 件(57.4%)の試験が何らかの形で治療群な

いし割付比率の変更を行っていた。

表 4.4-1 アダプティブ試験:内容

Learn Confirm 合計

I & I/II II II II/III III

被験者数#1 2 2 4

治療群#2 2 9 4 15

被験者数+治療群 1 1 5 7

被験者数+割付比率#3 2 4 1 7

被験者数+治療群+割付比率 3 1 2 2 8

対象集団#4 1 1 2

被験者数+対象集団 5 6 11

割付比率または被験者数+評価項目#5 1 1 2

不明(回答なし) 1 1 1 3

合計 4 26 4 17 8 59 #1 被験者数:試験で収集する総被験者数を変更する #2 治療群:特定の治療群を中止または追加する #3 割付比率:群間の割付比率を変更し、各群の割付被験者数を変更する #4 対象集団:試験の選択・除外基準を変更する #5 評価項目:試験の評価方法を変更する(主要評価項目の変更を含む)

13

Page 17: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

5. アダプティブ用量反応試験

5.1 PhRMAの取り組み 2005 年の春に活動を開始した PhRMA ADWG は、2006 年に”Adaptive designs in clinical drug

development – A executive summary of the PhRMA working group”(Gallo, 2006)を公表した(「医薬

品の臨床開発におけるアダプティブ・デザイン – 米国研究製薬工業協会ワーキンググループの

エクゼクティブ・サマリー邦訳」 小宮山, 2009)。2007 年にはアダプティブ用量反応試験に関す

る白書、“Innovative approaches for designing and analyzing adaptive dose-ranging trials”(以下、PhRMA

White Paper)を公表している(Bornkamp, 2007)。PhRMA White Paper では、用量反応試験に適用

されるアダプティブ・デザインの統計的側面を解説するとともに、シミュレーション研究を通し

てそれらの性能評価を行い、その適用可能性を議論している。

5.1.1 手法の紹介 用量反応試験に適用される方法論をとしては、蓄積されたデータに基づいてデザインを変更

するいわゆるアダプティブ・デザイン”Design-focused adaptive approaches”, 試験デザインは変

更せずデータに基づいて最も適切な解析手法を選択する”Analysis-focused adaptive approaches”

がある。PhRMA White Paper は、これら2つのアプローチの各手法の性能を古典的な解析手法

とともに検討している。比較検討した各手法の概要を以下に示すとともに、次節以降で主な手

法について解説する。

[古典的な方法]

Traditional approach (ANOVA): 分散分析を用いる方法

[蓄積されたデータに基づいてデザインを変更する”Design-focused adaptive approaches” ]

General adaptive dose allocation approach(GADA):

集積したデータを用いてベイズ推測により用量反応モデルを更新し、次にランダマイズ

される被験者の割付確率を変更する方法。割付確率の変更は随時行う。

D-optimal response-adaptive approach (Dopt):

集積したデータを用いて D-optimal 基準を用いて次にランダマイズされる被験者の割付

確率を決定する方法。割付確率の変更は群逐次的に行う。

[データに基づいて最も適切な解析手法を選択する”Analysis-focused adaptive approaches” ]

Multiple comparison procedure-modeling approach (MCP-Mod):

複数の対比を用いて最も近い用量反応パターンを選択し、選択された用量反応パターン

からパラメトリックな用量反応曲線を推定する方法。

14

Page 18: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

Bayesian model-averaging approach (BMA):

比較的単純な用量反応モデルの組を用いて、事前分布と得られたデータからモデルパラ

メータとモデルの重みをベイズ推測により求める方法。

Multiple trend test approach (MTT):

幅広い用量反応曲線を捕らえるために、三つのシグモイド Emax モデルを用いる方法。

Nonparametric dose-response modeling approach (LOCFIT):

凹型、凸型、シグモイド、直線、傘型の五つの対比を用いる検定とノンパラメトリック

回帰により用量反応曲線を推定する方法。

5.1.1.1 Traditional approach (ANOVA) 古典的な ANOVA アプローチでは、対比を用いて用量間を比較し(例えば、各実薬用量とプ

ラセボの比較)、用量反応(dose-response)の存在を確認し、それが確認されれば至適用量(target

dose)を選択する。通常、第 1 種の過誤確率を制御するために多重比較法(例えば、Dunnett, 1955)

が用いられる。事後的な(post-hoc)用量反応のモデリングや臨床的な意義を考慮した用量選択

を伴うことがある。

5.1.2 で述べるシミュレーション研究では、各実薬群とプラセボ群の片側 Dunnett 検定を行い、

多重性を調整した上で少なくともひとつの用量が有意であれば用量反応ありと判定した。至適

用量は統計的に有意であり、かつ、臨床的に意義のある平均効果(あらかじめ設定した値と比

較)が得られた最小の用量とした。至適用量が選択された場合は、用量反応モデル(dose-response

model)を推定した。候補モデル(直線、二次、ロジスティック)をあてはめ AIC(Akaike Information

Criterion)によりモデルを選択し、選択されたモデルにより推定を行った。

5.1.1.2 General adaptive dose allocation approach (GADA) GADA の試験デザイン上の特徴は、試験開始後に被験者から得られた情報をもとに動的に投

与群間の割付比率を変更する点にある。これによって、より有効と判断された用量範囲への割

付比率が増加し、至適用量の期待反応から極端に乖離する用量に対する割付比率が減少する。

GADA の統計的手法はベイズ統計に則っており、割付比率の変更や試験継続の判断はベイズ流

の意思決定理論の枠組みで行われる。本項での表記・記載方法は GADA の詳細が述べられてい

る Berry(2002)に従った。また,「5.2 アダプティブ用量反応試験の事例」では,実際に GADA

を用いた事例を紹介する。

5.1.1.2.1 デザイン・プロセス

GADA におけるデザイン・プロセスは大きく 4 つに分かれる。それぞれに、新規被験者の治

療群を決定する割付の部分(図 5.1.1.2-1 GADA におけるデザイン・プロセスの 1~3)、試験中

に得られたデータから用量反応曲線を推定する部分(同 4~6)、試験の継続・中止を判定する部

15

Page 19: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

分(同 7~10)、至適用量を推定する部分(同 11)であり、試験開始から終了までこのプロセス

を繰り返すこととなる。

新規の被験者が試験に登録されてくると(同 1)、プラセボか実薬のいずれかの用量群へ割付

けられる(同 2)。割付群が決まるとそれに応じた治験薬を用意することとなる(同 3)。

新たに登録された被験者及び登録済み被験者の経過データを入手し(同 4)、各被験者の最終

反応(投与終了時点での主要評価項目)を推定する(同 5)。各被験者の最終反応をもと

に、”Normal Dynamic Linear Model, NDLM”を用いて用量反応曲線の推定を行う(同 6)。NDLM

の詳細は「5.1.1.2.3 NDLM(Normal Dynamic Linear Model)」で述べる。

推定された用量反応関係から、試験継続・中止の判定を行う(同 7)。判定の結果、治験薬が

無効と判断されれば試験中止となり(同 8)、無効でなれば終了もしくは試験継続を決定する(同

9,10)。終了に関しては、目標被験者数を終えて終了とする他に、充分な有効性の指標を満たし

て早期に終了することも有り得る。また、オプションとしてシームレスに検証試験に移行する

ことも設定可能であろう。

最後に、有効用量の予測として事前に規定した一定の基準について再推定を行い、新たな被

験者登録を待つこととなる(同 11)。

4

2プラセボもしくは最適な用量にランダム化

3用量の

4

バイアル変換

進行:被験者データの成績の入手 5

経時モデルが最終成績を予測する

6用量反応の推定

11

最適な用量の探索

10

9

8

7判断

継続

優越

無効中止1

新規被験者

4

進行:被験者データの成績の入手進行:被験者データの成績の入手 5

2プラセボもしくは最適な用量にランダム化

2プラセボもしくは最適な用量にランダム化

3用量の

バイアル変換

3用量の

バイアル変換

5経時モデルが最終成績を予測する経時モデルが最終成績を予測する

治験薬の準備治験薬の準備66

用量反応の推定用量反応の推定

11

最適な用量の探索

10

判断 7

9

8

継続

優越

無効中止1

新規被験者

1

新規被験者

1

新規被験者

図 5.1.1.2-1 GADA におけるデザインプロセス

5.1.1.2.2 割付

既に述べたように、GADA における被験者割付は、固定デザインにおけるそれとは異なり、

各群に等確率に割付けるものではない。また、試験期間中を通して、各群の割付比率は動的に

変化し続ける。 実際の割付比率は次のように決定される。まず試験計画段階で定めた一定の確率 でプラセ

ボに割付けられる。これによって、対照群としてのプラセボ群の例数が確保される。実薬への

割付となった場合、推定済みの至適用量を中心に、その周辺用量に等確率で割付ける。この際、

周辺用量としてどのような基準でどの範囲までを含めるかは事前に規定する。これによって、

0p

16

Page 20: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

より有効と判断された用量への割付が増加し、至適用量の期待反応から極端に乖離する用量に

対しては、被験者の割付が行われなくなる。すなわち、無効用量に対する割付は自動的に中断

されることとなる(その後のデータ更新によって割付が再開されることも有り得る)。

5.1.1.2.3 NDLM(Normal Dynamic Linear Model)

NDLM は、ベイズ流の用量反応モデルであり,各用量における正規線形回帰をあてはめる際

に、隣接する用量間での回帰係数の変化をごく小さな範囲に限定することで、スムーズな用量

反応曲線を得る。その特徴は,広範囲の用量反応曲線を扱える柔軟さにあり、用量間の極端な

変動を平滑化し、非単調な変動であってもモデル化することが出来る。GADA では、得られた

データから事後推定を行うことによって逐次モデルを更新し、試験開始段階で想定していなか

った用量反応曲線(例えばベル型など)が現れたとしても、対応することが可能となっている。 NDLM の基礎を成す考え方は、用量 z を として局所的に考えた際に と傾斜 を用いて

直線

jZ jθ jδ

( ) jjj Zz δθθ −+=

J,,0 L= j

を当てはめ,各用量得られた直線式をもとに用量反応曲線全体をモデル

化することにある。ここで、 j であり、Z は各用量群における用量を、 ( )θθ ,jj Zf=

JZZ ,,1 L= 0

各用量群における最終反応である。すなわち、z が試験で評価される用量範囲を、Z

はプラセボを示す。図 5.1.1.2.3-1 に NDLM による用量反応曲線の例を示した。

図 5.1.1.2.3-1 NDLM による用量反応曲線

17

Page 21: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

( )jvk ,,1 L=次に、 を用量 における 番目kjkY jZ の被験者の最終反応として定義する。NDLM

は以下の観測方程式(式 1)およびシステム方程式(式 2)より構成される。 jkjjkY εθ += (式 1)

jj

jj

j

j e+⎟⎟⎠

⎞⎜⎜⎝

⎛ +=⎟⎟

⎞⎜⎜⎝

−−

1

11

δδθ

δθ

(式 2)

( ) ( )2,0~ σε VNjk とここで、 2,~ σϖ jjj WNe j

jk jθ jkε

0θ 0θ

は独立誤差である。ここでW は平滑化パラメ

ータであり,用量反応曲線の滑らかさを調節する。観測方程式はY の分布が と 次第で決

定されることを示している。システム方程式は用量間の変化を定型化したものである。

5.1.1.3 D-optimal response-adaptive approach (Dopt)

5.1.1.3.1 Optimal Design Optimal Design とはパラメータ推定値の分散(共分散行列)に関する関数を最小化(または最

大化)するように計画されたデザインである(Ghosh, 1996)。Optimal Design には用いる関数に

よって名称が異なるいくつかの方法があり、 A-optimal Design や D-optimal Design などが知ら

れている。A-optimal Design はパラメータに関する情報行列の対角成分の和を、D-optimal Design

は情報行列の行列式を関数として用いる。

5.1.1.3.2 D-optimal Design D-optimal Design とはベースラインや傾き、最大効果を含む用量反応関係を表すパラメータ推

定値の分散共分散行列の行列式を最小化することを目的とした方法である(Dragalin, 2007)。

Dragalin らは D-optimal Design を検討する際には様々な状況の用量反応関係によく当てはま

る多項式の項をもつ Logistic Model のような柔軟なモデルを適用すべきであると述べている。

用量反応関係に非線形モデルを仮定している試験において D-optimal Design を検討する方法は

上で記載した方法と大きな差は無いが、最大の問題点はモデルに含まれる未知パラメータθに

関する情報行列が未知パラメータθに依存することである。そのため、D-optimal Design の適用

を検討する際には、前試験の結果や類似薬の情報など事前に得られる情報などからθの予測値

( )を設定し、 を用いて D-optimal Design を検討することになる。これらのことより、非線

形モデルの際の D-optimal Design は”Locally D-optimal Design”と呼ばれることがあり(Ghosh,

1996)、設定によって選択されるデザインが変化することが考えられる。

非線形モデルを用いる場合で、近年話題となっているアダプティブ・デザインと併用する際

の手順について Dragalin らは以下のように述べている。まずは最初のコホートの被験者は事前

に決めていた割付方法(均等割付など)によって各群に割付ける。その後最初の中間解析におい

て、シグモイドカーブやその他の適切なモデルを当て嵌めパラメータを推定する。推定したモ

デルをもとに全体の用量反応関係に対する情報量を最大化するように、以降の被験者の割付方

法を決定する。2 番目のコホートの被験者は最初のコホートにて推定されたモデルより得られ

18

Page 22: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

た最適の割付方法に基づき割付けられる。2 番目のコホート終了後に再度モデルを当て嵌めパ

ラメータを推定し、適切な割付方法を決定する。この方法は目標被験者数に達するまで、ある

いはその他の終了ルールを満たすまで繰り返し実施される。そして、試験の最後に用量反応関

係の推定及び最適用量の選択が実施される。

また、Dragalin らは、プラセボと実薬の比較のために試験を通してプラセボ群に対する割付

比率は一定にすることが良いと指摘しており、さらに本方法を用いた際に得られる結果の情報

量は伝統的な固定デザインの場合に比べて多く、最終的な用量反応関係の分析において有益で

あると述べている。

5.1.1.4 Multiple comparison-modeling approach (MCP-Mod) 用量反応試験の解析においては、多重比較法(MCP, Multiple Comparison Procedure)やモデル

による解析は伝統的な方法である。MCP-Mod(Multiple comparison-modeling or MCP-Mod

approach)は Bretz(2005)によって解析された多重比較法とモデルによる解析をひとつの方法

に統合した方法である。

この方法は、用量反応の根拠となる統計的検定にあわせて、検証試験で用いるべき至適用量

の推定も可能である(Bornkamp, 2007)。事前に一つの用量反応関係モデルを特定する代わりに、

MCP-Mod は用量反応の適切な範囲の形状を包括する一連の候補モデルを用いる。一連の候補

モデルを Family-wise Error を制御しながら対比検定により評価する。少なくもと一つのモデル

対比検定が有意であった際に薬剤の有効性が認められたと判定する。一つも有意でなかった場

合には用量反応関係の十分な証拠は得られたかったと結論し、試験を中止する。

薬剤の有効性が確立した後に、候補モデルのうち統計的有意差が認められたモデルから最善

なモデルを選択する。最善なモデルは検定統計量の P 値が最小のモデルや AIC や BIC (Bayesian

Information Criterion)のような関連するモデル選択基準に基づき選択する。選択したモデルを用

いて逆回帰により推奨用量を推定する。推定した用量の正確性についてはブートストラップ法

などを用いて検討する。

5.1.2 シミュレーション 5.1.1 で紹介した手法、ANOVA(Dunnett 検定)、GADA、Dopt、MCP-Mod、BMA、MTT、LOCFIT

の性能をシミュレーションによって比較した。なお、本シミュレーションにおいては、総サン

プルサイズは固定とし早期中止は組み込まれていない。以下に、主要な条件設定とシミュレー

ション結果の要約、考察を述べることとし、その詳細については原著を参考されたい。

シミュレーション条件は以下の通りである。

• エンドポイント:6 週時の Visual analog scale(VAS)の投与前からの変化量。-10~10 の

値を取り、連続量で正規分布に従う。被験者間標準偏差は 2.5、被験者内標準偏差は 1.5。

• 臨床的意義のある効果:-1.3

19

Page 23: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

• 投与群:5 群、7 群、9 群の 3 パターン(カッコ内は用量、0 はプラセボ)

- 5 群(0,2,4,6,8)

- 7 群(0,2,3,4,5,6,8)

- 9 群(0,1,2,3,4,5,6,7,8)

• 用量反応関係:以下の図に示す 6 つのパターン

Umbrella: , ε++−= 2)36/65.1()3/65.1( ddy+ + ε−= )79.0/(81.1 ddy

ε++−= )4/(70.1 555 ddy Emax:

Sigmoid Emax: , = εy Flat:

+ ε−= dy )8/65.1( , Linear:− + − + ε= )]}4(2.1exp[1/{73.1015.0 dy (d:用量) Logistic:

• 評価指標:以下の 6 つの指標

- Pr(DR):少なくとも 1 つの用量が有効であると判定される確率(ANOVA などでは

20

Page 24: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

仮説検定、GADA 等ではパラメータの事後分布を利用)

- Pr(dose):少なくとも 1 つの用量が有効であると判定され、かつその用量が臨床的に

意義のある効果を上回る確率

- Bias:各手法により推定・決定された第Ⅲ相試験にて用いる用量と真の第Ⅲ相試験

にて用いる用量の偏り

- Error:各手法により推定・決定された第Ⅲ相試験にて用いる用量と真の第Ⅲ相試

験にて用いる用量のバラツキ

- Dose interval:推奨用量幅(臨床的に意義のある効果に幅を持たせた際に、その効果

を示す用量幅)に含まれる用量を選択できる確率

- DR Estimation:推定されたモデルと真のモデルの乖離

シミュレーション結果の要約を以下の表にまとめる。それぞれの 6 つの評価指標における各

手法の性能を”+++: very good”, “++: good”, “+: fair”, “-: poor”で示している。ANOVA(Dunnett 検

定)は検討した中で最も性能が悪く、GADA は Pr(dose)、Dose interval 及び DR estimation とい

った評価指標で最も良い性能を示した。

評価指標 Dose

interval DR

estimation 手法 Pr(DR) Pr(dose) Bias Error

ANOVA ++ + ++ ++ - N.A.

GADA +++ +++ ++ ++ ++ +++

Dopt +++ ++ +++ ++ ++ ++

MTT +++ ++ +++ ++ + ++

MCP-Mod +++ ++ +++ ++ + ++

BMA +++ ++ +++ ++ + ++

LOCFIT +++ ++ +++ ++ + ++

+++: very good, ++: good, +: fair, -: poor

5.1.3 推奨事項 シミュレーション結果より導き出された主な結論を以下に示す。

・ 用量反応関係の有無の検出は、用量反応関係の推定や検証試験に用いるべき至適用量を見

出すことよりも容易である。その結果、一般的に用量反応関係の有無の検出を目的に算出

されているサンプルサイズは用量反応関係の推定や用量の選択には不十分である。

・ アダプティブ用量反応試験は用量反応関係を検出するためのパワーを増加させ、至適用量

間隔や用量反応関係の推定に関する精度を向上させる。

・ シミュレーション結果より、GADA は特に用量反応関係の推定、用量反応関係の検出、臨

21

Page 25: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

床的に意義のある効果を有する用量の検出について最も優れた性能を有している。一般的

にモデルベースの解析は仮説検定に基づく手法に比べてよい結果を示した。

シミュレーション結果より導き出された結論及びワーキンググループ内部でのさらなる議

論に基づいて、PhRMA ADWG は医薬品開発とくに用量反応試験を計画する上での推奨事項を

以下に示している。

・ シミュレーションではモデルに基づくアダプティブ用量反応試験は従来の固定デザインの

用量反応試験と比較してかなり高いパフォーマンスを示している。よって、医薬品開発に

おいて、アダプティブ用量反応試験の活用を常に検討すべきである。

・ 用量選択を目的とした第Ⅱ相試験のサンプルサイズは、至適用量の推定精度や場合によっ

ては用量反応曲線の推定精度をも考慮に入れて算出すべきである。少なくとも、計画した

サンプルサイズの下での至適用量の推定精度を評価しておくべきである。

・ 用量選択を行う上で適切な精度を与えるサンプルサイズの試験が実施困難な場合、検証試

験では 2 用量ないし 3 用量の選択を考慮するべきである。それによって、選択された複数

用量の中に至適用量が含まれることをより確実にすることができる。検証試験は効率化の

ためにアダプティブ・デザイン(例えば、十分な効果又は安全性が得られない用量を早期

に中止する)で行うべきである。

・ 理想的には、実施可能な場合には PoC と用量選択をひとつのシームレス試験で行うべきで

あり、そのような開発戦略が推奨される。

・ アダプティブ・デザインをより効率化するために、実施可能な場合には有効性あるいは安

全性による早期の試験中止を試験に設定するべきである。ベイズ流の方法はこの目的に特

によく適している.

・ プロトコールを作成する段階では、常にトライアルシミュレーションを活用すべきである。

その目的はサンプルサイズの計算、検討中の試験デザインや方法の動作特性(Operational

characteristics)及び想定からの乖離に対する感度の評価である。これはアダプティブの有無

に関わらない。

・ アダプティブ・デザインの計画・実施・解析には適切なソフトウェアの利用が極めて重要

であり、その開発が望まれる。

・ アダプティブ用量反応デザインを検討する上で、期待される利点と方法論及び運用上の複

雑さの双方を考慮すべきである。

5.2 アダプティブ用量反応試験の事例

5.2.1 臨床試験の概要 本項では、アダプティブ用量反応試験の事例として、”Acute Stroke Therapy by Inhibition of

Neutrophils”(以下,ASTIN 試験)を紹介する(Krams, 2003)。ASTIN 試験は、治療群の中止、

22

Page 26: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

割付比率と被験者数の変更及び有効(ないし無効)による早期中止を組み込んだアダプティ

ブ・デザイン試験である。本試験のデザインは、公表後に前述の GADA として一般化され、

PhRMA White Paper でも紹介されている。このため、本試験の基本的なデザインは GADA と同

一である。

ASTIN 試験は、急性脳卒中患者を対象とした好中球阻害因子(UK-279,276)の多施設共同プ

ラセボ対照二重盲検用量反応試験であり、2000 年から 2001 年にかけて実施された。UK-279,276

は事前に行われた前期第Ⅱ相試験において広い用量範囲での忍容性を示しており、ASTIN 試験

は、用量反応性の検討と有効性検証試験で用いる至適用量の決定を目的として計画された。

ASTIN 試験の概要を下表に示す。

試験名 Acute Stroke Therapy by Inhibition of Neutrophils (ASTIN)

対象 急性脳卒中患者

目的 好中球阻害因子(UK-279,276)の用量反応性の検討、至適用量の決定

試験デザイン 多施設共同、プラセボ対照、二重盲検、アダプティブ用量反応試験

評価項目 投与 90 日後の Scandinavian Stroke Scale 変化量(ΔSSS)

試験薬 プラセボ、UK-279,276(10~120mg の 15 用量)

被験者数 最大 1300 例

5.2.2 有効性評価 ASTIN 試験における有効性の主要評価項目は、投与 90 日後の Scandinavian Stroke Scale(SSS)

の変化量(ΔSSS)であり、SSS は 9 項目 58 スコアで評価される。試験目的は ΔSSS に対する用

量反応性の検討であり、試験終了時だけでなく、試験期間を通して逐次用量反応曲線の再評価

を行った。

評価は、死亡例を除く全ての評価可能例を対象として行われた。用量反応関係の推定には

NDLM が利用された。試験途中の評価では、ベースラインの SSS のみを共変量として調整した

が、試験終了時の評価では年齢や組織プラスミノーゲン活性化因子(tissue Plasminogen Activator,

tPA)治療、治療開始までの時間も含めて調整を行った。

また、ASTIN 試験では至適用量の決定も目的とされており、95%有効量(ED95)をその指標

として用いた。有効性評価として ED95 における ΔSSS の対プラセボ群間差について、事後推定

値とその 95%信用区間を評価した。先行して行われた予備試験において、プラセボ投与例にお

ける SSS は平均 10、標準偏差 12 であり、サンプルサイズ設計は実薬群の ΔSSS がプラセボ群と

較べて 3 上回ることを想定されていた。

23

Page 27: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

5.2.3 割付比率の変更 ASTIN 試験では、中央登録による動的割付が行われた。動的割付は、薬効評価に影響を及ぼす

ことが明らかな因子がある場合に、群間での不均衡を防ぐ手段として一般に用いられている。

ASTIN 試験では,群間での不均衡の調整に加えて,試験開始後の有効性評価によって各用量群

の割付比を変更する手段として動的割付を行った。通常の試験で用いられる動的割付では a) 群

間での例数が均等になるように割付を行い、b) 割付時点での因子のみが評価対象となる。これ

に対して ASTIN 試験では、a) 各用量群の割付比率を変更して群間の被験者数を変更しており、

更に b) 割付時点の要因だけでなく既登録被験者の治験薬投与後の有効性評価(ΔSSS)を割付

比率の変更に用いている。

割付比率は次のように決定された。まず 15%の確率でプラセボに割付ける。実薬への割付と

なった場合、既登録被験者の有効性情報から推定した至適用量を中心に、その周辺用量に等確

率で割付ける。これによって、至適用量近辺への割付比率が増加する。至適用量の期待反応か

ら極端に乖離する用量に対しては、被験者の割付比率が減少し、場合によっては自動的に中断

されることとなる。割付比率は試験中に得られた有効性反応データによって逐次更新されるた

め、中断された用量群への割付が再開されることも起こり得る。

割付比率が動的に変更されることによって,各用量群で投与する試験製剤の必要量も変動す

る。このことは,試験製剤の準備や必要数の判断,盲検性の確保,施設への搬入方法など,実

運用において解決すべき多くの課題をもたらす。ASTIN 試験で用いられた UK-279,276 はバイア

ル剤であり,事前に搬入されたプラセボ・実薬製剤を施設内で配合し,濃度調整することでこ

れらの諸問題に対応している。なお、これらの作業はすべて盲検下で行われた。

5.2.4 試験の早期中止 ASTIN 試験では、有効性評価による治験中止の判定を逐次行っていた点も試験デザイン上の

特徴として挙げられる。治験中止の判定は、独立データモニタリング委員会(Independent DMC,

IDMC)によって週 1 回行われた。IDMC は ED95 における ΔSSS のプラセボとの差の片側 80%

信用区間を算出し、その下限が 2 ポイント超であれば有効中止、その上限が 1 ポイント未満で

あれば無効中止とした。IDMC による勧告が行われた時点で被験者登録を停止するデザインと

なっていた。また、IDMC は安全性による特定用量群の中止判定も行っており、こちらも週 1

回の判定で安全性に問題のある用量群は中止することとなっていた。

IDMC による無効中止の勧告に必要な最低評価例数は 500 例、有効中止の勧告に必要な最低

評価例数は 250 例と規定された。最大被験者数は 1300 例と規定された。必要被験者数に関し

ては、シミュレーション結果も示されており、用量反応が平坦だった場合、試験を無効中止と

するまでに必要となる被験者数の中央値は 661 例(偽陽性率 5%未満)であった。また、用量

反応曲線がシグモイドカーブを描く場合のシミュレーションでは、ΔSSS のプラセボとの差が

3ポイントの場合に試験を有効中止と判定出来る確率は 85%で必要被験者数の中央値は 595例、

4 ポイントの場合は同じく 97%で 320 例であった。

24

Page 28: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

5.2.5 試験データの入手とLongitudinalモデル ASTIN 試験では試験実施中の有効性反応データを用いて用量反応曲線、ED95 の推定が逐次

行われ、これに基づいて割付が行われ、試験の継続・中止の判断がなされる。このため、試験

中の有効性反応データを早期に入手するシステムが必須となる。ASTIN 試験では Fax による登

録センターへの有効性情報の送付によってこれを実現した。被験者の登録時にベースラインの

SSS を記録した登録票を登録センターに送付し、治験薬投与開始後も治療期 7 日、21 日、90

日の SSS を Fax で送付し、個々の被験者の有効性反応データとして登録した。

用量反応の推定においては、個々の被験者の有効性反応データが必須となる。この推定が試

験結果を左右するため、本来であれば、投与期間終了時の最終反応を用いることが望ましい。

しかし、投与期間は 90 日であり、最終反応を待っていては割付比率変更による効果を最大限

に得ることは難しい。そこで、Longitudinal モデルを用いて試験途中の有効性反応から個々の被

験者の最終反応を推定し、その推定値をもとに用量反応の推定を行った。Longitudinal モデルは

NDLM と同様に試験中に得られた有効性反応データによって逐次更新可能なモデルであるが、

Longitudinal モデルを用いるためには事前にある程度の用量反応情報が必要であり、事前に行わ

れた前期第Ⅱ相試験の結果を利用している。

5.2.6 試験結果 IDMC は試験開始後 40 週、評価被験者 500 例における評価において、無効中止の勧告を行っ

た。勧告に従って試験は中止され、最終的に 966 例の被験者が試験治療の対象となった。結果

として、用量反応は平坦で、薬効が認められないことが示唆された。最終評価における ED95

は 54 mg(95%信用区間 -2, 142 mg)であり、同用量における ΔSSS の対プラセボ群間差は-0.3

(同-0.4, -0.2)となった。また、ED95 における無効の事後確率は 0.89 となった。

5.3 考察 用量反応試験には PoC の確立、用量反応曲線の推定、検証試験に用いる用法・用量の選択な

ど複数の目的がある。用量反応試験ではその試験の目的を達成するために必要な検出力あるい

は推定精度を確保するようにサンプルサイズを設定すべきである。ここで、検証試験に用いる

用量を正しく選択することの重要性をあらためて強調したい。用量反応試験の計画時には倫理

的、経済的な制約により十分なサンプルサイズが確保できない場合もある。しかし、そのよう

な場合には臨床推奨用量の決定を持ち越すことになり、検証試験により多くの用量群を設定す

る必要に迫られたり、あるいは不確実な用量設定によって検証試験が失敗するリスクが大きく

なることに留意するべきである。

PhRMA White paper で示されたシミュレーションの結果から、割付比の変更を可能にしたア

ダプティブ用量反応試験(GADA、Dopt)は、用量反応を探索するための検出力や至適用量(群)

25

Page 29: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

を選択するためや用量反応の推定精度の向上を導くことが示唆されており、固定デザインの用

量反応試験と比較して臨床開発を効率化し成功確率を向上させる大きな可能性を持っている

と考えられる。

一般に、用量反応試験の実施にあたっては、前相までに行われた試験結果から至適用量を予

測して用量範囲を設定するが、この予測は限られた事前情報とごく少数の投与群での実施とい

う状況下では必ずしも正確ではない。このため、用量反応試験をより確実に実施し、結論を得

るためには、なるべく広い用量範囲・多群で実施することが第Ⅲ相試験の用量設定の精度を上

げる上で望ましい。GADA を実際に用いた ASTIN 試験では、非常に多く用量群を設け、かつ

広い用量範囲(プラセボ+実薬 15 用量群、10~120 mg)に渡って評価を行っている。ASTIN

試験の考察によると、通常の固定デザインを用いる場合、実薬 3 用量で 3 ポイントの差を検出

力 80%で検出するために必要なサンプルサイズは 1080 例である。ASTIN 試験の最大必要被験

者数は 1300 例であり、500 例で無効の判定を下し、試験を終了出来たことの意義は大きい。

割付比の変更を可能にしたアダプティブ試験のデザイン上の特徴は、有効性が期待できる用

量群への割付比を増やし、そうでない用量群の割付比を減らすことで、将来行われる有効性検

証試験で使用する至適用量を推定する効率を向上し、結果として試験全体の必要被験者数を減

少させ、治験期間を短縮することが期待できる点にある。

PhRMA ADWG は、White Paper で用量反応試験の計画時には常にアダプティブ・デザインの

適用を検討すべきであると述べている。そして、それが可能な場合には、PoC 試験と用量選択

試験はシームレスに行うことが理想的であるとも述べている。しかし、アダプティブ・デザイ

ンを組み込んだ試験は、計画及び実施が固定デザインと比較して格段に複雑になるためその利

点と欠点を慎重に評価した上でその活用を検討する必要がある。

26

Page 30: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

6. まとめ 大規模な第Ⅲ相試験で用いる用量を適切に選択することは、真に有効な薬剤の効果を効率よ

く検証するために重要であるばかりでなく、用量選択に起因する第Ⅲ相での試験失敗のリスク

を低減するためにも重要である。我々は臨床開発のリワーク(試験のやり直し)、特に検証段

階でのリワークのリスクを低減するために用量反応試験に着目した。

臨床開発の検証段階で失敗するリスクを最小化するための我々の提言は、「用量反応関係を

適切に検討し、用量選択における不確実性を低減するために探索段階で設定する用量幅は十分

に広くし(例えば 10 倍、出来る限り MTD 近くの用量まで)、検討する用量群の数をなるべく

多くすること」である。そのためには、デザイン上の工夫を施して適切かつ効率的に用量選択

を行うべきである。割付比を変更するアダプティブ用量反応試験は新たな選択肢の一つである

が、計画及び実施が固定デザインと比較して格段に複雑になるため利点と欠点を慎重に評価し

て活用するべきである。また、今回は取り上げなかったが PK 情報やバイオマーカーを利用し

た PK/PD モデリングの発展も著しいものがあり、積極的に取り入れていくべきである。

昨今、世界同時承認を目指した検証段階での国際共同治験(日本を含む)が増加しており、

またそのために開発早期からの日本の参加も推奨されていることを考えると、用量反応に関し

て十分な情報がない段階から日本が世界同時開発に参加する機会がますます増加していくと

考えられる。このような環境変化の中で、用量反応に関する情報をより効率的にかつ適切に得

るための方法論を今一度見直す時期に来ているのではなかろうか。我々の報告書がそのきっか

けになれば幸いである。

27

Page 31: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

7. 参考文献

1. Berry DA, et al. Adaptive Bayesian Designs for Dose-Ranging Drug Trials. In: Case Studies in

Bayesian Statistics Volume V. Springer; 2002, p.99-182

2. Bornkamp B, Bretz F, Dmitrienko A, Enas G, Gaydos B, Hsu CH, Konig F. Krams M, Liu Q,

Neuenschwander B, Parke T, Pinheiro J, Roy A, Sax R, Shen F. Innovative approaches for

designing and analyzing adaptive dose-ranging trials. J Biopharm Stat 2007;17(6):965-95.

3. Chang M. Adaptive Design Theory and Implementation Using SAS and R. Chapman & Hall; 2008.

4. Chuang-Stein C, Bretz F, Komiyama O, Quinlan J. Interactions with regulatory agencies to enhance

the understanding and acceptance of adaptive designs. Regulatory Focus 2009; April: 36-42

5. Chevret S (ed.) Statistical Methods for Dose-Finding Experiments (Statistics in Practice), Wiley;

2006

6. Chow SC, Chang M. Adaptive Design Methods in Clinical Trials. Chapman & Hall; 2007.

7. Cross J, Lee H, Westelinck A, Nelson J, Grudzinskas C and Peck C. Postmarketing drug dosage

changes of 499 FDA-approved new molecular entities, 1980–1999. Pharmacoepidemiology and

Drug Safety 2002; 11: 439–446

8. DiMasi JA, Hansen RW, Grabowski HG. The price of innovation: new estimates of drug

development costs. J Health Economics 2003; 22(2):151-85.

9. Dragalin V. Adaptive Design: Terminology and Classification. White Paper of PhRMA Working

Group on Adaptive Design. Drug Information Journal 2006;40(4):425-35.

10. Dragalin V, Hsuan F, Padmanabhan SK. Adaptive designs for dose-finding studies based on

sigmoid Emax model. J Biopharm Stat 2007;17(6):1051-70.

11. EMEA. REFRECTION PAPER ON METHODLOGICAL ISSUES IN CONFIRMATORY

CLINICAL TRIALS WITH FLEXIBLE DESIGN AND ANALYSIS PLAN. 2007.

12. EMEA. Report on the EMEA-EFPIA Workshop on Adaptive Designs in Confirmatory Clinical

Trials. 2008

13. Bretz F, Pinheiro JC, Branson M. Combining multiple comparison and modeling techniques in

dose-response studies. Biometrics 2005;61:738-748

14. Gallo P, Chuang-Stein C, Dragalin V, Gaydos B, Krams M, Pinheiro J. Adaptive Designs in Clinical

Drug Development - An Executive Summary of the PhRMA Working Group. J Biopharm Stat

2006;16:275-83.

15. Ghosh S, Rao CR, editors. handbook of statistics 13: Design and Analysis of Experiments. Elsevier;

1996.

16. Golub HL. The need for more efficient trial designs. Stat Med 2006(19);25:3231-5.

28

Page 32: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

17. Gomber C, Loh E. Learn & Confirm. A new approach to drug development at Wyeth. Drug Discov

2007; 10(2), p.22-7.

18. Hamlett A, Ting N, Hanumara C, Finman JS. Dose spacing in early dose response clinical trial

designs. Drug Information Journal 2002;36:855-864.

19. Kola I, Landis J. Can the pharmaceutical industry reduce attrition rates?. Nature Reviews-Drug

Discovery 2004;3(8):711-715.

20. Krams M, Lees KR, Hacke W, Grieve AP, Orgogozo JM, Ford GA; ASTIN Study Investigators.

Acute Stroke Therapy by Inhibition of Neutrophils (ASTIN): an adaptive dose-response study of

UK-279,276 in acute ischemic stroke. Stroke 2003;34(11):2543-8.

21. Krams M, Burman CF, Dragalin V, Grieve AP, Pinheiro J, Maurer W. Adaptive designs in clinical

drug development: Opportunities, challenges, and scope reflections following PhRMA’s November

2006 workshop. J Biopharm Stat 2007;17(6):957-64

22. Krams M, Adaptive designs: Oppotunities, challenges and scope, PhRMA Adaptive Design

Working Group. DIA, Tokyo; 2008.

23. Ting N, editor. Dose Finding in Drug Development. Springer; 2006.

24. Ting N. Confirm and Explore: A Stepwise Approach to Clinical Study Designs. Drug Information

Journal 2008;42:545-554.

25. Senn, S. Statistical issues in drug development. Wiley; 1997.

26. Sheiner LB. Learning versus confirming in clinical drug development. Clin Pharmacol Ther

1997;61:275-91

27. Wang SJ. Discussion of the "White Paper of the PhRMA Working Group on adaptive dose-ranging

designs". J Biopharm Stat 2007;17(6):1015-20

28. Wang SJ. Adaptive Designed Clinical Trials Throughout a Drug Development Program. 29th

Annual Society for Clinical Trials Conference. St. Louis, MO, 19 May 2008

29. Wong WK, Lachenbruch PA. Tutorial in biostatistics. Designing studies for dose response. Stat

Med 1996;15(4):343-59.

30. 上坂浩之. 医薬開発のための臨床試験の計画と解析(医学統計学シリーズ). 朝倉書店;

2006

31. 小宮山靖. 用量選択問題を考える. 日本計算機統計学会 第 22 回大会 特別セッション;

2008.

32. 小宮山靖, 越水孝, 菅波秀規, 酒井弘憲, 渡橋靖, 東宮秀夫. 医薬品の臨床開発におけるア

ダプティブ・デザイン 米国研究製薬工業協会ワーキング・グループのエグゼクティブ・

サマリー邦訳, 臨床薬理 2009 掲載予定

33. 新医薬品の承認に必要な用量反応関係検討のための指針: ICH E4. 厚生労働省薬務局審査

課長通知, 薬審第 494 号, 平成 6 年7月 25 日, 1994.

34. 日本製薬工業協会 医薬品評価委員会 臨床評価部会 第 2 分科会. 開発計画の中での用量

29

Page 33: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

30

反応情報, 1999

Page 34: 臨床試験の用量選択に関わる 諸問題と展望 - JPMA...近年、医薬品の臨床開発において、第Ⅲ相試験の規模は、第Ⅱ相で実施される試験の規模よ

臨床試験の用量選択に関わる諸問題と展望 資料作成者 タスクフォース4 用量選択問題サブグループ

猪原 辰也 ノバルティス ファーマ株式会社 (サブグループリーダー)

吉田 哲 アステラス製薬株式会社

高瀬 貴夫 エーザイ株式会社

林田 健司 財団法人 化学及血清療法研究所

五月女 想 キッセイ薬品工業株式会社

直井 一郎 大日本住友製薬株式会社

菅波 秀規 興和株式会社 (推進委員兼タスクフォースリーダー)

越水 孝 ヤンセンファーマ株式会社 (推進委員兼タスクフォースリーダー)

監修

統計・DM 部会 部会長 東宮 秀夫 大日本住友製薬株式会社 同 副部会長 酒井 弘憲 田辺三菱製薬株式会社 同 副部会長 渡橋 靖 第一三共株式会社 同 副部会長 小宮山 靖 ファイザー株式会社

以上の資料作成に当たり、医薬品評価委員会 川口委員長ならびに本資料の査読を実施頂いた 査読担当の諸氏に感謝致します。