管理栄養士のための臨床統計基礎

ここでは、管理栄養士に必要な、統計手法の選択とその具体的な手法、および解析に必要なポイントを解説していきます。この記事は全くの初学者ではやや難しいでしょう。

栄養学の修士課程程度レベル、あるいは管理栄養士として臨床研究に取り掛かりはじめ、原著論文を1,2報程度書いた人程度を対象としています。

統計手法の選択

統計手法をどのように選んだらよいか 基本的な考え方やポイントを

群間条件比較

〇〇と△△の関連を検討する

〇〇の介入効果を検討する

カットオフ値を求める

以上の4つに大きく分けて解説します

群間条件比較

扱うデータが 2群または2条件での比較なのか 3群以上3条件以上の比較なのかをまず確認します。

扱うデータの特性 繰り返しがあるのか正規分布をしているのか、変数アウトカム尺度の種類を確認し統計手法を選択します。同じ対象者に繰り返し測定するような場合は対応のあるデータとして取り扱います。例としては通常歩行速度と最大歩行速度の比較、介入前後の比較などです

t検定

t検定とは 変数が正規分布し比較する変数の分散が等質である場合に分析を実施します。変数の投入方法として、比較したい連続尺度アウトカムに投入し、群間で比較します。この時に確認すべき統計値はt値とp値などです 。

分散分析:ANOVA

変数が正規分布し比較する変数の分散が等質である場合に分析を実施します。変数の投入方法としては、比較したい連続尺度をアウトカムに投入し群間で平均値が同じかどうかを比較します。確認すべき統計値としてはF値やp値などが挙げられます。必要に応じてpost hoc test post(Tukey法やDunnett法、Scheffé法、Bonferroni法などがあります。

解釈のポイント

解釈のポイントとして t検定ならびに分散分析は 各群の平均値が同じかどうかを検討します。計算された検定統計量において優位となった場合、それぞれの平均値が異なると判断します。分散分析では結果が有意となった場合にpost hoc testすなわち事後検定を用いて各群間の比較が行われます。post hoc testは検定を繰り返し実施することにより生じる familywise error(誤って有意となる可能性が高まること)を避けるため 統計量に基づいて比較したり、p値の設定を調節したりする方法などによって実施されます。具体的な方法としては統計ソフト内にある特定の統計手法のコマンドを選択して実施する方法や t検定など複数回用い、p値補正により有意水準を調整する方法などがあります。この代表例としてBonferroni法などがあります また比較するものに群間差があった場合、どの程度違っているのかを解釈するために効果量を算出することもあります。

カイ二乗検定

事前確認として該当する分布が0該当なしの場合や期待度数が5未満のセルの全セルの20%以上ある場合は カイの2乗検定を実施すべきではないとの考え方があるためそのような場合はフィッシャーの正確確率検定など、ほかの方法を用いる必要性があります 実際のデータの分布ではなく、あくまでも期待度数であることに注意する必要性があります。変数の投入方法としては関係性を見たい変数(ペアを選択します 確認すべき統計値はp値などです

②〇〇と△△の関連を検討する

pearsonやspearmanの相関分析

pearsonやspearmanの相関分析などがあります。事前確認としては変数アウトカム尺度が正規分布しているかどうかの確認が必要です 。正規分布している場合はピアソンを、非正規分布の場合はスピアマンの相関分析を実施します。又に変数の散布図を描き外れ値がないか確認する必要性があります。

変数の投入方法としては関係性を見たい変数を選択します。確認すべき統計量としてはpearsonの積率相関係数、spearmanの順位相関係数、p値などが挙げられます。解釈のワンポイントとして相関係数rは-1から1までの値をとり、値の正負によって関係性の解釈が異なります。つまり正の値であれば正の関係であり、増えれば増えることを意味します。また負の値であれば負の関係であり、増えれば減ることを意味します。値の解釈については絶対値が1に近いほど関係性が強いことを意味します

重回帰分析

事前確認としては要因同士の関係性を相関分析によって確認し、関係性が高い場合(多重共線性あり)は使用する変数を吟味する必要性があります。変数の投入方法としてはアウトカムを説明する仮説に沿ったモデルに応じて要因を選択します。確認すべき統計値は自由度調整済みRの2乗(モデル全体の適合度)、標準偏回帰係数(標準β係数)、p値などが挙げられます。解釈のポイントとして、Rの2乗はモデルの適合を示すため値が大きいほどモデルの当てはまりが良いことを示します。つまり設定したアウトカムに対し投入した要因でどの程度説明できているのかを示すのがRの2乗です。標準偏回帰係数はいわゆる回帰係数と同じであるため、相関係数であるrと同様の解釈が当てはまり、正負によってアウトカムと要因の関係性の正負が決まります。また多重共線性の確認は前述のように相関の高さから検討する場合もあればvariance inflation factor(VIF)から検討する場合もあります。

ロジスティック回帰分析

事前確認として、アウトカムに名義尺度を投入する際、参照するほう(群)をどれに設定するかを事前に確認します。参照する群は任意で選択できますが、結果の解釈が異なるため最初に決めておく必要性があります。

因数の投入方法

関係性をみたい変数と、必要に応じて共変量を選択します

確認すべき統計値としてはオッズ比、95%信頼区間などがあります

共変量

多変量解析を行う際にアウトカムと要因との間に介在する可能性のある交絡因子などを共変量とみなし、調整変数として投入する方法があります。重回帰分析やロジスティック回帰分析など多くの解析において用いられ、アウトカムと要因だけの関係性を見た検定(いわゆる単変量解析)よりも、共変量による影響を考慮した解析の方が独立した両者の関係を示すことに適している検定方法であると考えられています。

ただしアウトカムと要因に大きな影響を与える可能性がある変数を測定できない場合も実際には多くあるため 解析可能な場合は、共変量が考慮すべき重要な因子の1つになるということを理解しておく必要性があります

解釈のポイント

解釈のポイントとして、ある要因においてp値が有意である場合にオッズ比を合わせて確認します オッズ比が1以上であればアウトカムの事象に対しなりやすいという意味では関係性が強いと解釈でき、逆に1より小さい場合は なりにくいという意味合いで関係が強いと解釈されます。ただしオッズ比の信頼区間に1を含んでいる場合はどちらの可能性もあるということを示すので、その指標は有意とならないので注意が必要です。要因が名義尺度・順序尺度の場合は Referanceに設定したカテゴリー(群)に対する結果が表れます。

要因が連続尺度の場合は 単位量あたりの変化に対するオッズ比が算出されます。気を付けるべき点としては信頼区間が大きすぎるときはデータの分布に問題がある場合があるため確認が必要です。また要因に投入する変数同士の比較が研究の解釈上必要な場合は、変数の設定時に解釈の向きを可能な限り揃えると良いでしょう つまりある変数はオッズ比が高い方がネガティブで、ある変数はお寿司が小さい方がネガティブな情報であるとすると、結果の解釈に混乱を招くので、可能な限り参照するカテゴリーの設定を工夫して解釈の向きは揃える必要性があります。例えば、アウトカムに要介護認定の有無を設定しそのリスクを検定するために要因に年齢(連続尺度)、性別(名義尺度)に加え慢性疾患の有無(名義尺度)服薬数(連続変数)転倒経験の有無(名義尺度)認知機能低下の有無(名義尺度)、栄養状態の低下(名義尺度)を設定したとしましょう この場合慢性疾患の有無、転倒経験の有無、認知機能低下の有無、さらには栄養状態の低下のいずれも、有の場合がリスクを高めるネガティブな意味合いになるため参照するカテゴリーを無に揃えておく工夫をした方が良いということです。もし1つだけ有も参照のカテゴリーにしていたら 解釈の向きが混在するためわかりにくくなってしまいます 。

生存分析 Kaplan-Meier法

事前確認としてイベントの発生に対し時系列データがリンクしていることを確認します。

また イベントの発生以外の事象に対しては、打ち切り扱いにするなど取り扱い方法を事前に決定しておきます。変数の投入方法としては、従属変数にイベントの発生と時系列情報を設定し独立変数に検定したい要因を名義尺度にて投入します。その際独立変数において参照するカテゴリーを設定します。確認すべき統計値としては、ログランク検定を用いた場合、p値などを確認し、独立変数に投入されたカテゴリ間に有意な差があるかどうかを 検討します 。

生存分析 cox比例ハザード分析

事前確認としては、Kaplan-Meier法と同様にイベントの発生に対し時系列データがリンクしていることと、イベントの発生以外の事象に対して打ち切り扱いにするなど取り扱い方法を事前に決定しておく必要性があります。変数の投入方法としては 従属変数にイベントの発生と時系列情報を設定し独立変数に検定したい要因と共変量を投入します。必要に応じて独立変数において参照するカテゴリーを設定します。確認すべき統計値としてはハザード比と95%信頼区間、p値などが挙げられます。

解釈のポイント

解釈のポイントとして 生存分析を実施する際には累積生存確率や累積死亡関数を、描画すると非常にわかりやすくなるため、可能な限り図示することが望ましいです。結果の解釈としてはハザード比で1より大きい場合は、アウトカム発生に対しその要因がリスクを上昇させていることを意味し、逆に1より小さい場合はリスクを減少させていることを意味します。説明するモデル内で参照するカテゴリーを設定する場合には ロジスティック回帰分析の時と同様に参照する分の設定を揃えた方が結果の解釈がしやすいです。

③〇〇の介入効果を検証する

反復測定2元配置分散分析(2way ANOVA)

事前確認として 変数が正規分布し、比較する変数の分散が等質である場合に分析を実施することができます。変数の投入方法としては、効果があるかどうかを見たい変数をアウトカムに投入し時間要因介入の前後などと群要因(介入群と非介入群など)を設定します。確認すべき統計値としてはF値、p値、偏ηなどがあります

解釈のポイント

解釈のポイントとして、一般的に介入効果があるかどうかについては、介入群において改善が認められる結果で、時間要因と群要因の交互作用がある場合に介入効果ありと解釈されます。

実際のところこの分析では介入が有意な効果を有するかどうかだけがわかるので、どの程度の改善が得られたかについてはわかりません。そこでこうした情報を得るために各群で介入前後の差分を計算しt検定を用いて群間比較する方法があります。その他介入効果を検討する解析方法としては反復測定2元配置分散分析以外に、その他の要因を含んだ混合モデルや回帰モデルを用いた解析方法もあります。

④カットオフ値を求める

ROC曲線

変数の投入方法 カットオフ値を見たい変数をイベント、事象(2つの値で表される判定や診断など)に対するに対し、該当するまたはしないを表す変数を要因に投入します。確認すべき統計値としてはArea Under the Cureve(AUC:曲線下面積) 、p値などがあります。カットオフ値を求める方法としては、Youden-indexなどの方法を用いて算出し、カットオフ値に対する感度、特異度合わせて確認し、値の解釈を行ないます。

感度と特異度

ある連続尺度における基準値がある事象に対してどの程度の予測の保有しているかについて検討する場合、感度と特異度によって判断されることが一般的です。感度は疾患ありの人がある検査で陽性であった割合を示します。反対に特異度では疾患なしの人がある検査で陰性だった割合を示します。感度特異度はそれぞれ0から1の間をとり、1に近い値ほどそれぞれにおいて優れていることを意味します 。

まとめ

統計を実施する前にしておくべきこと。

まずは各変数の種類(連続尺度・順序尺度・名義尺度)が統計ソフトの尺度の選択で適切に設定されているかどうかの確認です。この設定が誤っていると統計ソフトが正しく計算できないだけでなく、当初考えていた統計解析とは異なる検定が行われたり計しますので充分に気をつける必要性があります。

次に大事なのは 変数の値や分布の確認です 連続尺度であればヒストグラムなどを見て極端な外れ値がないか、また分布の種類はどうか、正規分布しているのか、対数変換が必要かなどの確認をし、必要に応じて分布の検定を行います。名義尺度であれば割合がどのような分布をしているか、また該当しない(0%のもの)がないかなどを確認しておく必要があります。このように数値だけでなくグラフなど感覚的な確認も合わせて行い統計を実施する前に各変数の状況を把握することが重要です。