マイクロアレ-のシグナル強度は検出ソフトウェアによって定量化されます。 各スポットのシグナル強度はローカルバックグラウンドを省いて算出され、生データはデータ分析ソフトウェアを用いて正常化し、分析されます。 microRNA発現プロファイリング実験のデータ分析は標準化が困難ですが、それは一部の方法がmicroRNA発現データに対して有効でない仮定に基づいているからです。 2色素発現プロファイリングマイクロアレイ実験のノーマライゼーションには通常3種類の方法があります。

ラテンスクエア/ループデザイン/デザインスワップ


このモデルは、データに適合するグローバルリニアモデルです。 このモデルは、典型的な変動の要因をコントロールしながら、実験で使用するアレイ数を最小にします。 This method was initially described by Kerr, et al. in Analysis of Variance for Gene Expression Microarray Data.

The Loop Design experimental design fits the following model to the observed data,
NCode 均衡データ

Where,

  • Xijkg は、ith アレイ、jth色素、kth組織、アレイ上のgthスポットによって観測されたシグナルです。i = 1、2、…、I はアレイ数で、j = 1、2 これが色素数で、このプラットフォームでは2色素のみ使用されています。k = 1、2、…、K は現在NCode™ Profilerでの同様の実験における組織数で、 K = I > 2 および g = 1、 2、…、Gは、アレイにおけるスポットの総数です。
  • µ – これは実験で観察された全体の平均シグナルです。
  • αi – これは、色素、遺伝子、組織に関係なく、µの全体的な影響に追加してithアレイで観察された付加シグナルです。
  • δj – 色素、遺伝子、組織に関係なく、µの全体的な影響に追加して jth色素で観察された付加シグナルです。 NCodeアプリケーション にはj = 1 と2、 Alexa 3 と 5色素には
  • τk– これは、色素、遺伝子、組織に関係なく、µの全体的な影響に追加してkth組織で観察された付加シグナルです。
  • γg – これは、色素、遺伝子、組織に関係なく、µの全体的な影響に追加してgth遺伝子で観察された付加シグナルです。
  • αγig – これはinteraction term で、ithアレイとgth遺伝子で観察された付加シグナルを表しています。色素や組織とは関係なく、µの全体的影響、ithアレイαiの全体的影響、gth遺伝子の全体的影響に追加されたものです。
  • τγkg – これはinteraction termで、 kth 組織とgth遺伝子で観察された付加シグナルを表します。色素やアレイには関係なく、µの全体的影響、kth 組織 τkの全体的影響、gth遺伝子の全体的影響に追加されたものです。 これは、色素やアレイの影響をノーマライズし、ひとつの特定の組織内の特定のmiRNAマーカーについて説明できるシグナルにフォーカスするので、重要なタームです。 組織に関連した影響がとくにないようであれば、このタームは0付近です。

このモデルは様々なパッケージを使って行うのに適しています。 モデル残渣のブートストラップにより、実験系や反復数に依存したP値が概算されます。 適切なLatin Squaresモデルに対しては、2つの蛍光色素による実験、2つの組織、そして2つのアレイのみが含まれ、2番目のチップは1番目のダイスワップであることに注意してください。 適切なLoop designはLatin Squaresモデルを拡張し、サンプル数を2以上、チップ数をサンプル数と同じにし、チップをダイスワップせずにダイシフトさせたものです。 例えば、3サンプルのLoop designは次のように求められます:

  1. チップ 1 – サンプル 1 – 色素 1、サンプル 2 – 色素 2
  2. チップ 2 – サンプル 2 – 色素 1、サンプル 3 – 色素 2
  3. チップ 3 – サンプル 3 – 色素 1、サンプル 1 – 色素 2
サンプル数が多いほど(反復なし)、このデザインパターンは拡張されます。

Assumptions: 標準化とディファレンシャルマーカーの検出を同時に行います。 モデルの影響は対数相加で計測されると仮定し、交絡のため遺伝子-蛍光色素の影響が全くないと考えると仮定します。
Pros: 多くの異なる変動要因は、このモデルでは標準化/コントロールされます。 ディファレンシャルマーカーの検出はモデルから外れます。
Cons: P値の算出は計算上の課題です。

M vs A、Lowessノーマライゼーション


この方法は主に単一蛍光色素のアレイシステムに使用されますが、2蛍光色素システムに適用することもできます。 それは、一般的に、チップ上で発現が異なるものがないと仮定し、データを標準化しようとします。 また、これはチップ標準化においてのみであることに注意する必要があります。 特にこの方法は、各miRNAのシグナルの対数積と同様に、各miRNAのシグナルの対数比を算出します。 その後、対数比(Y軸)に対して対数積(X軸)のプロットを作成します。これは一般的にM対Aプロットと呼ばれます。

This method was initially described by Dudoit,S, et al. in Statistical methods for identifying genes with differential expression in replicated cDNA microarray experiments. It was also described by Yang, YH, et al. in Normalization for Two-color cDNA Microarray Data. Science and Statistics: A Festschrift for Terry Speed, Monograph Series and by Yang, YH et al. in Normalization for cDNA microarray data: a robust composite method addressing single and multiple slide systematic variation.

The assumption here is that the trend of this plot should be y=0. To test this trend, you then apply a lowess (LOcally WEighted Scatterplot Smoother), which is a non-linear line that attempts to create a trend in the vertical direction in the horizontal direction. このlowessラインがy=0にならない場合は、データはこのラインにより標準化されています。従って、いずれの対数比からも対応するlowess値を減算します。また、これは標準化された値に帰着します。 これはチップごとに行われます。

Assumptions: Across the chip on average there should be no change in the signal between two different channels
Pros: デザインの前後で、標準化されたデータが自然に解釈をされている点で素晴らしい方法です。 多くを含むアレイでは、仮定はほぼ自明であり、常に正しいです。
Cons: Lowessはデータセットに当てはめるために重要です。 実験計画の問題。 比較的少数のプローブや直接的な内容の場合、仮定が失敗する場合があります。
Note: Typical mRNA data have readily discernable patterns in M vs. A plots which makes fitting a model fairly easy. miRNA data are much more diffuse in an M vs. A plot which makes model fitting much more difficult

Quantile Normalization


主に特定チップおよび同じようなチャネルのヒストグラムを強制する事を目的とするグローバルな標準化の方法ですが、特定のmiRNAに対する実際の値は、チップ/蛍光色素コンビネーションによるシグナルの順番により異なる可能性があります。 This method was initially described by Irizarry RA et al. as part of a larger analysis method in Exploration, normalization, and summaries of high density oligonucleotide array probe level data. 特に、「シグナルのグローバルな分配」を得るために、すべてのチップ上の最大値は、すべてのチップの最大値の中間値に置き換えられます。すべてのチップ上の2番目に大きな値は、すべてのチップ上の2番目に大きな値の中間値に置き換えられます。 すべてのスポットで行われることで、データが標準化されることになります。

Assumption: That the histogram of signals for each chip within an experiment should be equal
Pros: 仮定に反する場合でも、優れた標準化の方法であるため、文献に示されています。 データから直接推測されます。
Cons: 統計ソフトウェアなしで適用することは困難です。つまり、Excelでこれを行うのは非常に大変かもしれません。

NCode™ miRNAプロファイリングに関する情報:

追加情報トピック

p値の計算に使用される統計的方法の興味深い論文:

Wu CFJ (1986) Jackknife, Bootstrap, and Other Resampling Methods in Regression Analysis. Annals of Statistics 1986 14:1261-1295.

Efron B and Tibshirani R (1986) Bootstrap Methods for Standard Errors, Confidence Intervals, and Other Measures of Statistical Accuracy. Statistical Science 1: 54-77.

Hastie TJ and Tibshirani RJ (1990) Generalized Additive Models. Chapman and Hall, London.

Altman NS and Hua J (2006) Extending the Loop Design for Two-Channel Microarray experiments. Genetic Research 88 (3) 153-63.

引用された文献

Irizarry RA et al. (2003) Exploration, normalization, and summaries of high density oligonucleotide array probe level data.

Kerr, et al. (2000) Analysis of Variance for Gene Expression Microarray Data, Journal of Computational Biology, 7:819- 837.

Dudoit,S, et al. Statistical methods for identifying genes with differential expression in replicated cDNA microarray experiments. Statistica Sinica, Vol. 12, No. 1, p. 111-139

Yang, YH et al. (2002) Normalization for cDNA microarray data: a robust composite method addressing single and multiple slide systematic variation. Nucleic Acids Res. 2002 Feb 15;30(4):e15. .

Yang, YH, et al.(2003) Normalization for Two-color cDNA Microarray Data. Science and Statistics: A Festschrift for Terry Speed, Monograph Series. Volume 40. Edited by: Goldstein DR. IMS Lecture Notes; 2003:403-418.