Stan のデータ型についてまとめてみた


Stan: Modeling Language Manual の 3 章と 4 章をもとに Stan のデータ型についてまとめてみました。

1. 基本的な型

プリミティブ型 (Primitive Type)
real x; 実数 最も基本的な型
int N; 整数
ベクトルと行列 (Vector and Matrix)
vector[10] v; 列ベクトル 一次元。要素の型は real
row_vector[10] rv; 行ベクトル
matrix[2, 3] m; 行列 二次元。要素の型は real
配列 (Array)
real x[5]; real の配列
int N[5]; int の配列
vector[10] v[5]; vector の配列 要素一つ一つが vector
matrix[2, 3] v[5]; matrix の配列 要素一つ一つが matrix
real x[5, 10]; real の二次元配列
real x[5, 10, 7]; real の三次元配列
vector[10] v[5, 10]; vector の二次元配列 要素一つ一つが vector
matrix[2, 3] v[5, 10]; matrix の二次元配列 要素一つ一つが matrix

1-1. 配列(array)について

配列は任意の型を要素に持つことのできるコンテナです。
したがって、real と int の配列だけでなく、vector や matrix を要素として持つ配列を作ることができます。
二次元配列は、実際は一次元配列を要素に持つ配列です。
real x[M, N] という配列があったとき、x[m, n]x[m][n] の簡易的な書き方です。

1-2. 行列(matrix)と配列(array)の違い

Stan において、matrix と array は明確に異なる役割を持っています。
matrix は数学の行列を表現するためのもので、array は複数の要素を持つためのコンテナです。
したがって、matrix に対しては行列演算(行列積など)を行うことができますが、array に対してはこれを行うことはできません。
また、matrix は線形代数関数(固有値や行列式など)および多変量関数(多変量正規分布など)の引数として使用します。
一方、array は離散確率分布の引数に使用されることがあります。
array を matrix に代入することはできません。また、逆に matrix を array へ代入することもできません。
matrix は要素として real しか持つことができませんが、array は任意の型を要素として持つことができるので、int の二次元配列を作ることが可能です。

2. 制限付きデータ型

上記の基本的なデータ型に対して、上限と下限を指定することによって変数の取る値を制限することができます。
これは、意図しないデータが変数に入ることを防止する効果があります。
また、良く使われる制限付きの型は特別な名前で定義されています。
これらは単に基本的な型に特別な制限を加えただけのものです。

制限付きデータ型 (Constrained Data Type)
int<lower=1> N; 1 以上の整数
real<upper=0> log_p; 0 以下の実数
matrix<lower=-1, upper=1>[M, N] m; -1~1の範囲の値を取る行列
ordered[N] ov; 昇順ベクトル (参考)
positive_ordered[N] pov; 正数昇順ベクトル
simplex[N] s; 非負で合計が 1 となるベクトル ディリクレ分布に使われる(参考)
unit_vector[N] uv; 二乗和が 1 となるベクトル
cov_matrix[N] cm; 正定値対称行列 分散共分散行列に使われる
corr_matrix[N] cm; 対角要素が 1 の正定値対称行列 相関行列に使われる
cholesky_factor_cov[N] cfc; 下三角正定値対称行列 コレスキー分解に使われる
cholesky_factor_corr[N] cfc; 下三角正定値対称行列 相関行列のコレスキー分解

※コレスキー分解は高速化のために使用されるテクニックです。詳しくは下記が参考になります。

3. 補足

3-1. matrix と 2 次元 array どっちを使えばいいのか?

メモリ的には、2 次元 array よりも matrix の方が有利です。
matrix の方が省メモリで、連続的した領域を確保します。
速度的には、matrix は列ベースの繰り返しに有利です。
例えば次のような繰り返しをしたい場合は matrix が最適です。

Stan
matrix[M, N] a;
// ...
for (n in 1:N)
  for (m in 1:M)
    // ... a[m, n] を使った計算 ...

一方、array は行ベースの繰り返しに有利です。
次のような繰り返しをしたい場合は array が最適です。

Stan
real a[M, N];
// ...
for (m in 1:M)
  for (n in 1:N)
    // ... a[m, n] を使った計算 ...

これらはコンテナとして見たときの違いであり、matrix と array は根本的に異なります。
詳しくは 1-2 を参照して下さい。

3-2. vector と 1 次元 array どっちを使えばいいのか?

コンテナとして使う場合、どちらを使っても大差ありません。
違いは、vector は real しか保持できませんが、array は int を保持することができるというくらいです。

4. 参考