反比例っぽいグラフはどのようにして生まれるのか?


前略

こちらの記事の考察はとても面白かったですね。自分も「いいね」をもらうとやる気が出るので、ちょっと参考になりました。コードは書くつもりだけど。

ところで、私も分析をしていると度々記事の中にあった最初のグラフのような図に出会います。反比例っぽいなーと思いつつ、実はこれは反比例ではないのでは?と思ったので、似たようなグラフがどのようにしたら出力されるか、ちょっと試してみました。

反比例のグラフ

当たり前ですが反比例のグラフは下図のようになります。

import numpy.random as rnd
import matplotlib.pyplot as plt
plt.style.use("seaborn")

x = np.linspace(0.1, 10, 100)
y = 1/x

plt.plot(x, y)
plt.show()

さて、上のデータは手動で作成したのですが、これを所与のものであったと考えてみます。つまり、下記のようなデータフレームが最初から与えられていたとします。

import pandas as pd

df = pd.DataFrame({"x": x, "y": y})

このxとyをプロットして反比例か確認しても良いのですが、より良い確認方法として、グラフが線形になるように変数を変換することが考えられます。つまり、xの逆数をとった次のような列を考えます。

df["1/x"] = 1/df["x"]

df.plot(x="1/x", y="y")
plt.show()

こうすると、直線になるので、曲線の目視確認よりもより正確に確認することが出来ます。また、比例係数も読み取ることも出来ます。

反比例っぽいグラフ

反比例っぽいグラフを作るにあたって最初に思いついたのは、xとyがそれぞれ独立に、指数分布のような原点で最大値をとり急激に単調減少する分布に従うというものです。

指数分布の場合

y=xの方向にグラデーションになっています。これは再生性があるためだと考えられます(もう少し考察が必要)。反比例っぽい曲線感はないです。

import numpy.random as rnd
import matplotlib.pyplot as plt
plt.style.use("seaborn")

lam = 0.008
x = rnd.exponential(1./lam, size=10000)
y = rnd.exponential(1./lam, size=10000)

plt.figure(figsize=(5, 5))
plt.plot(x, y, ".", alpha=0.2)
plt.xlim(0, 1600)
plt.ylim(0, 1600)
plt.show()

幾何分布の場合

離散分布でも試してみます。こちらも曲線感はないです。

import numpy.random as rnd
import matplotlib.pyplot as plt
plt.style.use("seaborn")

x = rnd.geometric(p=0.01, size=10000)
y = rnd.geometric(p=0.01, size=10000)

plt.figure(figsize=(5, 5))
plt.plot(x, y, ".", alpha=0.2)
plt.xlim(0, 1600)
plt.ylim(0, 1600)
plt.show()

カイ二乗分布の場合

ちょっとそれっぽい曲線感があります。

import numpy.random as rnd
import matplotlib.pyplot as plt
plt.style.use("seaborn")

x = 100*rnd.chisquare(1, size=10000)
y = 100*rnd.chisquare(1, size=10000)

plt.figure(figsize=(5, 5))
plt.plot(x, y, ".", alpha=0.2)
plt.xlim(0, 1600)
plt.ylim(0, 1600)
plt.show()

xについて逆数をとり、yと一緒にプロットしてみます。

plt.plot(1/x, y, '.')
plt.show()

拡大してみます。

plt.plot(1/x, y, '.')
plt.xlim(0, 50)
plt.show()

反比例のグラフのような直線にはならないことがわかりました。

草々

カイ二乗分布のグラフは反比例感がちょっとだけあるグラフになりました。ただ、このようなグラフが得られたとき、原点付近にデータが有ることを考えると、反比例ではないと推測するのが妥当だと思います。

今回の検証での重要な点は、xとyに関係があるようなグラフに見えても、実はxとyが独立にサンプリングされた組であるケースがあるということです。