Random incidence

今天讲一下Random Incidence，我也不太确定Random Incidence的中文翻译是什么，就用英文来表示吧 ᕕ( ՞ ᗜ ՞ )ᕗ。可以先看一个现实中的例子，来看一下它的由来。

例子：公交车站等待时间

当我们想坐公交的时候，我们需要找到一个就近的公交车站，而到了车站之后我们大概率并不能马上坐上我们想要上的线路，我们关心的问题是当我们到了之后，需要等多久。这个等待时间直觉上取决于公交线路的发车频率，以及咱的人品。

每条公交线路都有一定的发车频率（比如10分钟），而由于公交车在旅途中行程时间是受到很多随机因素的干扰（比如可能会碰到红绿灯，交通拥堵），所以就算始发站的发车频率是严格的10分钟一班，那么到达每个车站的时间间隔也不会是正好10分钟。这个时间间隔其实就是所谓的headway (车头时距)，即在一个固定的地点，去数相邻两个到达的时间间隔。这里咱假设这个headway服从一个分布$f_H(h)$¹，我们暂时不去假设分布的类型，只知道这个分布的均值$E[H]$和方差$\sigma_{H}^{2}$。如果有很多历史数据的话，其实拟合一个这样的分布还是非常简单的。如果始发站的发车频率是严格10分钟一班的话，那么随着数据点的增多，这个均值应该会趋近于10分钟，而方差的话，就看旅途时间波动是否非常大了。
人品指的是咱是否恰好在公交车到达的时候到了站。最幸福的莫过于一到车站就刚好来了一辆，最悲催的就是到了车站，刚好错过（然后喊司机，司机还假装听不到 ໒( •́ ‸ •̀ )७ ）。这里咱做一个假设，我们到达车站这个事件，与公交车的到站之间是独立的，也就说咱也不知道公交车是不是有一个时刻表，规定了它大概什么时间会到车站，也不打开地图看看下一辆什么时候到再安排自己的出门时间；佛系到站，纯看人品！

有了$H$的均值和方差，还有独立性假设，我们就来算一下这个平均等待时间；由于乘客和公交车到达车站的时间都是随机的，那它直觉上也是随机的，我们用$W$来表示；我们现在关心的是$E[W]$，因为每次观察很可能都不一定，均值是我们关心的。下面这个图应该很直观地表达了上述思考。

我们的计算分两步走。（以下推导都不严谨）

第一步，确定这个乘客的到达会落在怎么样的时间间隔（记作$G$）。直觉上G跟H的长度以及$f(H)$都有关。比如想象一下如果$f_H(h)$是一个离散的分布，有0.5的概率是10分钟($f_H(10 min)=0.5$)，有0.5的概率是20分钟($f_H(20 min)=0.5$)，那么20分钟这个间隔被乘客”光临“的可能性，是10分钟那个间隔的2倍，因为它更长嘛~ 类似的，如果0.25的概率是30分钟，0.75的概率是10分钟，那么总的来说这两个类型的间隔会被等可能地”光临“。也就是说，G在每一个[g,g+dg]的概率（黎曼和），是正比于长度和该长度发生频率的乘积：

\[f_G(g)\cdot dg\propto g\cdot f_H(g)\cdot dg\]

$f_G(h)$还不是个valid分布，我们需要把整个概率normalize成1。两边取积分，左边等于1， $1 \propto E[H]$

所以，

\[f_G(g) = \frac{g\cdot f_H(g)}{E[H]}\]

第二步，在已知 $G=g$ 的情况下，根据我们的假设，乘客是均匀地落在 $g$ 这个长度上的。所以等待时间的分布就是长度为 $g$ 的均匀分布，

\[f_{W|G}(W=w|G=g) = \frac{1}{g}, 0\leq w \leq g\] \[E[W|G=g] = \frac{g}{2}\]

根据概率公式，

\[f_{W,G}(w,g) = f_{W|G}(w|g) \cdot f_{G}(g) = \frac{1}{g} \cdot \frac{g\cdot f_H(g)}{E[H]} = \frac{f_H(g)}{E[H]}, 0\leq w\leq g\leq \infty\]

把G积分掉，

\[f_{W}(w) = \int_{g=w}^{\infty} {f_{W,G}(w,g)}dg = \int_w^{\infty} {\frac{f_H(g)}{E[H]}}dg = \frac{1-F_H(w)}{E[H]}, g\geq 0\]

这里F是CDF，累积分布函数。

脚注

我们并没有假设相邻的两个H之间是否相关，更general的表示是把每个H之间的joint distribution写出来。这里我们为了简单，就使用Marginal distribution，把这个joint distribution给积分积掉了，然后假设这个Marginal distribution是相等的。 ↩