今天讲一下Random Incidence,我也不太确定Random Incidence的中文翻译是什么,就用英文来表示吧 ᕕ( ՞ ᗜ ՞ )ᕗ。可以先看一个现实中的例子,来看一下它的由来。
例子:公交车站等待时间
当我们想坐公交的时候,我们需要找到一个就近的公交车站,而到了车站之后我们大概率并不能马上坐上我们想要上的线路,我们关心的问题是当我们到了之后,需要等多久。这个等待时间直觉上取决于公交线路的发车频率,以及咱的人品。
- 每条公交线路都有一定的发车频率(比如10分钟),而由于公交车在旅途中行程时间是受到很多随机因素的干扰(比如可能会碰到红绿灯,交通拥堵),所以就算始发站的发车频率是严格的10分钟一班,那么到达每个车站的时间间隔也不会是正好10分钟。这个时间间隔其实就是所谓的headway (车头时距),即在一个固定的地点,去数相邻两个到达的时间间隔。这里咱假设这个headway服从一个分布$f_H(h)$1,我们暂时不去假设分布的类型,只知道这个分布的均值$E[H]$和方差$\sigma_{H}^{2}$。如果有很多历史数据的话,其实拟合一个这样的分布还是非常简单的。如果始发站的发车频率是严格10分钟一班的话,那么随着数据点的增多,这个均值应该会趋近于10分钟,而方差的话,就看旅途时间波动是否非常大了。
- 人品指的是咱是否恰好在公交车到达的时候到了站。最幸福的莫过于一到车站就刚好来了一辆,最悲催的就是到了车站,刚好错过(然后喊司机,司机还假装听不到 ໒( •́ ‸ •̀ )७ )。这里咱做一个假设,我们到达车站这个事件,与公交车的到站之间是独立的,也就说咱也不知道公交车是不是有一个时刻表,规定了它大概什么时间会到车站,也不打开地图看看下一辆什么时候到再安排自己的出门时间;佛系到站,纯看人品!
有了$H$的均值和方差,还有独立性假设,我们就来算一下这个平均等待时间;由于乘客和公交车到达车站的时间都是随机的,那它直觉上也是随机的,我们用$W$来表示;我们现在关心的是$E[W]$,因为每次观察很可能都不一定,均值是我们关心的。下面这个图应该很直观地表达了上述思考。
我们的计算分两步走。(以下推导都不严谨)
第一步,确定这个乘客的到达会落在怎么样的时间间隔(记作$G$)。直觉上G跟H的长度以及$f(H)$都有关。比如想象一下如果$f_H(h)$是一个离散的分布,有0.5的概率是10分钟($f_H(10 min)=0.5$),有0.5的概率是20分钟($f_H(20 min)=0.5$),那么20分钟这个间隔被乘客”光临“的可能性,是10分钟那个间隔的2倍,因为它更长嘛~ 类似的,如果0.25的概率是30分钟,0.75的概率是10分钟,那么总的来说这两个类型的间隔会被等可能地”光临“。也就是说,G在每一个[g,g+dg]的概率(黎曼和),是正比于长度和该长度发生频率的乘积:
\[f_G(g)\cdot dg\propto g\cdot f_H(g)\cdot dg\]$f_G(h)$还不是个valid分布,我们需要把整个概率normalize成1。两边取积分,左边等于1, \(1 \propto E[H]\)
所以,
\[f_G(g) = \frac{g\cdot f_H(g)}{E[H]}\]第二步,在已知 $G=g$ 的情况下,根据我们的假设,乘客是 均匀 地落在 $g$ 这个长度上的。所以等待时间的分布就是长度为 $g$ 的均匀分布,
\[f_{W|G}(W=w|G=g) = \frac{1}{g}, 0\leq w \leq g\] \[E[W|G=g] = \frac{g}{2}\]根据概率公式,
\[f_{W,G}(w,g) = f_{W|G}(w|g) \cdot f_{G}(g) = \frac{1}{g} \cdot \frac{g\cdot f_H(g)}{E[H]} = \frac{f_H(g)}{E[H]}, 0\leq w\leq g\leq \infty\]把G积分掉,
\[f_{W}(w) = \int_{g=w}^{\infty} {f_{W,G}(w,g)}dg = \int_w^{\infty} {\frac{f_H(g)}{E[H]}}dg = \frac{1-F_H(w)}{E[H]}, g\geq 0\]这里F是CDF,累积分布函数。
脚注
-
我们并没有假设相邻的两个H之间是否相关,更general的表示是把每个H之间的joint distribution写出来。这里我们为了简单,就使用Marginal distribution,把这个joint distribution给积分积掉了,然后假设这个Marginal distribution是相等的。 ↩