(機器學習)各種分布的筆記 @ 蟲匯聚之所

白努力分布Bernouli distribution:二項分布n=1時可以稱做白努力分布，

二項分布:一個只有是或不是的實驗成功次數的離散機率分布

多項分布: 二項式做n次伯努利實驗，規定了每次試驗的結果只有兩個，如果現在還是做n次試驗，只不過每次試驗的結果可以有多m個，且m個結果發生的概率互斥且和為1，則發生其中一個結果X次的概率就是多項式分佈。

貝塔分佈：

介紹貝塔分佈(Beta distribution)之前，需要先明確一下先驗概率、後驗概率、共軛分佈的概念。

具體可以看這篇文章：https://blog.csdn.net/zgcr654321/article/details/83478212

先驗概率：

就是事情尚未發生前，我們對該事發生概率的估計。利用過去歷史資料計算得到的先驗概率，稱為客觀先驗概率；當歷史資料無從取得或資料不完全時，憑人們的主觀經驗來判斷而得到的先驗概率，稱為主觀先驗概率。例如拋一枚硬幣頭向上的概率為0.5，這就是主觀先驗概率。

後驗概率：

指通過調查或其它方式獲取新的附加資訊，利用貝葉斯公式對先驗概率進行修正，而後得到的概率。

先驗概率和後驗概率的區別：

先驗概率不是根據有關自然狀態的全部資料測定的，而只是利用現有的材料(主要是歷史資料)計算的；後驗概率使用了有關自然狀態更加全面的資料，既有先驗概率資料，也有補充資料。

先驗概率和後驗概率的關係：

共軛分佈(conjugacy)：

後驗概率分佈函式與先驗概率分佈函式具有相同形式。

在試驗資料比較少的情況下，如果我們直接用最大似然法估計二項分佈的引數可能會出現過擬合的現象（比如，扔硬幣三次都是正面，那麼最大似然法預測以後的所有拋硬幣結果都是正面）。

為了避免這種情況的發生，可以考慮引入先驗概率分佈來控制引數，以防止出現過擬合現象。

如何選擇呢？

二項分佈的似然函式為：

如果選擇的先驗概率也與和有次方的乘積的關係，那麼後驗概率分佈的函式形式就會跟它的先驗函式形式一樣了。具體來說，選擇先驗概率(prior)的形式是，那麼後驗概率(posterior)就會變成。此時後驗概率(posterior)和先驗概率(prior)具有相同的函式形式(都是也與和次方的乘積)，這樣先驗概率與後驗概率就是共軛分佈了。

因此，我們選擇貝塔分佈作為先驗概率，其概率分佈函式為：

其中

通過分部積分法，可推匯出這個函式有如下遞迴性質

Γ(x)函式可以看作是階乘在實數集上的延拓，具有如下性質

狄利克雷分佈：

Dirichlet分佈可以看做是分佈之上的分佈。

在伯努利分佈裡，引數μ就是拋硬幣取某一面的概率，因為伯努利分佈的狀態空間只有{0,1}。但是在多項分佈裡，因為狀態空間有K個取值，因此μ變成了向量。多項分佈的likelihood函式形式是，因此就像選擇伯努利分佈的共軛先驗貝塔函式時那樣，狄利克雷分佈的函式形式應該如下：

上式中，是迪利特雷引數，把上式歸一化為真正的迪利特雷分佈為：

其中。這個函式和貝塔分佈有點像，跟多項式分佈也有點像。就像β分佈那樣，狄利克雷分佈就是它所對應的後驗多項分佈的引數μ的分佈，只不過μ是一個向量。

舉例：

假設我們有一個骰子，其有六面，分別為{1,2,3,4,5,6}。現在我們做了10000次投擲的實驗，得到的實驗結果是六面分別出現了{2000,2000,2000,2000,1000,1000}次，如果用每一面出現的次數與試驗總數的比值估計這個面出現的概率，則我們得到六面出現的概率，分別為{0.2,0.2,0.2,0.2,0.1,0.1}。現在，我們還不滿足，我們想要做10000次試驗，每次試驗中我們都投擲骰子10000次。我們想知道，骰子六面出現概率為{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少（說不定下次試驗統計得到的概率為{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}這樣了）。這樣我們就在思考骰子六面出現概率分佈這樣的分佈之上的分佈。而這樣一個分佈就是Dirichlet分佈。