이산확률 분포 (Discrete Distribution) 연속확률 분포 (Continuous Distribution)
균등분포(이산)
베르누이 분포
이항분포
초기하분포
포아송분포
균등분포(연속)
지수분포
정규분포
표준정규분포
개수, 횟수 등 떨어져 있는 확률 변수들로 이루어진 확률 분포
Finitely many distinct outcomes
길이, 시간, 무게등 이어저 있는 확률 변수들로 이루어진 확률 분포
이산형 확률분포함수 
확률 질량 함수(PMF : probability mass function)
연속형 확률 분포 함수 
확률 밀도 함수 (PDF Probability density function)
확률 분포표 : 합계 1 넒이가 확률 (전체 넓이 1)

 

확률 분포는 아래와 같이 표시한다.

        X          ~         N                   ( μ , σ² ... )

       ---                    ---               ---------------------

  valuable          Type(종류)      character (특성)

 

1. Scipy Stats 

Scipy 패키지의 서브 패키지중 stats 에 확률 분포를 다루기위한 다양한 함수들을 지원한다.

   (1) 이산 확률 분포

        bernoulli(베루누이 분포), binom(이항분포), multinomial(다항분포)
   (2) 연속 확률 분포

        uniform(균일 분포), norm(가우시안 정규 분포), beta(베타분포), gamma(감마분포)
        t(스튜던트 t분포), chi2(카이제곱분포), f(F분포), dirichlet(디리클리 분포),
       multivariate_normal(다변수 가우시안 정규분포)

 

2. 확률 분포의 주요 메소드

    Scipy의 확률 분포는 대부분 아래와 같은 공통 메소드를 지원한다.

    (1) pdf() : 확률 밀도 함수(probability density function)
    (2) pmf() : 확률 질량 함수(probability mass function)
    (3) cdf() : 누적 분포 함수(cumulative distribution function)
    (4) rvs() : 랜덤 샘플 생성(random variable sampling)

    (5) sf()  : 생존함수 (Survival Function)  1-cdf() 와 동일하다.

    (6) interval() : 신뢰 구간을 구하는 함수

    (7) ppf() : 분위수를 구한다. (cdf 역함수로 퍼센트를 구해준다) 

 

 

1. 베르누이 시행

시행 : 매번 반복되는 실험(추출)을 의미한다.

베르누이 시행 : 성공과 실패 2개의 결과로 나타나는 시행

P(S) = p, P(F) = q = 1-p

* 각 시행은 독립니다.

 

2. 이항분포

X~Bin(n,p)

n : 베르누이 시행 반복 횟수

p : 성공확률

X : n번 시행 시 성공횟수 (이항 확률 변수)

* 이항분포는 성공확률이 p인 베르누이 시행을 N번 반복 시 성공횟수 X의 확률 분포이다.

 

P(X) = nCx * P^x * Q^(n-x)

 

기대값 : E(x) = np (성공확률이 0.2일 때 100번 반복하면 20번 성공이 예상확률 상식이다)

              Var(x) = npq

 

3. 초기하분포

X ~ Hyp(n,D,N)

N : 모집단의 크기

n : 표본의 크기

D: 모집단 내 성공 개수

X : 표본내 성공 확률

* 초기하 분포는 유한한 모집단 내에서 비복원 추출을 할 경우 성공확률을 X라고 할 때 확률 변수 X의 분포를 말한다.

 

from scipy.stats import hypergoem
hypergoem.pmf(x, N, D, n)
# x : (표본의 성공횟수)
# N : 모집단의 크기
# D : 모집단의 성공 횟수
# n : 표본의 크기

 

4, 포아송 분포

X ~ Poisson(λ)

λ : 단위시간당 평균 발생 횟수

포아송분포는 단위시간당 발생할것으로 기대하는 평균 발생횟수 x의 분포를 말한다.

from scipy.stats import poisson
poisson.pmf(x,m)
# x : 단위시간당 사건 발생횟수
# m : 단위시간당 평균 발생횟수

+ Recent posts