본문 바로가기
수포자 수학/대학 수학

[생물통계학] 이원분할표

by 키스세븐 2023. 4. 21.

[생물통계학] 이원분할표

 

내용을 읽기 전에 "반드시 소제목을 읽고 확인"해야 합니다. 

그래야 전체를 기억할 때 효율적으로 기억됩니다.

 

질문이 나올 때는, 자신의 생각을 먼저 한 후에 "더 보기"를 눌러서 확인하면 됩니다.

 

 

 

 

이원분할표는 무엇인가?

 

변수가 범주형일 때, 두 개의 변수를 표로 작성하는 것을 말해요.

예를 들면,

신발 성별 합계
여자 남자
사이즈 A
B
C
D
30
70
합계 60 40 100

위의 표처럼 성별이라는 범주에 두 가지의 범주로 다시 나뉘어 변수가 들어가는 것이죠.

 

이런 건 막대그래프로 그릴 수 있어요. 그래서 이원분할표와 막대그래프가 비슷한 거라는 것도 알아 둬야 해요.

 

 

주변분포란 무엇인가?

 

위의 표에서 30과 70, 60과 40이 주변분포예요. 진짜 변수가 아니라, 그것을 계산한 값이죠. (즉, 행의 결과, 열의 결과가 주변분포다)

(참고: 행은 가로, 열은 세로를 말함. 즉 행열은 가로세로라는 뜻임)

 

보통는 백분율로 표시하기 때문에 이렇게 해요.

전체 중에서 A사이즈와 C사이즈를 신는 분포는 \(\frac{30}{100}\)로 해요. 즉, \(\frac{결과}{전체}\)인 거죠.

 

백분율로 계산했더니 그 합이 100%가 안될 때는?

더보기

50.5%와 49%를 더하면 100이 안 됩니다. 이런 경우를 "반올림 오류"라고 불러요. 하지만 전체 경향 분포에 영향을 끼치지는 못해요

 

주변분포의 단점은?

더보기

백분율로 비교하기는 쉽지만, 변수 간의 "관계"는 아무것도 알 수가 없어요.

 

 

 

조건 부분포란 무엇인가?

 

이원분할표는 두 개 이상의 범주형으로 만들어요. 그래서 그 중 하나의 범주에 대한 주변분포가 필요할 때도 있어요.

 

위의 표에서 여자가 A를 싣는 조건에서 부분포를 구하라면?

더보기

여자의 전체인 60으로 백분율을 만들어야 해요. 그러므로 \(\frac{A}{60}\)라고 해야 해요.

즉, \(\frac{결과}{전체}\)는 주변분포이고, \(\frac{한 범위의 변수}{한 범주의 전체}\)는 조건부분포인 것이죠.

 

주의할 것이 있다면?

더보기

두 범주형 중 하나가 명확한 설명 변수일 때만 연관성을 설명할 수는 있지만, (연관성 가능)

인과관계(왜 그런지의 이유)까지 설명할 수는 없어요. (인과성 불가능)

A는 여자가 더 많이 싣는다고 할 수는 있지만, 여자가 왜 A를 고르는지 인과관계까지 의미하지는 않는다는 거예요.

 

언제 조건 부분포를 구하는 것이 좋을까?

더보기

설명 변수와 반응 변수가 있고, 설명 변수가 숫자인 값이 있다면 사용해요.

위의 표를 본다면 여자, 남자가 설명 변수이고, A나 C같은 것이 설명 변수의 반응 변수인 거죠.

 

열이 있는 행 변수에서 조건부분포를 구하려면?

더보기

열을 다 보는 것이 아니라 "하나의 열"만 보는 것이 중요해요. 그 열 안에 들어있는 각각의 변수를 백분율로 만들어 비교하는 것이 방법이예요.

 

 

 

 

심슨의 역설

 

데이터는 경향을 보기 위해 사용해요. 그런데, 이원분할표에는 그 안에 범주가 또 들어 있다는 것이 특징이죠.

그런데 만약, "각각의 범주에서 보이던 경향"과 "모든 범주를 합쳐서 본 경향"이 다르다면 어떻게 해야 할까요?

바로 이것을 심슨의 역설이라고 불러요.

 

심슨의 역설은 이렇게 정의해요 : 숨어 있는 변수가 연광성 관측에 영향을 미치는 예시

 

왜 심슨의 역설이 일어날까?

더보기

범주형이 전체 중 하나의 변수이기 때문이예요.

위의 표에서 전체의 경향은 여자와 남자에 대한 것인데, 여자 안에는 A와 B가 숨어 있어요. 그래서 연관성을 잘못 생각할 수 있는 거죠.

이것 역시, 연관성을 생각할 수는 있지만 인과관계까지 파악할 수 없다는 주의점 때문에 생기는 현상이예요.

 

심슨의 역설을 제대로 알려면 어떻게 할까?

더보기

각 범주에서의 비율을 비교해야 해요. 예를 들어, 성공률, 흡연률, 생존률 등을 계산하는 거죠. 

범주 때문에 전체적 경향과 내부적 경향이 다르므로, 경향이 다른 것을 비교하는 방법은 비율이 가장 좋기 때문이예요.

예) 100중 3명과 300명 중 8명은 전체 수가 달라서 비교할 수 없다. 그러나 \(\frac{9}{300}\)와 \(\frac{8}{300}\) 처럼 통분해서 비율로 비교하는 것이 더 편할 것이다.

 

 

댓글