본문 바로가기
수포자 수학/대학 수학

[생물통계학] 산점도와 상관관계

by 키스세븐 2023. 4. 21.

[생물통계학] 산점도와 상관관계

 

내용을 읽기 전에 "반드시 소제목을 읽고 확인"해야 합니다. 

그래야 전체를 기억할 때 효율적으로 기억됩니다.

 

질문이 나올 때는, 자신의 생각을 먼저 한 후에 "더 보기"를 눌러서 확인하면 됩니다.

 

 

 

 

변수를 보는 두 가지 방법

 

변수는 설명 변수와 반응 변수로 볼 수 있어요. (또는 설명 변수와 응답 변수라고도 하지요)

이것은 자료를 그냥 각각의 변수로 보는 것이 좋은가, 각각 다른 변수로 나눠 보는 것이 좋은가에 따라 선택해야 해요.

 

  • 설명 변수 : "독립변수"다. 각각 자료가 될 뿐 다른 변수에 영향을 주지는 않는다.
  • 반응 변수 : "종속변수"다. 한쪽이 달라지면 다른쪽도 거기에 반응한다.

 

설명 변수와 반은 변수의 예를 들면?

더보기

몸무게가 많이 나간다고 해서 키도 클 것이라는 판단은 할 수 없죠. 이것은 설명 변수예요. 다리 길이와 팔 길이도 그래요.

칼로리 소모양과 체지방 비율은 서로 관계가 있어요. 그래서 반응 변수예요. 강수량과 수확량도 마찬가지죠.

 

하지만, 국민들의 기후 우려도가 높으면 국가의 \(CO_{2}\) 배출량이 줄어들 것인가는 명확치 않아요. 미국인의 걱정은 높지만, 미국은 정치적 목적으로 파리기후 협약을 탈퇴한 적이 있어요. 단, 어느 정도 영향이 있다는 정도로만 볼 수 있죠. 

 

 

 

두 양적 변수의 관계는 산점도로 본다

 

다른 두 변수라고 해서 "이변량"이란 말이 있는데, 양적 변수가 있는 두 가지의 "관계"를 볼 때는 산점도를 그려요. 

이때, 두 변수는 \(x\) 축과 \(y\) 축에 표시해요. 마치 함수처럼 표현하는 거죠.

(산점도의 뜻 자체가 "점이 분산된"이라는 뜻이다.)

 

산점도를 그릴 때 주의할 점은?

더보기

설명 변수인지 응답 변수(반응 변수)인지 구분이 모호하면, 둘 다 수평축... 즉 \(x\) 축에 표시할 수 있어요.

하지만, 설명 변수가 있다면  \(x\) 축에 설명 변수를, \(y\) 축에 반응 변수를 표시해요.

(함수에서도 (3, 5)라고 하면, \(x=3\)일 때 답은 \(y=5\)라고 할 수 있는 것처럼 말이죠. 그래서 \(y\) 가 반응 변수예요.)

그리고, 되도록 "정사각형"에 가까운 모양이 되도록 그려야 구분이 쉬워요.

 

만약, 추가 범주형 변수가 추가되면 어떻게 해야 하나?

더보기

그럴 때는 삼각형 등 다른 모양으로 점을 찍거나 다른 색을, 기호 등을 사용해서 구분해야 해요.

"다변량"일 경우 어떻게 해야 하냐는 질문이 있다면 이렇게 대답해야 하는 거죠.

 

 

 

산점도의 모양으로 알 수 있는 것

 

축에 점을 찍다보면

점점 올라갈 때가 있어요. 이것을 "양의 연관"이라고 불러요. 즉 비례 관계인 거죠.

또한 점점 내려갈 때도 있어요. 이것은 "음의 연관"이라고 하는데, 반비례 관계예요.

 

예를 들어,
체중과 대사율의 산점도를 그렸더니 점점 아래로 내려가는 반비례 모양이라면, 음의 연관성을 가졌다고 할 수 있는 겁니다.

 

이상점이 있다면(경향 분포에서 너무 동떨어진 것), 확인해야 하므로 그깋 비정상인 것은 "빈 원 모양 점"으로 표시하기도 해요.

 

축에 점을 찍다보면

마치 일직선처럼 점이 모일 때가 있어요. 이때 우리는 "관련성이 강하다"고 해요. 또는 "강도가 강하다"고도 해요.

 

하지만 원처럼 퍼져서 여기 저기에 마구 점이 찍히면, "관련성이 없다"고 봐야 하는 거예요.
이처럼 통계 중에는 양의 연관이나 음의 연관을 알 수 없는 것들도 매우 많아요.

 

 

 

상관관계 측정 계산

 

보통 상관관계는 \(r\)로 표현해요. 읽을 때는 "피어슨 상관계수"라고도 하고, 공식은 아래와 같아요.

\(r=\frac{1}{n-1}\sum\left(\frac{x_{i}-\overline{x}}{s_{r}}\right)\left(\frac{y_{i}-\overline{y}}{s_{y}}\right)\)
  • 분모는 전체가 아니라 1개를 제외한 \(\frac{1}{n-1}\) 이다.
  • 괄호 안의 분모는 "표준편차"다.
  • 분자는 "자료 변수 - 평균"이다.

 

그러므로 총 100명인 그룹에서 변수가 70인데, 평균이 50이고 표준편차가 10이라면 아래처럼 되는 거예요. 

여기에 시그마가 있으니까, 각각을 다 계산해서 더한 후 (100-1) 값으로 나누는 거지요.

("이변량"이니까 \(x\) , \(y\) 에 각각 두 개의 변량을 넣은 것임)

\(r=\frac{1}{100-1}\sum\left(\frac{70-50}{10}\right)\left(\frac{y_{i}-\overline{y}}{s_{y}}\right)\)

 

상관관계 \(r\)에서 알아 둘 것은?

더보기
  • 분수가 되니까 -1 ~ +1 사이의 수가 된다.
  • 그리고 -1에 가까우면 음의 연관, +1에 가까우면 양의 연관이 된다.
  • 그러므로 0이면 상관관계가 매우 약하고, -1이면 음의 직선, +1이면 양의 직선, 그 사이면 점이 퍼진 상태가 된다. (0이면 마구 퍼져 있는 것임)
  • 이때 \(r\)에는 반드시 "양적 변수"만을 사용해야 한다. (범주형 계산 불가)

 

상관관계 \(r\)에서 주의할 필요 없는 것은?

더보기

설명 변수와 반응 변수를 구분할 필요가 없다는 거죠. 

구분한다면, 위의 식에 있는 두 개의 괄호에 들어 있는 \(x\) 와 \(y\) 거든요. 그런데, 두 괄호가 곱하기로 되어 있기 때문에 자리를 바꿔도 답은 같아져요. \(2\times3\)이나 \(3\times2\)이나 같음)

 

 

'수포자 수학 > 대학 수학' 카테고리의 다른 글

[생물통계학] 이원분할표  (0) 2023.04.21
[생물통계학] 그래프와 분포  (1) 2023.04.20

댓글