본문 바로가기
수포자 수학/대학 수학

[생물통계학] 그래프와 분포

by 키스세븐 2023. 4. 20.

[생물통계학] 그래프와 분포

 

내용을 읽기 전에 "반드시 소제목을 읽고 확인"해야 합니다. 

그래야 전체를 기억할 때 효율적으로 기억됩니다.

 

질문이 나올 때는, 자신의 생각을 먼저 한 후에 "더 보기"를 눌러서 확인하면 됩니다.

 

 

범주형 변수과 양적 변수의 주의점

 

범주형은 "종류"라서 평균을 구하지 못 해요. 그러므로 "비율"로만 타나낼 수 있어요. 평균은 양적 변수만 가능합니다.

 

범주형 변수의 예) "노란꽃과 빨간꽃은 2:1의 비율이다"고는 할 수 있어도, 평균이 30이라고 하면 이상하지요.
양적 변수의 예) 양적 변수는 숫자 변수예요. 노란꽃 20개, 빨간꽃 30개라고 하면 비율도 가능하지만, \(\frac{20+30}{2}\)로 써서 "대략 25개씩이다"라고 평균을 말한 수 있어요.

 

 

 

연속형과 이산형, 그리고 범주형과 양적 변수

 

반드시, "개체가 무엇인가"와 "무엇을 측정했는가"가 먼저 확인되어야만 해요.

그래야지 연속형인지 이산형인지, 또는 범주형 변수로 해야 할지, 양적 변수로 해야 할지가 가능하죠.

 

뇌진탕과 수면의 관계를 통계로 내려면 어떻게 해야 할까요?

더보기

1. 개체는 환자죠. 환자는 1/2명처럼 잘라서 생각할 수 없으니까 당연히 이산형 변수로 처리해야 하는 거죠.

2. 이번엔 범주형 변수인지, 양적 변수인지를 볼까요? 이 경우 범주는 그저 병의 종류일 뿐이예요. "뇌손상"이라는 것 정도죠. 그러므로 수면과의 관계를 보려면 몇 시간을 잤는지를 숫자로 표시해야 구해야 하는 거예요. 즉, 양적 변수로 해야 하는 거지요.

 

 

 

빈도와 상대도수에서 반올림의 오류가 나면?

 

100명당 3명이라고 하면 "빈도수"이고, \(\frac{3}{100}\times100\)이라고 하면 "상대도수"죠.

그런데 문제가 있어요...

 

23.25%, 40.92%... 이런식으로 다 더하다 보니 100%가 안되고 99.5%가 되면 어떻게 할까요?

더보기

이것을 "반올림오류"라고 해요. 어차피 거의 모두 그렇다는 통계결과가 보인다면 그냥 100%로 해도 된다는 거예요. 즉, 연구 자체에 큰 영향은 없다고 봐야 하는 거죠.

 

 

 

원형 그래프와 막대 그래프의 특징

 

원형 그래프는 전체에서의 "비율"을 잘 보여주죠. 이것은 100% 전체에서만 그릴 수 있다는 말이예요. 전체의 일부만 가져와서 그래프를 그린다면, 즉 100%가 아니라면 원형 그래프를 그릴 수 없어요.

 

전체가 1000명인데, 그 중에서 A그룹 150명과 B그룹 410명만 가져와서 원형 그래프를 그리면 해석에 오류가 나요. 다른 그룹들이 없어서 전체에서의 분포를 알 수가 없다는 거죠.

 

막대 그래프는 한 범주 또는 계급에 대한 길이를 기준으로 보기 때문에 좋지요. 하지만 해석에 주의해야 해요. 잘못 생각하면 엉뚱한 판단을 내리게 돼요.

 

예를 들어, 계급이 70점~80점인 점수의 막대그래프가 있을 때, 그 안에 있는 개체들이 70점 쪽에 몰려 있는지, 80점 쪽에 몰려 있는지를 알 수가 없다는 거예요. 계산상으로 70~80의 평균은 75점이지만, 만약 그 계급의 막대그래프 속에 있는 사람들이 대부분 71점~73점이라면 평균과 맞지 않게 되지요.

 

 

 

막대그래프와 히스토그램의 차이

 

이 둘의 용도는 완전히 달라요. 막대그래프가 "범주"들을 배치하는 것이라면, 히스토그램은 반드시 "순서에 따라" 배치되는 거예요.

이 말은, 이렇게 정리할 수 있어요. 막대그래프는 이산형에 사용되기에 사이가 벌어져도 되지만, 히스토그램은 연속형을 사용하기 때문에 막대가 틈없이 붙어 있게 됩니다.

 

막대그래프는 마음대로 순서를 바꿀 수도 있어요. 예를 들어, 점수별로 하면 적은 점수부터 배치하겠지만, 수영이나 골프처럼 취미를 조사한 것이라면 마음대로 순서를 바꿀 수도 있지요. 그래서 붙여서 그릴 필요가 없답니다.
히스토그램은 연속적인 값에 더욱 효과적이예요. 몸무게, 연봉, 길이 등을 히스토그램으로 표시하면 "분포"(어느 쪽이 많은지)를 쉽게 알 수 있다는 장점이 있어요. 추가로, 연속적인 값이니까 막대를 붙여서 그려야만 하죠.

 

 

 

히스토그램에서 중요한 점

히스토그램은 넓이와 치우침을 보는 그래프입니다. 그래서 "중심"과 "퍼짐"과 "이상점"을 보죠. 이상점은 전체 분포에서 유달리 눈에 띄는 부분을 말해요. 특히 이상점은 집중해서 관찰해야 합니다. 그 부분이 특이한 건지, 잘못된 건지를 알아야 하는 거죠.

 

연속형은 대체로 좌우대칭 분포를 보이죠. 그런데, 그런 분포가 아니라서 계급을 좀 더 늘려서 봐도 될까요?

더보기

어느 부분을 잘 보기 위해 계급을 늘리는 것은 가능합니다. 그러나 대칭형이 아니라고 해서, 즉 모양을 맞추기 위해서 계급을 고의적으로 바꾸는 것은 안 돼요. 그러다가 엉뚱한 결론을 내게 되니까 말입니다.

 

 

 

점도표와 시계열은 양적 변수에 좋다

 

점도표는 점을 찍어서 히스토그램처럼 만드는 것이고, 시계열은 주식그래프처럼 선을 그리는 거예요.

이때 점도표는 누적된 점(점을 많이 찍다보면 점이 많이 모인 곳이 보일 것이니까)을 보는 것이고, 시계열은 같은 대상을 시간 순으로 변화를 관측해서 표시하는 것이라는 차이입니다. 시계열은 마치 주식 그래프 같습니다.

 

점도표와 시계열의 장점은 각각 무엇일까요?

더보기

점도표는 간단해서 쉽게 그릴 수 있어요. 또한 히스토그램처럼 "분포"를 파악하기 쉬워요.

시계열은 변화하는 패턴을 보면서 "경향"을 파악하기 쉬워요. 시간 순 변화니까 그런 거죠.

 

 

 

여러 데이터 분석의 장단점 비교

 

  • 범주형에 유리한 것 : 원형그래프, 막대그래프
  • 양적 데이터에 유리한 것 : 히스토그램, 점도표
  • 경향과 주기를 보기 쉬운 것 : 시계열그림

 

 

 

그래프 분석에서 빠트리면 안될 것

 

개체, 변수, 측정 단위를 이해했다면 꼭 이것을 해야 한다. 무엇을?

더보기

그림(그래프)로 그려봐야 한다. 이것은 패턴 분석(분포 해석)을 쉽게 하기 위해서다. 즉, 모양, 중심, 퍼짐, 대팅, 치우침 등을 알 수 있기 때문이다.

 

분석 중 이런 것은 다시 확인해야 한다. 무엇을?

더보기

그래프는 "특이한가?"와 "얼마나인가?"를 주의해야 한다. 이것을 "이상점"과 "편차"라고 한다. 

이상점은 분포 경향 패턴에서 벗어난 것이다. → 왜 그런지를 설명할 수 있어야 한다.

편차는 패턴에서 어느 정도 벗어나 있는가이다. → 얼마나 평균에서 멀리 벗어났는가를 보고 이상점인지도 확인해야 한다.

 

'수포자 수학 > 대학 수학' 카테고리의 다른 글

[생물통계학] 이원분할표  (0) 2023.04.21
[생물통계학] 산점도와 상관관계  (1) 2023.04.21

댓글