������ ����
- 통계분석 과정
- 통계분석 특징
통계분석 특징
3만명의 수강생이 검증한 통계분석 과정
통계분석이 어렵다구요?
통계분석이 어렵다고 느껴졌다면,
잘못된 교육을 받았기 때문입니다.
잘못된 교육을 받았기 때문입니다.
20년 데이터분석의 실무+강의+노하우가 결합된 강의!
"t-value, p값, 설명력(R²)을 수식으로만 설명하려는 사람은 개념을 제대로 이해하지 못한 사람입니다.
통계의 수식을 말로 쉽게 설명할 수 있어야 제대로 이해한 것입니다.
강의를 듣고 여러분은 100% 이해하고 쉽게 설명할 수 있습니다"
데이터캠퍼스가 드리는
강의 혜택은 비교할 수 없습니다
강의 혜택은 비교할 수 없습니다
한번 수강으로 제공되는 혜택 |
|
---|
데이터캠퍼스의
통계분석 강의는 다릅니다!
통계분석 강의는 다릅니다!
개념을 먼저 잡습니다. 다른 책이나 강의에서는 절대 볼 수 없습니다.
개념잡기 예시1: 자료와 분석방법 간의 관계
척도와 분석간의 관계 | 독립변수 | ||
---|---|---|---|
범주형 자료 | 연속형자료 | ||
종 속 변 수 |
범주형 자료 | 교차분석 | 로지스틱 회귀분석 판별분석 군집분석 |
연속형 자료 | t-test 분산분석 |
상관관계분석 선형회귀분석 경로/구조방정식분석 |
"어떤 데이터 간의 관계인가에 따라 적용되어야
하는 분석 방법이 80%이상 결정됩니다.
도구 다루기가 아니라 어떻게, 왜 분석법이 사용
되는가를 더 중시합니다. 진정 분석을 잘하는
사람은 분석도구가 아니라 분석 개념과 기획을
잘 하는 사람입니다
개념잡기 예시2: 귀무가설과 대립가설의 개념
분류 | 내용 |
---|---|
귀무가설 |
· “아무런 차이가 없다” 또는 “전혀 효과가 없다”는 내용을 의미하는 주장 · 대체로 연구에서는 귀무가설을 거부하기 위해 설정 |
대립가설 |
· "차이가 있다” 혹은 “효과가 있다”는 귀무가설의 반대개념 · 귀무가설이 기각되고 대립가설이 받아들여지면 자료는 “통계적으로 유의하다”고 표현 |
[가설검정]에 대한 일반 책/강사의 설명
귀무가설은 일반적으로 평범한 상태이기 때문이므로 ‘귀무가설은 사실’이라는 가정을 하고 출발한다. 이러한 가정 하에 관찰된 결과가
귀무가설 하에서 특이한지 아닌지를 판단하게 된다. 즉, 수집된 자료가 귀무가설이 사실이라는 가정 하에서 얻어진 자료와 매우 다를 때 자
료는 통계적으로 유의하다고 한다.
[가설검정]에 대한 데이터캠퍼스의 설명
예1) 아프리카 원주민 300명이 입국하자마자 한국 정당 A, B, C 당 중 하나를 선택하라고 한다면 결과는?
예2) 1세 아이이게 5억을 준다면 행복감이 증가할까?
원주민은 A/B/C당 중 어떤 정당을 더 선호하지 않을 것입니다. 왜냐하면 우리나라 정당에 대한 정보가 없기 때문이죠. 1세 아이에게 5억이 생겨도 더 행복하진 않을겁니다. 역시 돈에 대한 개념(정보)가 없기 때문이죠. 이렇듯 외적인 영향이나 정보가 없다면 더 선호하거나 더 행복 하지 않고 변화가 없을 것입니다.
여기서 귀무가설은 [‘아무런 외적 영향’이 없는 상태에서 선택 혹은 관측된 데이터는 무작위로 발생할 것이다’]라는 통계적 가정 혹은 약속 입니다. 즉 귀무가설은 사실여부가 아니라 통계에서 약속한 가정일 뿐입니다. ‘외적 영향이 없을 경우 나타나는 결과는 어떤 경향이 없이 무작위로 발생 할 것’이라는 가정입니다.
가설검정은 이러한 통계의 약속(가정)과 수집된 데이터(현상)간에 차이를 비교하는데, 관련이 없을 것이라는 가정인 귀무가설을 기준으로 현상의 데이터가 크게 다르면, 귀무가설을 버릴 수 밖에 없습니다. 즉 이렇게 크게 다를 때 자료는 유의하다고 하며, 이는 현상의 자료 결과 처럼 전체 모집단도 그럴 것이다라는 의미입니다.
예2) 1세 아이이게 5억을 준다면 행복감이 증가할까?
원주민은 A/B/C당 중 어떤 정당을 더 선호하지 않을 것입니다. 왜냐하면 우리나라 정당에 대한 정보가 없기 때문이죠. 1세 아이에게 5억이 생겨도 더 행복하진 않을겁니다. 역시 돈에 대한 개념(정보)가 없기 때문이죠. 이렇듯 외적인 영향이나 정보가 없다면 더 선호하거나 더 행복 하지 않고 변화가 없을 것입니다.
여기서 귀무가설은 [‘아무런 외적 영향’이 없는 상태에서 선택 혹은 관측된 데이터는 무작위로 발생할 것이다’]라는 통계적 가정 혹은 약속 입니다. 즉 귀무가설은 사실여부가 아니라 통계에서 약속한 가정일 뿐입니다. ‘외적 영향이 없을 경우 나타나는 결과는 어떤 경향이 없이 무작위로 발생 할 것’이라는 가정입니다.
가설검정은 이러한 통계의 약속(가정)과 수집된 데이터(현상)간에 차이를 비교하는데, 관련이 없을 것이라는 가정인 귀무가설을 기준으로 현상의 데이터가 크게 다르면, 귀무가설을 버릴 수 밖에 없습니다. 즉 이렇게 크게 다를 때 자료는 유의하다고 하며, 이는 현상의 자료 결과 처럼 전체 모집단도 그럴 것이다라는 의미입니다.
개념잡기 예시3: 회귀분석 전에 독립-종속변수의 공동변화 확인 방법
[공동변화 분석방법]에 대한 데이터캠퍼스의 설명
- 회귀분석을 하기 위해서는 독립변수가 변할 때 종속변수도 변해야 합니다. 이를 공동변화의 확인이라고 하는데, 선형회귀분석에서는 독립변수가 연속형일 때는 상관관계분석, 범주형일 때는 t-test와 분산분석으로 확인합니다. 로지스틱 회귀분석은 독립변수가 범주형 일 때, t-test와 분산분석으로, 연속형일 때에는 교차분석을 적용합니다. 이는 자료와 분석방법 간의 관계를 알면 쉽게 이해할 수 있습니다.
- 논문이나 연구물에서 회귀분석 전에 교차분석, t/F검정, 상관관계를 먼저 하는 것은 이러한 공동변화를 확인하고 이런 조건에 적합한 독립변수인지를 파악하는 과정입니다.
개념잡기 예시4: 통계에서 매개와 조절의 의미
[매개와 조절]에 대한 데이터캠퍼스의 설명
- 독립변수와 종속변수의 영향관계를 더욱 잘 설명하는 중간의 변수를 매개변수라 합니다. 통계에서 매개한다는 것은 논리적 영향 관계가 중간에 경유한다는 것이죠.
- 조절변수란 독립변수가 종속변수에 미치는 영향을 중간에서 조절하는 변수를 말합니다. 여기서 조절한다는 것은 영향을 더욱 강하게 혹은 약하게 한다는 의미합니다. 응답자가 본래 가지고 있는 인구학적 특성, 성격 등이 조절변수로 많이 사용됩니다.
개념잡기 예시5: 패널데이터분석의 모델과 명령어 한 눈에 정리
개념잡기 예시6: 패널데이터분석의 합동패널, 확률효과, 고정효과에 대한 도식적 설명
통계를 수식이 아니라 의미로 쉽게 해설합니다.
수식의 의미 해석1: 통계에서 검정통계량의 의미와 수식 구조
[검정통계량]에 대한 데이터캠퍼스의 설명
- 모든 통계학의 검정통계량은 분모=오차, 분자=표본에서 얻어진 값(차이/상관/영향의 값)으로 구성됩니다.
이 의미는 모집단을 추정할 때 틀릴 수 있는 오차에 비해, 얼마나 확실히 차이가 큰가, 관계가 강한가, 영향이 확신한가를 계산한다는 공통적인 아이디어입니다. - 이러한 검정통계량이 클수록 대립가설(차이/관계/영향이 있다)이 채택될 가능성이 높습니다.
만약 변수간에 차이/관계/영향이 없다면 모든 검정통계량은 ‘0’(귀무가설과 일치)이 됩니다. 그러나 검정통계량만으로는 가설 기각/채택을 판단할 수 없으므로 이를 표준화한 유의확률(p)를 같이 보어야 합니다. p는 0~1사이의 값을 가지며, 값이 0 에 가까워질수록 대립가설이 채택될 가능성이 높습니다. 특히 0.05보다 작을 때, 일반적으로 유의한 차이가 있다고 판단하게 됩니다
수식의 의미 해석2: 회귀분석의 분산분석표 통계량의 의미
[회귀분석 분산분석표]에 대한 데이터캠퍼스의 설명
- 회귀모형에서 ‘제곱합'은 독립변수에 의해 종속변수가 설명된 정도입니다. ‘자유도’는 독립변수의 수이며, 독립변수가 많을수록 설명이 잘 되기 때문에 제곱합/자유도로 나눈 ‘평균제곱’은 1개 독립변수가 종속변수를 설명하는 표준화된 설명력입니다.
- 잔차의 ‘제곱합’은 독립변수에 의해 설명되지 못한 오차를 의미입니다. 여기서 ‘자유도‘는 대략 표본수를 의미하고, 잔차의 제곱합을 자유도로 나는 잔차의 평균제곱은 1표본당 설명되지 못하는 표준화된 오차입니다.
- 검정통계량은 ‘설명정도/오차’의 구조를 띠죠. 따라서 F라는 검정통계량은 3716.129(회귀모형의 평균제곱) / 437.957(잔차의 평균 제곱)으로 계산되어 8.485가 됩니다.
수식의 의미 해석3: 복잡한 시계열 ARIMA의 의미를 하나로 정리
[ARIMA 모형 설정]에 대한 데이터캠퍼스의 설명
ARIMA(p,d,q)모형에서 p,d,q를 임시적으로 결정하는 단계
- 자기회귀(Autoregressive, AR)에 해당하는 p
- 이동평균(Moving Average, MA)에서 q를 찾는다.
- d는 추세가 존재하지 않으면 ‘0’, 추세가 존재하면 ‘1’을 설정한다.
흩어진 구슬이 아니라 하나의 보배처럼 실제 종합 연구물을 다룹니다.
SPSS 기본과정은 한 연구물을 전체적으로 분석/정리하도록 구성되어 있습니다.
구조방정식 모델은 기초통계에서 다중집단까지의 전체 과정을 분석/해석/정리하는 과정입니다.
시계열분석 VAR모형에 대한 전체 과정과 체크사항을 한 눈에 정리하고 실습합니다.