Session 3 Week2 Chapter3, Chapter4
발제자: 채충일
3.1 서머리 및 자료
3.1.1 Chapter 3
3.1.1.1 분산 Variance 과 표춘편차 standard deviation
- 분산은 자료가 평균을 중심으로 퍼져있는 경향성을 나타냄
- 모분산은 모든 데이터를 가지고 계산한다고 가정
- 샘플분산은 우리가 전체 데이터의 일부를 가지고 모분산을 추정하는 것을 의미함
- 가지고 있는 데이터 셋이 커지면 커질수록 샘플의 분산과 모분산의 차이는 점점 작아짐
- 분산은 직관적인 측도는 아니기에 분산에 루트를 씌운 값, 즉 표준편차 \[\sigma(x)\]를 사용함
3.1.1.2 상관
3.1.1.2.1 피어슨 상관계수
두 변수가 서로 상관하는 정도를 나타내는 지표로서 공분산을 각각 두 변수의 분산값의 곲으로 나누주어 평준화시킴
\[r_{x, y} = \frac{\mathrm{cov}(x, y)}{\sigma(x)\sigma(y)}\]
피어슨 상관계수는 0-1 까지의 값을 가진다
피어슨 상관분석은 두 연속변수의 상관관계뿐만 아니라 0,1로 이루어진 이진변수와 연속변수간의 상관관계를 나타낼 수도 있으며 이를 point-biserial correlation이라고 한다
상관분석을 할때 변수가 순위형인 경우 스피어스만의 rho 또는 켄달의 타우를 통해 상관계수를 구하기도 한다
- 스퍼스만의 rho와 켄달의 타우는 두 변수 모두 또는 두 변수중 하나의 변수가 순위척도일때 사용해야한다
- 이런 형태의 상관분석을 rank-biserial correlation이라고 한다
3.1.2 Standard errors, the t-distribution and confidence intervals
3.1.2.1 Standard Errors
표준오차는 샘플 통계량의 표준편차이다
평균의 표준오차 (standard error of the mean) 이라고 할때 표본 평균 분포의 표준편차를 가르킨다
\[SE = \frac{\sigma}{\sqrt{n}}\]
정규 분포는 빈도 (또는 확률) 분포이기 때문에 표준 오차를 표본 평균 주변의 ’민감도’의 기본 단위로 해석 ## Hypothesis testing
랜덤 변수 표본에 대한 통계 분포에 대한 관찰을 통해 차이 또는 유사성 가설에 대한 검정.
가설 검정의 목적은 표본의 특성을 기반으로 한 모집단의 차이 주장에 대해 높은 수준의 통계적 확실성을 시험
귀무 가설이라고하는 차이가 없다는 가설에서 시작
표본 데이터의 통계적 특성으로 인해 통계적 차이가 발생할 가능성이 매우 낮은 경우에만 귀무 가설을 기각
이 경우 통계적 차이가 모집단에 존재한다는 대체 가설을 확인
3.1.3 Hypothesis testing
가장 일반적인 세 가지 유형의 가설 검정 - 두 그룹의 평균 차이 테스트 - 두 변수 간의 0이 아닌 상관 관계 테스트 - 다른 범주 간의 빈도 분포 차이 테스트
3.1.3.1 Testing for a difference in means (Welch’s t-test)
일반적으로 실적이 낮은 영업 사원의 판매와 실적이 우수한 영업 사원의 판매의 차이점
모든 영업 사원을 대상으로하지만 영업 사원 데이터 세트에는 샘플에 대한 데이터만 존재
성과 등급이 1 인 사용자와 성과 등급이 4 인 사용자에 대한 데이터의 두 하위 집합을 가져와 평균 매출의 차이를 계산
샘플에서 더 높은 성과 등급을 가진 사람들이 더 낮은 성과 등급을 가진 사람들보다 더 높은 평균 판매를 기록 했다는 것을 확인.
3.1.4 Testing for a non-zero correlation between two variables (t-test for correlation)
두 변수에 대한 데이터 샘플이 주어졌고 변수가 전체 모집단에서 상관 관계가 있는지 묻는다고 가정
변수가 상관 관계가 없다는 귀무 가설을 취하고 상관 관계가 0 인 t- 통계를 결정
이를 p-값으로 변환
길이가 n 인 두 샘플 사이의 상관 관계 r과 관련된 t-통계는 종종 t*로 표시
R의 cor.test () 함수는 두 변수의 상관 관계가 0이라는 귀무 가설에 대한 가설 검정을 수행 ### Testing for a difference in frequency distribution between different categories in a data set (Chi-square test)
이 비율을 사용하여 분포가 네 범주 모두에서 정확히 동일하다는 가정하에 각 성과 범주의 예상 비율을 계산
χ2 통계에는 이 통계와 관련된 p-값을 결정하는 데 사용할 수있는 예상 분포가 있음
t- 분포와 마찬가지로 χ2 분포는 자유도에 따라 달라짐
분할표의 행 수와 열 수에서 1을 빼고 함께 곱하여 계산
chisq () 함수를 사용하여 가설 검정에 대한 p- 값을 계산
R의 chisq.test () 함수는 분할 표에 대한 카이 제곱 독립 테스트와 관련된 모든 단계를 수행하고 귀무 가설에 대한 χ2 통계 및 관련 p- 값을 반환
귀무 가설을 기각하고 네 가지 성과 범주간에 승진 / 승진되지 않은 개인의 분포에 차이가 있다는 대립 가설을 확인
3.1.5 Chapter 4
3.1.5.1 Origins and intuition of linear regression
- 보통 최소 제곱 선형 회귀 또는 줄여서 OLS 회귀라고도하는 선형 회귀는 19 세기의 첫 10 년경에 수학자 Gauss와 Legendre에 의해 독립적으로 개발
- 발견 당시에는 실제로 ’회귀’로 알려지지 않았음. 이 용어는 영국의 지식인이자 찰스 다윈의 사촌 인 Francis Galton에 의해 알려짐
- 1800 년대 후반 Galton은 거의 1,000 명의 어린이 인구의 키와 부모의 평균 키 (중부 모 키) 사이의 관계를 연구
- 그는 아이의 키와 부모의 평균 키 사이에 완벽한 관계가 없으며 일반적으로 어린이의 키가 전체 인구의 평균에 더 가까운 범위에있을 가능성이 더 높다는 사실을 발견하고 이 통계 현상을 ’평범성에 대한 회귀’라고 설명
3.1.5.2 Walkthrough example
지난 3 년 동안 졸업 한 975 명의 개인에 대한 데이터를 제공 받았으며 프로그램의 첫 3 년 동안의 시험 점수를 기반으로 각 개인의 최종 시험 점수를 설명하는 모델을 작성. 1 학년 시험 점수는 0-100 점, 2 학년 및 3 학년은 0-200 점으로, 마지막 해는 0-300 점으로 부여됨.
3.1.5.3 Minimising the error
- 각 관측 값에 대해 y의 실제 값과 모델에서 예측 한 값의 차이를 계산하여 피팅 된 모델의 오류를 결정
- 예를 들어 x = 52에서 y의 모델링 된 값은 67.4이지만 실제 값은 93이며 25.6만큼의 오류가 있음
- 이러한 오류를 모델의 잔차라고 함
3.1.5.4 Determining the best fit
최종시험결과를 설명하는 3년차의 성적을 추정하기위해 회귀모델을 사용
잔차의 평균 제곱을 최소화하는 최적의 모델이 y = 1.14x + 16.63임을 확인.
즉, 최종 시험 점수는 최소 16.63의 값을 취할 것으로 예상 할 수 있으며 Yr3에서 추가 점수를받을 때마다 최종 점수가 1.14 씩 증가하는 것으로 추정됨.
실제로 회귀 문제에는 여러 변수가 포함됨
다중 선형 회귀의 방법론은 본질적으로 단순 선형 회귀와 유사하지만 차원이 증가하여 시각화하기가 더 어려움.
모델에 포함 할 결과 및 입력 변수를 결정 (전체 ugtests 데이터 세트에 대해 다중 선형 회귀를 수행하고 Final ~ Yr3 + Yr2 + Yr1 공식을 사용하여 모든 이전 테스트 점수에 대해 Final 테스트 점수를 회귀하고 이전과 같이 계수를 결정)
모델의 절편 인 β0은 모든 입력이 0이라고 가정할때의 y의 값.
입력이 없어도 출력이 기본 값을 가질 것으로 예상
ugtests 데이터 세트의 경우
모델의 절편은 14.146
- 이것은 학생이 이전의 모든 시험에서 0점을 얻었더라도 최종 시험에서 점수를받을 것으로 예상되는 값.
Yr3 계수는 0.866
- 다른 입력에 변화가 없다고 가정하면 이는 3학년 점수의 추가 점수에서 예상 할 수있는 최종 시험 점수의 증가분
Yr2 계수는 0.431
- 다른 입력에 변화가 없다고 가정하면 이는 2년차 점수의 추가 점수에서 예상 할 수있는 최종 시험 점수의 증가분
Yr1 계수는 0.076
- 다른 입력에 변화가 없다고 가정 할 때 이것은 1년차 점수의 추가 점수에서 예상 할 수있는 최종 시험 점수의 증가입니다.
3.1.5.5 Model ‘goodness-of-fit’
모델을 평가할때 가장 중요한 몇 가지 지표가 있음
전체 모델 신뢰도 또는 ’적합도’에 대한 정보를 제공
이것은 우리 모델이 무작위 모델보다 데이터에 더 적합하지 않다는 귀무 가설에 대한 가설 검정
높은 F-통계량은 모델이 랜덤 모델보다 데이터에 더 적합 할 가능성이 높다는 것을 나타냄.
모델 적합도를 R2와 혼동하지 않도록 주의
샘플에 따라 R2가 낮은 모델이 적합도에 대해 높은 확실성을 가질 수 있으며 그 반대의 경우도 가능함.
3.1.6 Managing inputs in linear regression
3.1.6.1 Relevance of input variables
입력 변수를 관리하는 첫 번째 단계는 모델링되는 결과와의 관련성을 판단하는 것
분석가는 관련성을 고려하기 전에 일련의 변수에 대해 맹목적으로 모델을 실행해서는 안됨.
일반적으로 두가지 이유로 어떤 변수들은 제외
입력과 결과 사이에 직접적 또는 간접적 인과 관계의 합리적 가능성이 없는 경우
향후 새로운 데이터를 기반으로 예측하는 데 모델이 사용될 가능성이 있는 경우
- (예를 들어 연습 모델에 학생 성별 데이터가 포함 된 경우)
3.1.6.2 Transforming categorical inputs to dummy variables
많은 모델은 숫자 입력이 아닌 범주 입력을 갖음.
카테고리 입력은 일반적으로 다음과 같은 형식임
- 이진 값 (예 : Yes / No, True / False)
- 순서가 지정되지 않은 카테고리 (예 : 자동차, 기차, 자전거)
- 정렬 된 카테고리 (예 : 낮음, 중간, 높음)
범주형 변수는 숫자 변수처럼 작동하지 않음.
일반적으로 모든 모델 입력 변수는 숫자 형식이어야 함.
- 이를 수행하는 가장 신뢰할 수 있는 방법은 범주형 값을 더미 변수로 변환하는 것임
3.1.6.3 Assumption of linearity and additivity
- 선형 회귀는 모델링하려는 관계가 본질적으로 선형적이고 가산 적이라고 가정
- 따라서 데이터의 분포가 선형이 아닌 패턴을 모델링하는 경우 문제가 발생할 수 있음.
- 참값과 예측 (적합) 값을 플로팅하여 상관 관계가 있는지 확인
3.1.6.4 Assumption of normally distributed errors
많은 모델에서 우리는 오류가 무작위 일에서 예상되는 잔차가 충분한 수의 관측치에 대해 정규분포를 기대함
잔차가 다르게 분포하는 경우는 다시 모델의 신뢰 구간과 계수의 통계적 의미가 부정확하게 추정 할 수 있음
가장 빠른 방법은 잔차에 대해 분위수-분위수 그림 (또는 Q-Q 그림)을 실행하는 것임
- 정규분포의 이론적 분위수에 관찰된 분위수를 표시
- 완벽한 상관 관계처럼 보일수록이 정규성 있다고 할 수 있음
3.1.7 Extending multiple linear regression
3.1.7.0.1 Interactions between input variables
교호 작용 항을 사용하여 모델을 실행하면 상호 작용 수준에 따라 계수의 계층 구조를 볼 수 있음.
예를 들어, 단일 항은 일반적으로 두 항의 상호 작용보다 더 높은 계수를 생성하며, 이는 세 항의 상호 작용보다 더 높은 계수를 생성
이를 감안할 때 모델에서 항의 상호 작용이 중요한 것으로 간주 될 때마다 해당 상호 작용에 포함 된 단일 항은 자동으로 중요한 것으로 간주되어야함.
Quadratic and higher-order polynomial terms
- 많은 상황에서 결과와 입력 사이의 실제 기본 관계는 비선형적일 수 있고 이를 위해 다항식의 회귀식을 추정하는 것으로 회귀분석을 확장할 수 있음