Session 3 Week2 Chapter3, Chapter4

발제자: 채충일

3.1 서머리 및 자료

3.1.1 Chapter 3

3.1.1.1 분산 Variance 과 표춘편차 standard deviation

  • 분산은 자료가 평균을 중심으로 퍼져있는 경향성을 나타냄
  • 모분산은 모든 데이터를 가지고 계산한다고 가정
  • 샘플분산은 우리가 전체 데이터의 일부를 가지고 모분산을 추정하는 것을 의미함
  • 가지고 있는 데이터 셋이 커지면 커질수록 샘플의 분산과 모분산의 차이는 점점 작아짐
  • 분산은 직관적인 측도는 아니기에 분산에 루트를 씌운 값, 즉 표준편차 \[\sigma(x)\]를 사용함

3.1.1.2 상관

3.1.1.2.1 피어슨 상관계수
  • 두 변수가 서로 상관하는 정도를 나타내는 지표로서 공분산을 각각 두 변수의 분산값의 곲으로 나누주어 평준화시킴

  • \[r_{x, y} = \frac{\mathrm{cov}(x, y)}{\sigma(x)\sigma(y)}\]

  • 피어슨 상관계수는 0-1 까지의 값을 가진다

  • 피어슨 상관분석은 두 연속변수의 상관관계뿐만 아니라 0,1로 이루어진 이진변수와 연속변수간의 상관관계를 나타낼 수도 있으며 이를 point-biserial correlation이라고 한다

  • 상관분석을 할때 변수가 순위형인 경우 스피어스만의 rho 또는 켄달의 타우를 통해 상관계수를 구하기도 한다

    • 스퍼스만의 rho와 켄달의 타우는 두 변수 모두 또는 두 변수중 하나의 변수가 순위척도일때 사용해야한다
    • 이런 형태의 상관분석을 rank-biserial correlation이라고 한다

3.1.2 Standard errors, the t-distribution and confidence intervals

3.1.2.1 Standard Errors

  • 표준오차는 샘플 통계량의 표준편차이다

  • 평균의 표준오차 (standard error of the mean) 이라고 할때 표본 평균 분포의 표준편차를 가르킨다

  • \[SE = \frac{\sigma}{\sqrt{n}}\]

  • 정규 분포는 빈도 (또는 확률) 분포이기 때문에 표준 오차를 표본 평균 주변의 ’민감도’의 기본 단위로 해석 ## Hypothesis testing

  • 랜덤 변수 표본에 대한 통계 분포에 대한 관찰을 통해 차이 또는 유사성 가설에 대한 검정.

  • 가설 검정의 목적은 표본의 특성을 기반으로 한 모집단의 차이 주장에 대해 높은 수준의 통계적 확실성을 시험

  • 귀무 가설이라고하는 차이가 없다는 가설에서 시작

  • 표본 데이터의 통계적 특성으로 인해 통계적 차이가 발생할 가능성이 매우 낮은 경우에만 귀무 가설을 기각

  • 이 경우 통계적 차이가 모집단에 존재한다는 대체 가설을 확인

3.1.3 Hypothesis testing

가장 일반적인 세 ​​가지 유형의 가설 검정 - 두 그룹의 평균 차이 테스트 - 두 변수 간의 0이 아닌 상관 관계 테스트 - 다른 범주 간의 빈도 분포 차이 테스트

3.1.3.1 Testing for a difference in means (Welch’s t-test)

  • 일반적으로 실적이 낮은 영업 사원의 판매와 실적이 우수한 영업 사원의 판매의 차이점

  • 모든 영업 사원을 대상으로하지만 영업 사원 데이터 세트에는 샘플에 대한 데이터만 존재

  • 성과 등급이 1 인 사용자와 성과 등급이 4 인 사용자에 대한 데이터의 두 하위 집합을 가져와 평균 매출의 차이를 계산

  • 샘플에서 더 높은 성과 등급을 가진 사람들이 더 낮은 성과 등급을 가진 사람들보다 더 높은 평균 판매를 기록 했다는 것을 확인.

3.1.4 Testing for a non-zero correlation between two variables (t-test for correlation)

  • 두 변수에 대한 데이터 샘플이 주어졌고 변수가 전체 모집단에서 상관 관계가 있는지 묻는다고 가정

  • 변수가 상관 관계가 없다는 귀무 가설을 취하고 상관 관계가 0 인 t- 통계를 결정

  • 이를 p-값으로 변환

  • 길이가 n 인 두 샘플 사이의 상관 관계 r과 관련된 t-통계는 종종 t*로 표시

  • R의 cor.test () 함수는 두 변수의 상관 관계가 0이라는 귀무 가설에 대한 가설 검정을 수행 ### Testing for a difference in frequency distribution between different categories in a data set (Chi-square test)

  • 이 비율을 사용하여 분포가 네 범주 모두에서 정확히 동일하다는 가정하에 각 성과 범주의 예상 비율을 계산

  • χ2 통계에는 이 통계와 관련된 p-값을 결정하는 데 사용할 수있는 예상 분포가 있음

  • t- 분포와 마찬가지로 χ2 분포는 자유도에 따라 달라짐

  • 분할표의 행 수와 열 수에서 1을 빼고 함께 곱하여 계산

  • chisq () 함수를 사용하여 가설 검정에 대한 p- 값을 계산

  • R의 chisq.test () 함수는 분할 표에 대한 카이 제곱 독립 테스트와 관련된 모든 단계를 수행하고 귀무 가설에 대한 χ2 통계 및 관련 p- 값을 반환

  • 귀무 가설을 기각하고 네 가지 성과 범주간에 승진 / 승진되지 않은 개인의 분포에 차이가 있다는 대립 가설을 확인

3.1.5 Chapter 4

3.1.5.1 Origins and intuition of linear regression

  • 보통 최소 제곱 선형 회귀 또는 줄여서 OLS 회귀라고도하는 선형 회귀는 19 세기의 첫 10 년경에 수학자 Gauss와 Legendre에 의해 독립적으로 개발
  • 발견 당시에는 실제로 ’회귀’로 알려지지 않았음. 이 용어는 영국의 지식인이자 찰스 다윈의 사촌 인 Francis Galton에 의해 알려짐
  • 1800 년대 후반 Galton은 거의 1,000 명의 어린이 인구의 키와 부모의 평균 키 (중부 모 키) 사이의 관계를 연구
  • 그는 아이의 키와 부모의 평균 키 사이에 완벽한 관계가 없으며 일반적으로 어린이의 키가 전체 인구의 평균에 더 가까운 범위에있을 가능성이 더 높다는 사실을 발견하고 이 통계 현상을 ’평범성에 대한 회귀’라고 설명

3.1.5.2 Walkthrough example

지난 3 년 동안 졸업 한 975 명의 개인에 대한 데이터를 제공 받았으며 프로그램의 첫 3 년 동안의 시험 점수를 기반으로 각 개인의 최종 시험 점수를 설명하는 모델을 작성. 1 학년 시험 점수는 0-100 점, 2 학년 및 3 학년은 0-200 점으로, 마지막 해는 0-300 점으로 부여됨.

3.1.5.3 Minimising the error

  • 각 관측 값에 대해 y의 실제 값과 모델에서 예측 한 값의 차이를 계산하여 피팅 된 모델의 오류를 결정
  • 예를 들어 x = 52에서 y의 모델링 된 값은 67.4이지만 실제 값은 93이며 25.6만큼의 오류가 있음
  • 이러한 오류를 모델의 잔차라고 함

3.1.5.4 Determining the best fit

  • 최종시험결과를 설명하는 3년차의 성적을 추정하기위해 회귀모델을 사용

  • 잔차의 평균 제곱을 최소화하는 최적의 모델이 y = 1.14x + 16.63임을 확인.

  • 즉, 최종 시험 점수는 최소 16.63의 값을 취할 것으로 예상 할 수 있으며 Yr3에서 추가 점수를받을 때마다 최종 점수가 1.14 씩 증가하는 것으로 추정됨.

  • 실제로 회귀 문제에는 여러 변수가 포함됨

  • 다중 선형 회귀의 방법론은 본질적으로 단순 선형 회귀와 유사하지만 차원이 증가하여 시각화하기가 더 어려움.

  • 모델에 포함 할 결과 및 입력 변수를 결정 (전체 ugtests 데이터 세트에 대해 다중 선형 회귀를 수행하고 Final ~ Yr3 + Yr2 + Yr1 공식을 사용하여 모든 이전 테스트 점수에 대해 Final 테스트 점수를 회귀하고 이전과 같이 계수를 결정)

  • 모델의 절편 인 β0은 모든 입력이 0이라고 가정할때의 y의 값.

  • 입력이 없어도 출력이 기본 값을 가질 것으로 예상

  • ugtests 데이터 세트의 경우

    • 모델의 절편은 14.146

      • 이것은 학생이 이전의 모든 시험에서 0점을 얻었더라도 최종 시험에서 점수를받을 것으로 예상되는 값.
    • Yr3 계수는 0.866

      • 다른 입력에 변화가 없다고 가정하면 이는 3학년 점수의 추가 점수에서 예상 할 수있는 최종 시험 점수의 증가분
    • Yr2 계수는 0.431

      • 다른 입력에 변화가 없다고 가정하면 이는 2년차 점수의 추가 점수에서 예상 할 수있는 최종 시험 점수의 증가분
    • Yr1 계수는 0.076

      • 다른 입력에 변화가 없다고 가정 할 때 이것은 1년차 점수의 추가 점수에서 예상 할 수있는 최종 시험 점수의 증가입니다.

3.1.5.5 Model ‘goodness-of-fit’

  • 모델을 평가할때 가장 중요한 몇 가지 지표가 있음

  • 전체 모델 신뢰도 또는 ’적합도’에 대한 정보를 제공

  • 이것은 우리 모델이 무작위 모델보다 데이터에 더 적합하지 않다는 귀무 가설에 대한 가설 검정

  • 높은 F-통계량은 모델이 랜덤 모델보다 데이터에 더 적합 할 가능성이 높다는 것을 나타냄.

  • 모델 적합도를 R2와 혼동하지 않도록 주의

  • 샘플에 따라 R2가 낮은 모델이 적합도에 대해 높은 확실성을 가질 수 있으며 그 반대의 경우도 가능함.

3.1.6 Managing inputs in linear regression

3.1.6.1 Relevance of input variables

  • 입력 변수를 관리하는 첫 번째 단계는 모델링되는 결과와의 관련성을 판단하는 것

  • 분석가는 관련성을 고려하기 전에 일련의 변수에 대해 맹목적으로 모델을 실행해서는 안됨.

  • 일반적으로 두가지 이유로 어떤 변수들은 제외

    • 입력과 결과 사이에 직접적 또는 간접적 인과 관계의 합리적 가능성이 없는 경우

    • 향후 새로운 데이터를 기반으로 예측하는 데 모델이 사용될 가능성이 있는 경우

      • (예를 들어 연습 모델에 학생 성별 데이터가 포함 된 경우)

3.1.6.2 Transforming categorical inputs to dummy variables

  • 많은 모델은 숫자 입력이 아닌 범주 입력을 갖음.

  • 카테고리 입력은 일반적으로 다음과 같은 형식임

    • 이진 값 (예 : Yes / No, True / False)
    • 순서가 지정되지 않은 카테고리 (예 : 자동차, 기차, 자전거)
    • 정렬 된 카테고리 (예 : 낮음, 중간, 높음)
  • 범주형 변수는 숫자 변수처럼 작동하지 않음.

  • 일반적으로 모든 모델 입력 변수는 숫자 형식이어야 함.

    • 이를 수행하는 가장 신뢰할 수 있는 방법은 범주형 값을 더미 변수로 변환하는 것임

3.1.6.3 Assumption of linearity and additivity

  • 선형 회귀는 모델링하려는 관계가 본질적으로 선형적이고 가산 적이라고 가정
  • 따라서 데이터의 분포가 선형이 아닌 패턴을 모델링하는 경우 문제가 발생할 수 있음.
  • 참값과 예측 (적합) 값을 플로팅하여 상관 관계가 있는지 확인

3.1.6.4 Assumption of normally distributed errors

  • 많은 모델에서 우리는 오류가 무작위 일에서 예상되는 잔차가 충분한 수의 관측치에 대해 정규분포를 기대함

  • 잔차가 다르게 분포하는 경우는 다시 모델의 신뢰 구간과 계수의 통계적 의미가 부정확하게 추정 할 수 있음

  • 가장 빠른 방법은 잔차에 대해 분위수-분위수 그림 (또는 Q-Q 그림)을 실행하는 것임

    • 정규분포의 이론적 분위수에 관찰된 분위수를 표시
    • 완벽한 상관 관계처럼 보일수록이 정규성 있다고 할 수 있음

3.1.7 Extending multiple linear regression

3.1.7.0.1 Interactions between input variables
  • 교호 작용 항을 사용하여 모델을 실행하면 상호 작용 수준에 따라 계수의 계층 구조를 볼 수 있음.

    • 예를 들어, 단일 항은 일반적으로 두 항의 상호 작용보다 더 높은 계수를 생성하며, 이는 세 항의 상호 작용보다 더 높은 계수를 생성

    • 이를 감안할 때 모델에서 항의 상호 작용이 중요한 것으로 간주 될 때마다 해당 상호 작용에 포함 된 단일 항은 자동으로 중요한 것으로 간주되어야함.

  • Quadratic and higher-order polynomial terms

    • 많은 상황에서 결과와 입력 사이의 실제 기본 관계는 비선형적일 수 있고 이를 위해 다항식의 회귀식을 추정하는 것으로 회귀분석을 확장할 수 있음

3.2 스터디 현장