회귀분석의 일종으로, 종속변수가 특정 시간 동안 발생한 사건의 건수에 대한 도수 자료(count data, 음수가 아닌 정수)인 경우이면서 종속변수가 정규분포를 따르지 않거나 등분산성을 만족하지 못하는 경우에 사용하는 분석방법은 무엇인가?
정답 : 포아송 회귀
더보기이 분석방법은 종속 변수와 독립 변수 간의 관계를 나타내어 예측 모델을 생성한다는 점에서 선형 회귀 분석 방법과 동일하다. 하지만 독립 변수(x)에 의해서 종속 변수(y)의 범주로 분류한다는 측면은 분류 분석 방법으로 분류한다. 이 분석 방법은 무엇인가?
정답 : 로지스틱 회귀
더보기이것은 정규화 선형회귀의 종류로, 가중치들의 절댓값의 합을 최소화하는 것을 제약조건으로 추가하는 방법이다. 이것은 일정한 상숫값이 패널티로 부여되어 일부 불필요한 가중치 파라미터를 0으로 만들어 분석에서 아예 제외시킨다. 몇 개의 의미 있는 변수만 분석에 포함시키고 싶을 때 효과적인 방법이다. 이것은 무엇인가?
정답 : 라쏘(Lasso Regression)
더보기일반적으로 학습 데이터에 ( A )되면 일반화 성능이 낮아져 이미 학습한 훈련용 데이터에 대한 성능은 높게 나오지만, 아직 학습하지 않은 테스트 데이터에 대한 성능은 낮게 나온다. 그 이유는 모델이 학습 데이터에 너무 과하게 맞춰져서 새로운 데이터에 일반화하기가 어렵기 때문이다. 반대로 모델이 너무 단순해서 학습 데이터조차 제대로 예측하지 못하는 경우를 ( B )이라고 한다.
정답 : (A) 과(대)적합, (B) 과소적합
더보기모든 독립변수 가운데 기준 통계치에 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 추가하면서 모형을 선택하는 방법으로, 설명력이 가장 높은 설명변수(p-value가 가장 작은 변수)부터 시작해 하나씩 모형에 추가하는 방법을 무엇이라 하는가?
정답 : 전진선택법
더보기단계적 변수선택법은 말 그대로 일정한 단계를 거치면서 변수를 추가하거나 제거하는 방식으로 최적의 회귀방정식을 도출하는 방식이다. 단계적 변수선택법을 두 가지 이상 쓰시오.
정답 : 전진선택법, 후진제거법, 단계선택법
더보기다음에서 설명하는 이것은 무엇인가? - 이것은 회귀분석에서 독립변수 간에 강한 상관관계가 나타나는 문제다. 이것이 존재하면 회귀분석의 기본 가정인 독립성(독립 변수 간에는 상관관계가 없이 독립이다)에 위배된다. 또한 A, B라는 변수가 있을 때 이 둘 사이에 이것이 존재하면 A라는 변수가 Y값에 어느 정도의 영향을 미치는지, 또는 B라는 변수가 Y값에 어느 정도의 영향을 미치는지를 정확하게 판단할 수 없다.
정답 : 다중공산성
더보기다음의 빈칸에 들어갈 말을 쓰시오. - 모집단의 데이터를 활용하여 회귀식을 구한 경우 예측 값과 실제 값의 차이를 ( A )라 한다. 그러나 모집단을 특정할 수 없는 경우 모집단의 일부인 표본집단으로 회귀식을 추정하게 되는데, 이때 표본집단에 의해 추정된 회귀식의 예측 값과 실제 값의 차이를 ( B )라 한다. 모집단에서는 ( A ), 표본집단에서는 ( B )라 한다.
정답 : (A) 오차, (B) 잔차
더보기