본문 바로가기
수학

[빅분기] 실기 후기 및 도움받은 사이트 공유 (Python)

by judy@ 2021. 12. 5.

 

안녕하세요!! 오늘은 제가  2021년 12월 4일에 응시한 빅데이터분석기사 실기 3회 후기(python)도움받았던 자료를 공유하려합니다.

문제 복원과 난이도도 포함하였으니, 끝까지 읽어주시면 감사하겠습니다ㅎㅎ

 

응시 후기에 앞서 제 소개를 간략히 하자면,

 

필자 소개 

저는 현재 데이터 분석과 인공지능 모델링, SI를 주업무로 수행하고 있는 1년차 직장인입니다😎

 

대학 전공은 생명과학, 부전공이 소프트웨어였으며,

분석 업무와 통계학적 지식들은 근 1-2년간 집중적으로 습득하였습니다.

위 같은 이유 때문인지, 비전공자라고 소개하기는 애매한 부분이 있네요....!

 

그래도 전공자라고도 할 수 없는.. 조금은 모호한 베이스를 가지고 있으니, 참고해주시길 바랍니다.

 

1. 실기 후기 

자, 그럼 본론으로 들어와서!!

먼저 실기 시험 접수 인증부터 하겠습니다

접수 인증

뭐, 응시에 대한 인증은... 어떻게 해야하는지 모르겠어서, 접수조회 화면으로 인증합니다.

 

1) 응시 환경 💚💚💚🖤🖤

우선 저는 서울 강남역 부근에 위치한 아이티윌교육센터에서 실기시험을 응시하였습니다.

교통은 강남역에서 걸어서 10분내로 이동 가능하여 아주아주 좋았습니다.

 

하지만 응시를 위해 내부에 들어가고 조금은 깜짝 놀랐습니다.

 

첫째는 좌석 간 공간 때문이었는데요.

제가 컴퓨터를 활용한 실기 시험을 경험하는 것이 처음이었긴 했는데요.

좌석들이 굉장히 다닥다닥 붙어있어서, (그렇게 하진 않았으나) 곁눈질로 옆 사람 코드가 보일 수준이었습니다.

하지만 집중하고 보니 제 코드 보기에도 시간이 벅차서, 딱히 걱정은 되지 않았어요.

 

둘째는 네트워크 및 장비의 상태였습니다.

제가 처음 켰던 컴퓨터는 마우스의 스크롤이 고장나 있었구요.

이 때문에 옮겼던 다른 자리의 컴퓨터는 1. 너무 느렸고, 2. 의자가 덜컹덜컹했었어요.

그래서 다시 고장난 마우스로 응시를 했다죠..ㅎㅎ

응시 중간에 마우스의 상태가 좋아져서 다행이었습니다ㅠㅠ

 

저와 같은 곳에서 응시하신 분들 중에 처음에 네트워크 연결이 잘 안된 분들, 그리고 중간에 프로그램이 꺼진 분도 있었습니다.

그래도 빠르게 문제 사항들을 빠르게 해결해주셔서 응시에 방해가 될 정도는 아니었던 것 같아요!

 

2) 실기 시험 문제 💚💚💚🖤🖤

이것도 조금 애매하네요.

저는 단답형보다는 작업형 문제에 조금 더 집중하여 준비(별로 하지도 않았지만)하였는데,

단답형이 뭔가 어려웠어요...

 

실기 시험 응시에서도 단답형의 응답들을 모두 숙지하고 있어야 하는게 당연하지만...

본래 필기와 실기가 나누어져 있으며, 필기 시험에서 낼 수 있었던 문제들을 굳이 실기에서 조금 복잡하게 낸 게

저로써는 아쉬웠던 부분이었습니다.

 

제가 생각한 빅분기 실기 3회의 난이도는요!

(1) 단답형 (10)   🔴🔴🔴🔴⚫️ 

10문제 중에 한 6문제 정도 맞춘 거 같네요.

단답형에 힘을 안 쏟은 제 잘못인 것 같기두 하다만..

 

제가 작성했던 답을 되짚어보면

 

Q1) 딥러닝 은닉 노드 (0.2, -0.3) 은닉 -> 출력 가중치 (0.3, -0.1), 편향(0.1) -> 출력층의 가중치는?

A1) 0.13

 

Q2) knn 관련

A2) 거리 -> 밀도라는 분들도 있구...모르겠네요..🥲

 

Q3) 범주형 변수 내에, 순서형과 다른 하나는 무엇인가?

A3) 명목형

 

Q4) 데이터의 분포를 알 수 없을 때, 데이터를 0과 1 사이의 값으로 만드는 방법..?

A4) 최소최대정규화

 

Q5) 최대최소정규화를 하면 데이터의 ㅇㅇ을 고려할 수 없다는 내용. A 학교의 성적과 B 학교의 성적을 예시로 설명

A5) 척도 -> 분포? 표준편차 얘기가 있더라구요...🥲

 

Q6) 군집화시 군집간 거리를 계산하는 방법. 키워드: 중심, 가중평균을 사용한다는 내용

A6) 평균연결법 -> 중심연결법인것 같아요...🥲

 

Q7) 앙상블의 정의를 설명하면서, ㅇㅇㅇ 분석 안에 들어갈 말은? 이라고 했던 것 같아요.

A7) 앙상블

 

Q8) 월별 평균을 낸다던가... 이런 걸 뭐라고 부르냐고 한 것 같네요.

A8) 집계 -> 총계처리.... 일수도 있겠네요...🥲

 

Q9) SVM의 정의 설명하고, 뭔지 맞추라고 했습니다.

A9) 서포트벡터머신

 

Q10) 기억이 잘 안나는데... 연관 규칙에서 무슨 척도...? 말하길래 향상도라 했습니다.

A10) 향상도 

 

(2) 작업형 1유형(3)  🔴🔴⚫️⚫️⚫️

요건 다 맞은 것 같네요. 생각보다 더 쉬웠어요.

판다스 조금만 건드릴 줄 아시면 다 맞추셨을 듯.

 

Q1) 데이터 null값 지우고 상위 70%의 사분위 수를 구하라고 한 것 같아요.

A1) 19

 

Q2) 국가별 100,000명 당 생존률...?을 연도별로 주고, 2000년의 국가 평균보다 생존률이 큰 국가의 개수를 세라고 했습니다.

A2) 71

 

Q3) 가장 결측이 많은 컬럼의 변수를 추출해내라는 문제

A3) Age

 

(3) 작업형 2유형(1)  🔴⚫️⚫️⚫️⚫️

조금 당황했던 게, 제가 예상문제를 보고 데이터의 상태(결측 현황, 이상치 현황, 분포, 명목형 변수의 명목수 등)가 안좋아서

전처리가 복잡할까봐 전처리 메서드들을 좀 외우고 갔는데요.

(ex. sklearn.preprocessing.LabelEncoder, OnehotEncoder, scalers, np.logp1, iqr 계산법, smote 등)

 

전처리:

를 하려고 데이터를 보니...

명목형 데이터는 모두 이진 명목이었고, 수치형 데이터들은 변환할 것도 딱히 없고 nan값도 없었어서,

그냥 standard scaling과 string -> onehot 변환만 하고 전처리를 끝냈습니다.

 

사용한 모델:

  1. KNeighborsClassifier
  2. DecisionTreeClassifier
  3. RandomForestClassifier
  4. AdaBoostClassifier
  5. GradientBoostMachineClassifier

이렇게 다섯가지를 썼고, 그중 knn은 AUROC 가 거의 0.91로 나와서 overfitting된 것 같았습니다..

최종적으로는 cross-validation training-auroc가 0.85정도였던,

GradientBoostMachineClassifier 모델을 최종 모델로 선정하였습니다.

 

결과 출력:

저는 혹시몰라 데이터를 5 fold로 쪼개어서 randomsearchCV를 진행하였었구요.

결과는 pred_proba(X_test)[:, :1]를 통해 제출하였어요.

 

그리고 논란이 있었던 index 부분은, X_test의 index를 추출하여서 넣었구요.

sorting은 따로 하지 않아서 index의 숫자는 순서대로 되어있지 않았던 것 같습니다.

이건 한국데이터산업진흥원쪽에서 어떻게...처리를 좀 해주시지 않을까 싶어요...?

 

결론:

제출 형식에 대한 설명은 조금 미흡하여 논란이 많았지만,

실기 작업형 문제들은 쉬웠고,

오히려 단답형이 헷갈렸다..🥲

 

이게 제 결론입니다..ㅎㅎ

 

2. 도움받은 사이트 공유 

저는 실기 시험을... 1.5주 전부터 준비했습니다....

그 중에 공부안한 날 빼면, 풀로 4.5일 정도 공부한 것 같아요ㅠㅠ

그래도 할 때는 집중해서 열심히 했습니다.

 

단답형과 작업 1유형, 2유형을 나누어서 공부했어요!!

 

1) 단답형 

아래 중에서 문제가 얼마나 나온지는 모르겠지만... 전 요거 보고 공부했어요.

한 번 쭉 훑고 기억못하는 것들만 외워서 들어갔습니다!!

  1. 네이버 데이터 전문가 포럼의 태공망공자님이 공유해주신 자료
  2. 예문사 필기 책
 

2021 빅데이터분석기사 필기 한권완성 - 교보문고

2021년 제2회 기출복원문제 수록, 실전모의고사 총 8회분 | 빅데이터분석기사 필기시험 초단기 합격을 위한 최고의 실전 대비서빅데이터분석기사 필기시험 초단기 합격을 준비하는 수험생들에게

www.kyobobook.co.kr

 

2) 작업 1유형 & 2유형

저는 아래 3가지를 많이 참고했어요.

특히 네이버 데이터 전문가 포럼의 다양한 전문가 분들이 공유해주신 자료를 해석해보고,

데이터 마님의 자료에 대입해보면서 확인하니까 자동완성이 안되는 메서드들도 외우는 것이 어렵게 느껴지지는 않았습니다.

 

이번 시험에 비해서 오히려 자료들이 훨씬 고퀄리티에 복잡한 것 같아서, 저도 다는 못보고 들어갔는데,

푸는 데에 훨씬 수월했던 것 같아요!!

 

  1. 네이버 데이터 전문가 포럼 태공망공자님이 공유해주신 자료
  2.  네이버 데이터 전문가 포럼의 뺀지링님이 공유하신 자료
  3. 데이터 마님의 자료(요거 진짜 도움 많이 됐어요!!)

 

자 그롬 이렇게 제 후기와 자료공유는 모두 끝났습니다.

혹시 틀린 것이 있거나, 궁금한 사항이 있으시면 언제든 댓글로 문의주세요!!

그럼 다들 화이팅입니다💕💕

 

 

---

 

2021.01.05

실기 결과 업데이트

늦었지만, 빅분기 합격 결과 공유합니다~~!!

 

중간에 y_pred 컬럼명 불일치로 작업 2유형이 0점 처리 되었으나,

12월 31일 발표일에 합격으로 변경되었어요!!!

이로써 빅분기 자격증을 취득하게 되었습니다 ㅎㅎ

 

모두들 수고하셨습니다~~ 다음 시험 보시는 분들도 모두 합격하시길 빕니다~~!!

 

반응형