Study/Kaggle

대 LLM의 시대에 Kaggle(캐글) 공부 시작하기

xoth-lee 2025. 11. 5. 16:30

안녕하세요. xoth 입니다.

 

최근 AI 관련 보안 대회를 참가하고 AI 에 대한 기본 지식이 부족하다는 것을 많이 느꼈습니다.

모델의 출력을 단순히 믿고 사용하는 것이 아닌, 어떤 원리로 동작하는지 기본기가 중요하는 것을 깨달았습니다.

사실 요즘 LLM과 MCP 등등 간단하게 사용할 수 있는 기법이 나오면서 이런 기본 지식은 등한시하고 있었다는 생각이 들었는데요.

캐글에서 이런 기본 지식들을 배웠다면 도움이 많이 되지 않았을까하는 생각이 들어 캐글을 시작해보려고 합니다.

 

그런데 가입하고 둘러보는데 많이 막막하네요.


저의 가장 큰 의문: "지금 이걸 하는 게 맞을까?"

사실 계정 만들기까지 제일 망설였던 이유입니다.

 

요즘 ChatGPT이나 Gemini 같은 LLM이 정말 똑똑하잖아요. 코딩도 대신 해주고, 데이터 분석도 원하는 대로 해줍니다.

그런데 캐글에서 사람들이 공부하는 걸 보면, 타이타닉이니 주택 가격 예측이니 하면서 LLM이 아닌 과거의 모델들을 쓰잖아요.

솔직히 '이거 몇 년 전 기술 아닌가?', '이거 배우는 시간에 LLM 프롬프트 엔지니어링 같은 걸 더 배우는 게 낫지 않나?' 하는 생각이 머릿속을 떠나지 않았습니다.

 

"LLM이 다 해줄 것 같은 시대에, 굳이 '과거의 모델'들로 데이터를 붙잡고 씨름하는 게 시간 낭비는 아닐까?"

이게 제 가장 큰 고민입니다.


그럼에도 일단 시작하는 이유

그래도 제가 오늘 캐글에 가입을 한 이유는..

  1. LLM을 조금이라도 더 잘 활용하려면 기초 지식이 있어야한다.
  2. 무엇보다 비즈니스 맥락에 맞는 데이터 엔지니어링은 LLM이 아닌 엔지니어의 판단으로 이루어져야한다.

라고 생각했기 때문입니다.

 

그래서 일단은 한 발짝 떼어보기로 했습니다.


저의 캐글 공부 로드맵 (일단은!)

그래서 저는, 이 막막함을 이겨내기 위해 구체적인 목표를 세워보려 합니다.

  1. 목표 1: 상위권 코드 '필사'하기
    '타이타닉' 같은 유명한 입문 대회부터 시작해서, 다른 사람들의 상위권 코드를 복사/붙여넣기가 아니라 직접 따라 쳐보면서 '왜 이렇게 했는지'를 완벽히 이해하는 것을 목표로 합니다.
  2. 목표 2: 나만의 '베이스라인' 만들기
    다른 대회를 골라 남의 코드 없이 스스로 데이터를 읽고, 간단한 모델이라도 만들어서 '제출'까지 해보는 경험을 쌓겠습니다.
  3. 목표 3: 성능 개선 씨름하기
    제가 만든 모델의 성능을 조금이라도 더 높이기 위해 피처 엔지니어링을 추가해보는 도전을 하겠습니다.

여정의 시작

이 블로그는 아마도 저의 캐글 도전기가 될 것 같습니다. 데이터를 이해하여 분석하며, 모델을 만들고, 좌절하고, 또 배우는 과정을 꾸준히 기록해 보겠습니다.

혹시 저처럼 이제 막 캐글 시작하시는 분 계신가요? 혹은 이 길을 먼저 가보신 분들이 있다면, 이런 의심 하셨던 적 없는지 궁금합니다. 응원해 주세요!

'Study > Kaggle' 카테고리의 다른 글

Kaggle API 등록 및 사용법  (0) 2025.11.05