분류 전체보기207 Q Learning exploitation & exploration | 모두를 위한 RL강좌 강의자료Lecture 4: Q Learning exploitation & exploration (table)What I learnt- Dummy Q Learning은 한 번 길을 알아내면, 효율과 관계없이 계속해서 동일한 선택을 하게 됨. Exploitation 활용은, 이처럼 경험에 기반에 최선의 선택을 계속하는 것을 말함. 맛집을 예시로 든다면, 한 두번 시도해본 곳 중, 가장 맛있었던 곳을 계속해서 방문하는 방법임. 어떻게 보면 좋은 방법처럼 보일 수 있으나, 세상은 넓고 더 맛있는 집이 있을 가능성이 있는데, 이로 인해 얻을 수 있는 더 큰 보상은 포기하게 되는 방법임. 이와 반대의 개념이 Exploration 탐색으로, 가능성을 열어두고 계속 새로운 시도를 해보는 방법을 말함. 탐색을 선택하는 .. 2025. 1. 26. [Business English] Some idioms and phrases commonly used in the context of online meetings; 1. "Let's take this offline." - Meaning: To discuss a topic privately or later, outside the current meeting. - Korean: "이 주제는 나중에 따로 이야기합시다." - Example: "We’re running out of time, so let’s take this offline." 2. "Can you put a pin in that?" - Meaning: To pause or temporarily set aside a discussion and revisit i.. 2025. 1. 23. Dummy Q Learning | 모두를 위한 RL강좌 강의 자료Lecture 3: Dummy Q-learning (table)What I learnt- Frozen Lake 게임에서, 전체 게임 환경을 볼 수 있다면 reward를 maximize하는 것이 어려워보이지 않으나, 실제 게임 상황에서는 자신의 현재 상태(state)와 이미 지나간 곳만 알 수 있음.- 위와 같은 상황에서 agent는 어떤 선택을 해야 최대의 보상을 취할 수 있을까? 물론 무작위로 이동하는 것도 도움이 될 수 있으나, 이동에서 얻을 수 있는 잠재적인 보상을 기억하고, 기억에 기반해 움직이는 방법이 있을 수 있다.- 가장 간단한 강화학습 중 하나인, Q-learning은, 현재 상태(state)와 행동(action)을 입력으로 하고, 출력으로 보상(reward)을 제공하는 행동 기반.. 2025. 1. 18. OpenAI Gym 활용해보기 | 모두를 위한 RL강좌 강의 출처RL 수업소개 (Introduction)What I learnt- actor(agent)가 environment 내에서 state를 가지고 action(행동)을 하고 매 라운드는 아니더라도, reward (보상)을 받는 방식으로 모델링할 수 있는 문제를 강화 학습 문제라고 함.- Deepmind 의 벽돌 깨기를 시작으로, 한 agent가 재학습 없이 픽셀 정보만으로 사람보다 훨씬 나은 성능을 보이는 경우도 있었으며, 알파고 또한 강화 학습의 결과. game, finance, e-commerce 등의 분야에서 RL을 활용해 다양한 문제(자동 투자, 광고 및 제품 추천)를 해결할 수 있음.What I wondered- 강화 학습의 정의: 아래 내용에 따르면, 강화학습은 agent가 reward을 최.. 2025. 1. 16. Reinforcement Learning 도장 깨기 새로운 회사에서의 내 주요 무대는 강화학습! 사실 상 알고리즘의 업데이트보다는 클라이언트의 요구에 맞게 데이터를 가공하는 것에 가깝겠지만, 알고리즘 및 제품 업데이트에 기여하면 그것만큼 큰 성과가 없을 거다. 나아가, 원래 관심있던 도메인인 추천에 강화학습을 어떻게 적용할 수 있는지 생각해보고 직접 구현해보는 게 이번 년도 목표 중 하나이니, 천천히 공부한다는 마음으로 한 걸음씩 다가가보자. 어떻게 공부할지 모르겠어서 냅다 구글에 "강화학습 튜토리얼"을 검색했고, RL Korea라는 페이스북 커뮤니티에서 유용한 Git Repo를 운영하고 있는 걸 알게 됐다. 공통적으로 김성훈 교수님의 모두를 위한 RL 강좌로 입문했으므로, 나 또한 지금으로부터 한 달 동안 이 강의를 들으면서 기본적인 개념을 익히면 될 .. 2025. 1. 16. 캐나다 워홀 6개월차 회고 + MLE 인터뷰 후기 murmuring..너무나도 게으른 나 반성해..6월 초에 여기 온지 벌써 반 년이나 흘러버렸다. 어느새 새해를 코앞에 두고 뒤늦은 회고라도 해보자.. KPI 회고Keep- 노션에 기록한 것만 최소 46개 정도의 잡 포스팅에 지원함!- 인터뷰에 열정적으로 성실히 임한 것- 캐글 스터디 성실히 임함- 운동 시작- 카페나 여러 곳에서 스몰톡으로 개발자 친구 3명 넘게 만들고, 아닌 친구도 여러 명 만듬- 말해보카 다시 성실하게 하기 시작함- AI 관련하여 영어로 공부 열심히 함- 뉴욕 여행 다녀오기 Problem- 꿈꿔왔고 계획해왔던 AI 관련 커뮤니티에 겨우 1회만 참석함 (WHY)- 운동 규칙적이지는 않았음- 말해보카 외에 규칙적인 영어 공부 안함 Try- 규칙적인 영어 공부 (인턴 또는 빨모쌤 쉐도잉,.. 2024. 12. 14. 이전 1 2 3 4 ··· 35 다음