완벽하지 않은 완벽주의자

본문 바로가기

최신 작성 글

캐나다 워홀 9개월차 회고 + MLE 1개월차 회고 어느덧 토론토에 머무른지 8개월을 꽉 채워보내고, 9개월차를 맞이하였다. 그리고 시간이 흘러흘러 입사한지도 1달 반을 향해 가고 있다. 회고에 앞선 지난 6개월차 Try대체로 굿잡! - 규칙적인 영어 공부 (인턴 또는 빨모쌤 쉐도잉, 비즈니스 영어 표현) 5- 규칙적인 운동 (같은 시간, 루틴화) 5- 개발 밋업 참석 (제발) 0- 개발 취업하기 5- 내년 목표 계획하기 2- 여행 짬내어 열심히 다니기 29개월차의 KPI 회고Keep- 규칙적인 영어 공부 - 단어 인풋은 말해보카를 통해서 하고 있고, 목표치 50개나 그 이상으로 하려고 노력했다. 몇몇 빈 날이 있긴 하지만 여행이나 하루 이틀이고 열심히 했다고 할 수 있다. 가끔 회의할 때나 커피챗할 때 말해보카로 연습한, 외운 단어가 머릿속에 떠오르.. 2025.03.04
[Tech Vocab] deprecated | dispatch | ad-hoc 1. deprecatedEnglish ExplanationIn software development, "deprecated" refers to a function, feature, or practice that is still available but no longer recommended for use. It may be removed in future versions, so developers are advised to transition to an alternative.Korean Explanation소프트웨어 개발에서 "deprecated"는 여전히 사용 가능하지만 더 이상 권장되지 않는 기능, 명령어 또는 관행을 의미합니다. 향후 버전에서 제거될 가능성이 있어 개발자들은 대체 기능으로 전환하는 .. 2025.02.28
Q Learning exploitation & exploration | 모두를 위한 RL강좌 강의자료Lecture 4: Q Learning exploitation & exploration (table)What I learnt- Dummy Q Learning은 한 번 길을 알아내면, 효율과 관계없이 계속해서 동일한 선택을 하게 됨. Exploitation 활용은, 이처럼 경험에 기반에 최선의 선택을 계속하는 것을 말함. 맛집을 예시로 든다면, 한 두번 시도해본 곳 중, 가장 맛있었던 곳을 계속해서 방문하는 방법임. 어떻게 보면 좋은 방법처럼 보일 수 있으나, 세상은 넓고 더 맛있는 집이 있을 가능성이 있는데, 이로 인해 얻을 수 있는 더 큰 보상은 포기하게 되는 방법임. 이와 반대의 개념이 Exploration 탐색으로, 가능성을 열어두고 계속 새로운 시도를 해보는 방법을 말함. 탐색을 선택하는 .. 2025.01.26
[Business English] Some idioms and phrases commonly used in the context of online meetings; 1. "Let's take this offline." - Meaning: To discuss a topic privately or later, outside the current meeting. - Korean: "이 주제는 나중에 따로 이야기합시다." - Example: "We’re running out of time, so let’s take this offline." 2. "Can you put a pin in that?" - Meaning: To pause or temporarily set aside a discussion and revisit i.. 2025.01.23
Dummy Q Learning | 모두를 위한 RL강좌 강의 자료Lecture 3: Dummy Q-learning (table)What I learnt- Frozen Lake 게임에서, 전체 게임 환경을 볼 수 있다면 reward를 maximize하는 것이 어려워보이지 않으나, 실제 게임 상황에서는 자신의 현재 상태(state)와 이미 지나간 곳만 알 수 있음.- 위와 같은 상황에서 agent는 어떤 선택을 해야 최대의 보상을 취할 수 있을까? 물론 무작위로 이동하는 것도 도움이 될 수 있으나, 이동에서 얻을 수 있는 잠재적인 보상을 기억하고, 기억에 기반해 움직이는 방법이 있을 수 있다.- 가장 간단한 강화학습 중 하나인, Q-learning은, 현재 상태(state)와 행동(action)을 입력으로 하고, 출력으로 보상(reward)을 제공하는 행동 기반.. 2025.01.18
OpenAI Gym 활용해보기 | 모두를 위한 RL강좌 강의 출처RL 수업소개 (Introduction)What I learnt- actor(agent)가 environment 내에서 state를 가지고 action(행동)을 하고 매 라운드는 아니더라도, reward (보상)을 받는 방식으로 모델링할 수 있는 문제를 강화 학습 문제라고 함.- Deepmind 의 벽돌 깨기를 시작으로, 한 agent가 재학습 없이 픽셀 정보만으로 사람보다 훨씬 나은 성능을 보이는 경우도 있었으며, 알파고 또한 강화 학습의 결과. game, finance, e-commerce 등의 분야에서 RL을 활용해 다양한 문제(자동 투자, 광고 및 제품 추천)를 해결할 수 있음.What I wondered- 강화 학습의 정의: 아래 내용에 따르면, 강화학습은 agent가 reward을 최.. 2025.01.16

티스토리툴바