본문 바로가기

분류 전체보기207

pandas series fillna with another series 데이터프레임에 score라는 컬럼이 있을 때, score 컬럼의 nan 값을 옆에 있는 score2라는 컬럼의 값으로 대치하는 코드. df.score = np.where(df.score.isnull(), df.score2, df.score) 적용할 수 있는 상황과 목표는 아래 그림과 같이 나타낼 수 있다. (from stackoverflow) 답변도 위 이슈에서 얻을 수 있다. 2023. 9. 7.
conda 캐시 삭제 https://docs.conda.io/projects/conda/en/latest/commands/clean.html 안쓰는 가상환경이나 캐시를 삭제하는 명령어. conda clean --all 2023. 9. 7.
pandas 시리즈 binning 방법 (pd.cut) 원하는 bin의 개수를 bins로, bin의 정보를 labels 로 전달하면 데이터가 레이블링 되어 나온다! pd.cut(series, bins=3, labels=['bad', 'medium', 'good']) (출처: https://pandas.pydata.org/docs/reference/api/pandas.cut.html) 2023. 9. 7.
채팅 AI를 사용하여 한국어 텍스트 증강하기 (GPT-3.5, Bard, Clova X비교) 목차 배경 모바일 앱으로 쓰여진 한국어로 구성된 문장들을 여러 개 보유하고 있는데, 유사한 의미를 가지나 다르게 표현된 여러 개의 문장이 필요했다. 이렇게 기존 데이터로 유사한 데이터를 생성하는 것을 데이터 증강(augmentation)이라고 한다. 증강은 주로 비전 분야에서 많이 사용되었으나, 최근에는 거대 언어 모델이 발전함에 따라 자연어 분야에서도 필요로 한다고 한다. 영어는 우선 데이터도 많고, 연구가 많이 이루어졌으며, 단어의 구성이 비교적 단순하여 데이터 증강이 쉬운 편이지만, 한국어는 그렇지 않다. 알파벳을 나열하는 영어와 달리, 자음소의 조합이 하나의 음절을 이루고, 이 음절의 조합에 따라 단어가 구성되기 때문이다. 그래서 한국어 자연어 처리를 위한 라이브러리가 따로 있기도 하며, 일반적인.. 2023. 9. 5.
주피터 노트북 문서(.ipynb) 커맨드로 실행하기 (nbconvert, nohup, &) 목차 배경 파이썬을 사용하여 데이터를 분석하거나 모델링을 할 때 주피터 노트북 문서인 ipynb 확장자의 파일을 흔하게 사용한다. 이 파일은 vscode나 jupyter server를 띄우면 파이썬 코드를 셀(cell) 단위로 실행하고, 실행 결과가 문서에 기록되어 데이터를 다룰 때에 매우 편리하다는 장점이 있다. 하지만, 네트워크가 끊기거나, 문서를 닫으면 문서의 실행이 중단된다는 단점이 있다. 나는 이 때문에 모델을 학습하다가 중단되어 눈물을 흘린 적이 한 두 번이 아니다....! 잘 작성해둔 주피터 노트북의 특정 파라미터만 변경하여 여러 실험을 할 때에 유용한 방법을 소개한다. 이 방법은 간단히 말하면 주피터 커맨드와 리눅스 커맨드 몇 가지를 조합하여, ipynb 파일을 CLI로 실행하면서도, 문서.. 2023. 9. 1.
pandas data shuffle # shuffle data df = df.sample(frac = 1) 참고: https://www.geeksforgeeks.org/pandas-how-to-shuffle-a-dataframe-rows/ 2023. 8. 30.