인공지능57 자연어 데이터 전처리 방법 - 영어 목차 1. 문장 토큰화 2. 단어 토큰화 3. 정규 표현식을 통한 토큰화 4. 불용어 제거 전처리 대상 정의 전처리는 아래와 같이 3개의 문장으로 정의된 문단을 사용한다. para = "Hello everyone. It's good to see you. Let's start out text mining class!" 1. 문장 토큰화 위 문단을 문장 단위로 토큰화하는 nltk의 sent_tokenize로 토큰화하면 아래와 같이 분할된다. import nltk nltk.download('punkt') nltk.download('webtext') from nltk.tokenize import sent_tokenize print(sent_tokenize(para)) ['Hello everyone.', "It'.. 2023. 5. 15. gcloud scp로 데이터 전송하기 아래 예시는 data 아래의 모든 파일을 vm1의 /home/jylee/data로 전송하겠다는 의미이다. (공식문서: https://cloud.google.com/compute/docs/gcloud-compute/common-commands?hl=ko#using_scp_to_transfer_files_to_instances) # 방법 $ gcloud compute scp LOCAL_FILE_PATH VM_NAME:REMOTE_DIRECTORY # 예시 $ gcloud compute scp data/* vm1:/home/jylee/data 2023. 5. 10. [NLP] Sentence-transformer를 활용한 문장 임베딩 1. sentence-transformer 설치 $ pip install sentence-transformers 2. 모델 선택 - https://huggingface.co/sentence-transformers 에서 모델 선택 - 나는 이 모델 선택: https://huggingface.co/sentence-transformers/paraphrase-MiniLM-L6-v2 3. 모델 불러오기 from sentence_transformers import SentenceTransformer model = SentenceTransformer("sentence-transformers/paraphrase-MiniLM-L6-v2") 4. 임베딩 my_sentence = 'I love you, darling' re.. 2023. 4. 28. [ChatGPT] Python ChatGPT API 사용 방법 (한국어 예시) 목차 1. API key 받기 2. 결제 정보 등록하기 3. python으로 ChatGPT API 요청하고 응답받기 1. API key 받기 1) http://platform.openai.com/에 접속 2) 로그인 (계정이 없는 경우 회원가입) 3) 우측 상단 Personal > view API keys 클릭 4) + create new secret key 선택 5) 원하는 이름(ex.my-first-key)으로 새로운 키를 생성 (이 키는 요금이 부과되므로, 절대 타인에게 공유해서는 안되며 private 공간에 파일 또는 텍스트의 형태로 저장해두어야 함) 6) 키가 생성되었는지 확인 2. 결제 정보 등록하기 회원가입 직후에는 $18의 무료 크레딧이 제공된다. 그러나 일정 기간이 지나고 나면 무료 크레.. 2023. 4. 27. [토이프로젝트] 코사인 유사도 기반의 아이템 추천 API 만들어보기 갑자기 온라인 쇼핑 플랫폼을 보는데, 아이템 유사도 기반의 일련의 추천 API를 구현하는 것은 어렵지 않을 것 같다는 생각이 들었다. 개발은 서툴기에 아주 간단한 거니까 한 번 해보자라는 마음으로 아래와 같은 알고리즘, API를 구성해보았다. 개발 환경 사용한 데이터: mnist fashion data 이미지 데이터 API 구현: flask 알고리즘 1. API의 파라미터로 전체 패션 아이템 중 하나를 선택하여 그 key를 전달한다. 2. 전체 패션 아이템과 선택한 아이템의 코사인 유사도를 계산한다. 3. 코사인 유사도가 높은 순으로 정렬한다. (ranking) 4. 유사도가 높은 것 중 Top N개에 대한 key를 API로 응답한다. 5. key를 받아, 유사한 아이템이 무엇인지 확인해본다. 위와 같은.. 2023. 4. 9. [RecSys] 연관 규칙 (Association Rule) Intro 추천 시스템은 크게 content-based와 collaborative filtering으로 분류된다. CF는 '이웃 기반'과 '모델 기반'으로 나뉘는데, 연관 규칙은 모델 기반의 협업 필터링에 속하는 방식이다. 데이터 간의 관계를 분석하기 위하여 마케팅 등의 분야에서 고전적으로 사용되고 있던 방법이나, 추천 알고리즘의 일환으로도 사용된다. 오늘은 연관 규칙이 무엇인지 알아보고자 한다. 연관 규칙(Association Rule)이란? 연관 규칙이란 데이터에서 흥미로운 관계를 찾는 rule-based machine learning 기법 중 하나이다. 다양한 아이템간의 관계 중 어느 수준 이상의 관련성을 가지는 관계가 연관 규칙이고, 이를 찾아내는 기법을 Association Rule Mining.. 2023. 2. 27. 이전 1 ··· 3 4 5 6 7 8 9 10 다음