728x90

전체 글 60

[HuggingFace Tutorial/Ch5] Datasets 라이브러리 다루기 2

Datasets과 DataFrames 간의 상호 변환Dataset.set_format() 함수를 통해 데이터의 출력 형식 변경기본 데이터 포맷 (Apache Arrow)에는 영향X - 내부적으로 Dataset.set_format()은 __getitem__() 메소드 반환 형식을 변경함=> pd dataset에서 train_df와 같은 새 객체를 생성할 때, 전체 데이터셋을 slicing해야함!검증 집합(Validation set) 생성하기- 검증 집합: 평가 집합에서 떼어오기- 검증 집합에서 모델 성능에 만족하면, 평가 집합에서 최종적인 온전성 검사(sanity check)를 수행할 수 있기 때문.Datasets는 scikit-learn의 Dataset.train_test_split() 함수를 제공함 -..

AI-자연어처리 2024.09.03

[Git] .gitignore로 특정 파일 tracking하지 않기

Huggingface NLP course를 따라가며 겪는 문제들... 연구실 컴터(Win10) - 개인 컴터(Win11) - 노트북(macOS)를 옮겨가며 공부하고 작업하니 호환성이 돌아버릴 지경이당 따라서 본인은 git을 이용해 코드와 리소스를 저장하고 있었는데, 학습을 돌리다보니 확실히 파일이 너무 커지더랑 그래서 알아보는 (어디서 들었었던) .gitignore를 이용해보기로 했다 .gitignore - 모든 변경사항을 추적하는 버전관리시스템인 git에게 폴더/파일을 지정해 추적하지 말라고 알려주는 것.-  보통 .venv나, key, DB 등 민감한 정보들을 untracking하거나 remote repo에 올리지 않게 주의하기 위해 사용 - 작업 dir에서 .gitignore 파일을 만들어준다- ...

[딥러닝] Windows 10/11에서 CUDA 설치하기

참고 블로그:https://80000coding.oopy.io/d8131e92-bde9-4526-a604-217ef31d5a86 인공지능을 위한 GPU(CUDA 설치)인공지능 분야에 그저 관심만 있거나 초보 단계 분들에게 적합한 글입니다.80000coding.oopy.io https://mz-moonzoo.tistory.com/2 [Environment] Window11 딥러닝 환경 구축항상 새로운 환경에서 딥러닝 환경을 구축하다보니 매번 비슷한 시행착오를 겪는거 같아서 작성함. 우선 아나콘다는 설치돼있다는 가정하에 시작. 1. GPU모델 확인 및 NVIDA 설정 - 기존에 설치된mz-moonzoo.tistory.com  예전에 다른 컴퓨터에 시도해보았다가 빙빙 꼬여서 실패해버린 cuda 설치, 이번에는..

[Web/CSS] 티스토리 꾸미기: 마우스 커서 변경하기 & 폰트 변경하기

티스토리 꾸미기 재밌다. CSS 꾸미기가 이렇게 자유로운지 몰랐다언젠가는 정말 이 분처럼 되고싶은 🥲https://inpa.tistory.com/ Inpa Dev 👨‍💻성장 욕구가 가파른 초보 개발자로서 공부한 내용을 쉽게 풀어쓴 기술 개발자 블로그를 운영하고 있습니다.inpa.tistory.com  내 블로그 내에 적용되는 마우스 커서 등록하기마음에 드는 커서 찾기https://www.cursors-4u.com/ Free Cursor Downloads - Cursors-4U.comDate: 16 Jan 2024, 22:00 By Tor With 8 Comments All commenting and comments have been removed from the cursor pages. Too ma..

Web-프론트&백 2024.08.27

[Github] 프로필용 README.md 만들고 꾸미기

프로필 README.md를 작성하는 방법내 Github 이름과 동일한 레포지토리 만들기그러면 내 ✨special repository ✨ 가 생성된다   Public 및 README.md 체크하기   꾸밀 수 있는 다양한 목록들을 확인해보자꾸미기스킬 배지 설정- shields.io를 통해 사용 방법을 익힐 수 있다원하는 아이콘을 찾는 사이트도 참고할 것https://shields.io/badges Static Badge | Shields.ioThe color of the logo (hex, rgb, rgba, hsl, hsla and css named colors supported). Supported for simple-icons logos but not for custom logos.shields.io..

[딥러닝] seq2seq & Attention

seq2seq 모델- input(source sequence)도 sequence, output(target sequence)도 sequence. - 개념적으로 RNN + Auto-encoder, 구조적으로 RNN + RNN.- 내부 셀은 LSTM으로 구성.  알고리즘1) encoding: input seqence -> context vector 2) size 1의 target seq로 시작(문자 (start-of-string))3) 다음 문자 에측을 위해 decoder에 state vector, 1-char target seq 넣기4) 다음 문자 샘플링5) 뽑힌 문자를 target seq에 추가6) (end-of-string)나오거나, 문자 한계치에 도달할 때까지 반복) encoder 동작 - encod..

[딥러닝] RNN & LSTM & Auto-Encoder

순환신경망(RNN) - 입력데이터가 sequence(시퀀스, 시계열 데이터time series data) - 시점에 따라 데이터가 달라짐. 특정 시점의 데이터 한 번에 수집이 아닌, 시간 흐름에 따라 데이터도 점차 수집하는 것. (각 데이터 포인트의 수집 시점이 다름)  * 시퀀스 데이터: 데이터의 순서가 중요하고, 이전 데이터가 다음 데이터에 영향 미치는 경우.  - NLP의 경우, 문장에서 단어들의 순서 중요.  * 시계열 데이터: 시간 흐름에 따라 측정된 데이터, 시간 순서에 따라 연속적으로 측정  -  주식 가격, 기후 데이터 등. - RNN: Recurrent(순환) -> 출력 결과가 다음 시점에 재사용  LSTM(Long Short Term Memory) RNN의 vanishing gradie..

[머신러닝] 데이터 핸들링 & 모형 평가

데이터 가공: 전처리1) 결측치 처리: missing value(없는 값), Outlier(부적절한 값/이상치) 처리2) 클래스 라벨 설정: class labeling  - 범주형 데이터 -> 1, 2, 3, 4 등으로 코딩하는 행위 포함  - One-hot Encoding: 오직 0, 1로만 표현 (Dummy 변수)    -> NLP로 더 들어가면 BoW, TF-IDF 등 방법 있음3) 데이터 스케일링(Data Scaling): 데이터값이 단위 영향 받지 않도록 변형  - 표준화 스케일링: 데이터가 평균 0, 표준편차 1이 되도록 변경하는 방법(정규화) -> (값 - 평균) / 표준편차   - Robust scaling: Median, Quantile 사용 / (값 - 중위수(2사분위수)) / (3사분..

[딥러닝] 딥러닝 소개 & 활성함수 & 역전파 계산

- 역치를 넘기는 자극을 신호로 전달하고 반응 -> 뉴런의 아이디어 머신러닝에 도입한 것: 인공신경망(Artificial Neural Network), 신경망 기반으로 학습하는 것이 Deep Learning.- 초기 신경망 ) XOR 문제 해결하지 못함  - XOR 문제 해결하는 방법) OR(진리표 0111) & NAND(진리표 1110) gate의 출력을 AND(진리표 0110).   - 출력을 또다른 입력으로 -> 다층 퍼셉트론 개념 등장 퍼셉트론 (perceptron): 신경망의 최소 단위 sum(노드 * 가중치) -> step function -> output- step function (활성화 함수, activation function): 최종 출력값을 결정하는 함수 - sigmoid, Relu..

[웹크롤링] API 이용 / XML 데이터 수집 / selenium/bs로 웹크롤링

대법원 API 이용해서 조건에 맞는 데이터 받아오기요구사항: 3심(대법원) '형사' 판결문 목록을 수집하고, json으로 구조화하여 저장하기. 파악개수는 대략 2만 건. 기보유건 있으므로 중복제거 할 것.  - 다운로드 클릭을 또다시 해야한다면 ... 매크로 만들어버리는게 속편할듯+ 추가요구사항: 자동화가 가능할 경우, 3심 '민사'까지 함께 수집하기. 이 경우 대략 7만 건 # 대법원 API (허가 승인 후 사용가능: 이틀걸렸음)- https://open.law.go.kr/LSO/openApi/guideResult.do?htmlName=precListGuide 판례 목록 조회 API - 요청 URL : http://www.law.go.kr/DRF/lawSearch.do?target=prec 요청 변수 ..

카테고리 없음 2024.07.18