728x90

전체 글 60

[Python] 파이썬 기초 2: 문법 기초 및 기본적인 키워드

2.1. Python Keyword상수, 변수, 다른 식별자 이름으로 사용X예약어는 모두 소문자로 구성None은 keyword는 아니지만, python에서 상수로 사용하고 있는 내장객체이므로, 다른 용도 사용XKeyword List(version별로 다름)import syssys.version # python version checkimport keywordkeyword.kwlist Printprint 명령엔 무조건 끝에 줄바꿈 들어감a = 1b = 2(a, b) # (1,2) tuple 형태로 출력print(a) # 1print("b = ", b) # b = 2print(a, b) # 1 2 (그냥 문자형태로 출력)print(a, b, '\\n', sep=", ") # 1, 2 (seperate=, \..

[Python] 파이썬 기초 1: Basic operator & 파이썬 변수

예전에 파이썬 띵강의를 들었기 때문에 notion에만 기록해두고 있던 문법 리스트를 공유한다. 우리학교 박ㅅㅎ 교수님 보고 계신가요? 정말 감사했습니다. 처음에는 내가 이런것까지 알아야해? 했지만, 시간이 흐르고 나니 굉장한 문법 베이스를 가지게 되었읍니다. 과제/시험 난이도가 파이썬 치고 어마어마했지만 학교 다니면서 교수님의 이 수업을 에이쁠 맞은 날 가장 기뻤습니다...  2.1.1 Python Basic OperatorPython Operator_사칙연산# 정수형/실수형 return value 모두 각각 형태 따름5 + 2 # 723.5 + 12.3 # 25.85 - 2 # 323.5 - 12.3 # 11.210 * 2 # 정수형 곱셈/ 정수 출력: 202.5 * 2 # 실수형 곱셈/ 실수 출력: ..

[Git] git 명령어/커맨드 위주로 정리

잠깐 들었던 git 강의, 이젠 좀 이해가 가서 공부해둔 부분 정리해두기.git 연동 및 기초 개념을 알았으니 add & commit 외의 command를 위주로 설명해보려 한다. git files.gitignore: 제외할 파일 (tracking하지 않을 파일) 정리해두기..git: repository로, 버전 관리 등 모든 기록이 존재하는 파일.  - objects: 숫자 포인터로, 파일들의 이름을 가리킴.  - .refs: heads - main branch 유용한 commandsgit remotegit remote repo와 local repo url 확인할 때 사용. 로컬 저장소가 연결된 모든 원격 저장소의 이름과 URL을 조회하는 데 유용함. origin: 원격 저장소의 기본 별칭(그냥 네이밍..

[Python] List Comprehension 리스트 표현식

내 언젠가는 반드시 알고 넘어가야겠다고 생각했던 리스트 컴프리헨션처음 만난 건 몇 년 전이지만 까먹고 쓰고를 무한정 반복하고 있었다 List Comprehension이란List 또는 set, dictionary 안에서 for문과 if문을 사용하여 컬렉션 내부의 원소들을 구성하는 것.사실 꼭 저 3개일 필요는 없고, iterable이면 전부 된다.* iterable / iterator / generator 개념: https://toktto0203.tistory.com/entry/Python-%EC%9D%B4%ED%84%B0%EB%A0%88%EC%9D%B4%ED%84%B0%EC%A0%9C%EB%84%88%EB%A0%88%EC%9D%B4%ED%84%B0 직역하면 '리스트 조건제시법',중학생 때 배웠던 그 '조..

[HuggingFace Tutorial/Ch6] Tokenizers 라이브러리 2

QA pipeline 구현해보기QA pipeline - question & context를 순서대로 배치시켜 쌍(pair)로 토큰화함 - 해당 logit을 확률로 변환하기 위해 softmax를 적용해야 하지만, 그 전에 context 아닌 token index를 masking해야 함- 입력: [CLS] question [SEP] context [SEP] 이므로, 질문 & SEP을  masking해야 함.- 그러나 일부 모델에서는 컨텍스트에 답이 없음을 나타내기 위해 사용할수도 있으므로 [CLS] 토큰은 마스킹하지 않고 그대로 유지- 나중에 softmax를 적용할 것이기 때문에 마스킹(masking)하려는 로짓을 큰 음수로 변경(-10000 사용) start / end prob의 argmax 취할 수 있으..

AI-자연어처리 2024.09.04

[Python] 이터레이터 Iterator / 제너레이터 Generator / Iterable

Iterator/Generator에 대해 알아보쟝https://wikidocs.net/16068먼저 Iterable이란:파이썬 자료구조로, 반복 가능한 객체 (list, dict, set, str, bytes, tuple, range)Iterator값을 '차례대로' 꺼낼 수 있는 객체. 즉 Iterable한 객체를 의미한다.iterable한 객체를 1. 내장함수 또는 2. iterable객체의 메소드로 객체를 생성할 수 있음.iterator 객체 생성하기내장함수 iter() 사용해 생성a = [1, 2, 3] # lista_iter = iter(a)type(a_iter) #  iterable 객체의 매직 메소드로 생성b = {1, 2, 3} # setb_iter = b.__iter__()type(b_it..

[Python] Docstring 개념 & 사용법

- NLP 공부 중 파이썬 코드블럭 데이터 전처리를 하는 와중 docstring이라는 개념이 나와서, 짚고 넘어가기 docstring(Document String) 개념- 함수, 클래스, 또는 모듈에 대한 설명을 담고 있는 문자열.- 주로 첫 번째 줄에 위치하며, 코드의 사용법과 목적을 설명.- 해당 코드의 동작이나 목적을 문서화 함- 주로 """ / '''로 감싸져 있으며., 함수나 클래스 정의 바로 아래에 위치함- 이러한 docstring은 해당 객체의 doc 특수 속성으로 변환됨 사용 예시작성def add_numbers(a, b): """ docstring: 두 숫자를 더한 값을 반환합니다. Args: a (int): 첫 번째 숫자. b (int): 두..

[HuggingFace Tutorial/Ch7] 1. Token Classification (NER) 실습

주요 NLP 태스크들토큰 분류 (Token Classification)마스킹된 언어 모델링 (Masked Language Modeling)요약 (Summarization)번역 (Translation)인과적 언어 모델링 사전학습 (Causal Language Modeling Pretraining like GPT-2)질의응답 (Question Answering)다뤄보기 1. 토큰 분류(token classification)- "문장의 각 토큰에 레이블을 지정"하는 것으로 정형화될 수 있는 모든 문제   Named entity recognition (NER): 문장에서 개체명(혹은 엔터티, 예: 사람, 위치 또는 조직) 찾기 Part-of-speech tagging (POS): 문장의 각 단어에 대한 특정 품..

AI-자연어처리 2024.09.03

[HuggingFace Tutorial/Ch6] Tokenizers 라이브러리 1

보통 미세 조정 과정에서 사전 학습된 모델과 동일한 토크나이저를 사용모델을 처음부터 학습하고 싶을 때?다른 도메인이나 언어의 말뭉치로 사전 학습된 토크나이저를 사용하는 것은 일반적으로 차선책(suboptimal).  corpus에서 새로운 토크나이저를 학습하는 방법과 이를 언어 모델을 사전 학습하는데 사용하는 방법 있음.transformers 라이브러리에서 fast tokenizer 제공하는 Tokenizers 라이브러리 확인 기존 토크나이저에서 새로운 토크나이저 학습하기사전 언어모델에 적응된 새로운 tokenizer 만들고 싶을 경우: 모델 학습처럼 기존 토크나이저에 corpus 학습 시킬 수 있음= 대부분의 transformer model은 subword tokenization 알고리즘을 이용하는데,..

AI-자연어처리 2024.09.03

[Python] 환경 변수에 Key, Token 저장해서 사용하기 & .gitignore로 무시

public repo에 올려서 내 코드를 편하게 사용하고 싶은데 노출되면 안 되는 token이나 key값이 있다면코드 내에 key를 직접 올리지 말고 무조건 환경변수에 숨겨주어야 한다 본인은 vscode, python을 기준으로 설명. 1. 프로젝트 레포지토리에 환경변수(environment) 만들어주기.env 파일 생성.env 파일에 숨기고 싶은 key나 토큰 값을 설정해준다 2. .gitignore에 환경변수 등록git에 올라가면 큰일난다. 혼난다. 기겁할 정도로 깨진다. 반드시 .gitignore에 .env를 등록해주어야 한당.gitignore가 뭔지 모르겠다면:https://toktto0203.tistory.com/entry/Git-gitignore%EB%A1%9C-%ED%8A%B9%EC%A0%9..