전체 글 98

[Git#1] Git 설치 (Windows)

개발자라면 필수로 알아야 할 도구 중 하나가 바로 Git과 Github입니다. 이번 포스팅에서는 Git에 대해서 알아보고 설치해보도록 하겠습니다. 1. Git이란?깃(Git)은 소프트웨어 개발 과정에서 버전 관리를 담당하는 분산 버전 관리 시스템(Distributed Version Control Systems, DVCS)으로, 2005년 리누스 토르발스에 의해 개발되었습니다.  깃을 사용하면 프로젝트 파일의 변경 사항을 기록하고, 시간에 따라 어떤 변경이 이루어졌는지 확인하며, 협업을 원활히 진행할 수 있으며, 다음의 특징을 가지고 있습니다.(참고: https://git-scm.com/about/branching-and-merging)강력한 브랜칭 모델깃은 여러 개의 로컬 브랜치를 지원하며, 각 브랜치는..

Git 2024.12.08

[LLM#2] What? How? BERT

지난 포스팅으로부터 트랜스포머 아키텍처가 인코더와 디코더로 이뤄져 있다는 사실을 확인했습니다. 이때, 트랜스포머 아키텍처를 활용한 모델은 크게 세 가지로 나눌 수 있습니다. 인코더만 활용: 자연어 이해(Natural Language Understanding, NLU)디코더만 활용: 자연어 생성(Natural Language Generation, NLG)인코더와 디코더 모두 활용각 모델들은 서로 다른 장단점이 존재합니다. 각 모델마다 잘 할 수 있는 일이 다르기에 모두 숙지하는 것이 필요합니다. 이번 포스팅에서는 대표적인 구글의 인코더 모델인 BERT에 대해서 알아보도록 하겠습니다. 1. What?구글에서 개발한 BERT(Bidirectional Encoder Representations from Tran..

NLP 2024.12.07

[LLM#1] What? How? 트랜스포머(Transformer)

최근 ChatGPT, Gemini, LLama 등이 등장하면서 LLM(Large Language Model, 대규모 언어 모델)에 대한 관심이 폭발하고 있습니다.현재 대부분의 LLM이 트랜스포머(Transformer) 구조를 기반으로 하고 있는 만큼, 트랜스포머에 대해서 이해하지 않고는 LLM과 관련된 기술을 정확히 이해하기 어렵습니다.따라서, 이번 글에서는 트랜스포머의 구조에 대해서 알아보고 Pytorch로 구현해보도록 하겠습니다. 1. What?트랜스포머 아키텍쳐는 2017년 구글에서 처음 발표하였습니다.※ 매우 유명한 논문이니 읽어보는 것을 권장드립니다.https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence tr..

NLP 2024.11.15

[데이터 전처리#6] 데이터 구조 전처리 - 전개

이번 시간에는 데이터 구조 전처리 중 마지막 파트인 '전개'입니다. 만약 앞의 내용이 기억이 안 난다면 복습하고 와서 보시면 더 이해가 잘 될 것입니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. 그리고 자연스럽게 관련 기술인 인공지능, 머신러닝, 딥러닝 등이 주목받게 되었습니다. 실제로 많은 조직 just-data.tistory.com 전개 데이터 집계 결과를 표 형식으로 변환하는 전개는 전처리에서 빼놓을 수 없습니다. 가로 데이터 vs 세로 데이터 가로 데이터는 데이터를 표 형식으로 나타냅니다. 다시 말해, 행은 적고 열은 많은 특징을 가지고 있습니다. 반면 세로 데이터는 데이터가 레코드 형식일 때를 의미합니다. 새로 데..

Data preprocessing 2023.07.10

[데이터 전처리#5] 데이터 구조 전처리 - 생성

지난 시간에는 나누어져 있는 데이터를 특정 ID를 기준으로 결합하는 것에 대해 알아보았습니다. [데이터 전처리#4] 데이터 구조 전처리 - 결합 본 포스팅에 들어가기에 앞서 데이터 전처리에 대한 전체적인 내용이 궁금하신 분들은 아래의 링크를 확인하고 오시면 좋을 것 같습니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 just-data.tistory.com 사실 책의 순서로 따지면 분할 파트가 있지만 이 부분은 머신러닝에서 다루는 게 더 나은 것 같아 제외했습니다. 이번 시간에는 데이터를 생성하는 방법에 대해 알아보겠습니다. 생성 머신러닝에서 모델으로 예측을 할 때 학습 데이터가 불균형하면 예측 정확도가 떨어지는 경우가 많습니다. 데이터 불균형이란 어느 분류에 속하는 데이터 수가 다른 분류에..

Data preprocessing 2023.07.10

[머신러닝#4] 지도학습 - 의사결정 나무(Decision Tree)

계속해서 지도학습의 알고리즘에 공부해보겠습니다. 지난시간에는 로지스틱 회귀를 이용해 binary값을 예측하는 모델을 만들어보았습니다. [머신러닝#3] 지도 학습 - 로지스틱 회귀(Logistic Regression) 이번 시간에 이야기해볼 지도 학습 머신러닝 모델은 로지스틱 회귀입니다. 로지스틱 회귀 로지스틱 회귀 모델은 분류에 사용될 수 있는 회귀 알고리즘입니다. 어떤 상황을 가정해 봅시다. 만약 just-data.tistory.com 오늘은 또 다른 지도학습의 대표적인 알고리즘인 결정트리에 대해 알아보겠습니다. 의사결정 나무(Decision Tree) 의사결정나무란 학습 데이터를 분석하여 데이터에 내재되어 있는 패턴을 통해, 한번에 하나씩의 설명변수를 사용하여 분류와 회귀가 가능한 규칙들의 집합을 생..

Machine Learning 2023.07.06

[데이터 전처리#4] 데이터 구조 전처리 - 결합

본 포스팅에 들어가기에 앞서 데이터 전처리에 대한 전체적인 내용이 궁금하신 분들은 아래의 링크를 확인하고 오시면 좋을 것 같습니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. 그리고 자연스럽게 관련 기술인 인공지능, 머신러닝, 딥러닝 등이 주목받게 되었습니다. 실제로 많은 조직 just-data.tistory.com 이번 주제는 결합에 대한 내용입니다. 결합 실제 현업에서 데이터는 종류별로 테이블이 나뉘기 때문에 하나의 테이블에 필요한 데이터가 모두 포함된 경우는 드뭅니다. 데이터 분석용인 데이터는 하나의 테이블에 모두 정리된 가로로 긴 데이터가 이상적입니다. 마스터 테이블에서 정보 얻기 레코드 테이블과 마스터 테이블의 결합..

Data preprocessing 2023.07.04

[데이터 전처리#3] 데이터 구조 전처리 - 집약

지난 포스팅에서 데이터 구조 전처리 중 추출에 대해 알아보았습니다. 열 추출, 행 추출에 관한 내용이었습니다. [데이터 전처리#2] 데이터 구조 전처리 - 추출 지난 시간 데이터 전처리의 전체적인 개요에 대해 설명드렸습니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. just-data.tistory.com 이번 시간에는 데이터 구조 전처리 중 집약에 대한 내용입니다. 집약 예를 들어 시험 과목별로 점수의 평균값을 계산하면 시험 과목의 난이도를, 각 학생이 받은 점수의 평균값을 계산하면 학생별 결과를 쉽게 파악할 수 있습니다. 이렇게 데이터의 가치를 되도록 손실 없이 압축하여 데이터의 단위(데이터 행의 의미)를 변환할 수 있도..

Data preprocessing 2023.07.04

[데이터 전처리#2] 데이터 구조 전처리 - 추출

지난 시간 데이터 전처리의 전체적인 개요에 대해 설명드렸습니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. 그리고 자연스럽게 관련 기술인 인공지능, 머신러닝, 딥러닝 등이 주목받게 되었습니다. 실제로 많은 조직 just-data.tistory.com 데이터 전처리는 크게 구조에 대한 전처리와 내용에 대한 전처리로 나눠지게 됩니다. 그중 구조에 대한 전처리는 주로 전체 전처리 과정 중 비교적 빠른 단계에 진행되게 됩니다. 오늘은 구조 전처리 중 추출에 대한 이야기를 해보려 합니다. 추출 적절한 데이터 추출 작업은 불필요한 처리를 없애줄 뿐만 아니라 다루어야 할 데이터의 크기도 줄여주는 중요한 과정입니다. 크게 네 종류로 나누어..

Data preprocessing 2023.07.02

[NLP#5] LSTM

만약 기본적인 RNN에 대한 배경지식이 없으시면 간단하게 앞의 포스팅을 보고 오시면 이번 글을 읽으실 때 도움이 되실 겁니다. [NLP#4] 순환 신경망(RNN) 지난 포스팅에서는 word2vec에 대해서 알아보았습니다. [NLP#3] 추론 기반(word2vec) 지난 시간에는 통계 기반을 통해 단어의 분산 표현을 얻어내는 방법에 대해서 알아보았습니다. [NLP#2] 통계 기반 저 just-data.tistory.com RNN은 순환 경로를 통해 과거의 정보를 기억할 수 있도록 설계되어 있었습니다 구조도 단순하여 구현도 쉽게 할 수 있습니다. 하지만 기울기 소실, 폭발 등으로 인해 장기 기억을 잘 학습할 수 없어 성능이 좋지 못하다는 큰 단점이 존재합니다. 그래서 장기 기억을 잘 학습할 수 있도록 Gat..

NLP 2023.07.02