전체 글 41

[Statistics#1] 탐색적 데이터 분석(EDA)

고전적인 통계학에서는 거의 추론(inference), 즉 적은 표본(샘플)을 가지고 더 큰 모집단에 대한 결론을 도출하는 데 집중했습니다.  하지만 1962년 존 투기는 'The future of data analysis' 논문에서 통계적 추론을 하나의 구성 요소로 보는 데이터 분석이라는 새로운 과학적 학문을 제안했습니다.※ 참고: https://link.springer.com/chapter/10.1007/978-1-4612-4380-9_31 탐색적 데이터 분석(Exploratory Data Analysis, EDA)은 존 투키의 1977년 책 'Exploratory Data Analysis'를 통해 정립되었습니다.  그는 EDA를 numerical detective work라고 언급하면서 실험의 첫 번..

Statistics 2024.12.09

[Git#3] Git & Github 연동

1. Github란?결론적으로 깃과 깃허브(Github)는 서로 역할이 다릅니다. 깃이 현재 내가 만들고 있는 소프트웨어의 버전 관리를 도와준다면,깃허브는 그 소프트웨어 혹은 코드들을 보관하는 온라인 플랫폼입니다. 즉, 네이버 클라우드와 구글 드라이브처럼 파일 대신 코드를 저장하고 공유하는 도구입니다.  깃허브를 통해서 우리는 여러 컴퓨터에서 코드를 수정할 수 있습니다.※ 직장 로컬에서 작성하던 것을 깃허브에 업로드 후, 집에서 내려받아서 작성할 수 있습니다. 또한, 내가 짠 코드를 public으로 전환하면, 타 사용자들과 소통하며 공유할 수 있는 커뮤니티의 역할도 제공하고 있습니다. 그럼 로컬에서 작업한 커밋 파일을 깃허브에 바로 올리는 방법을 살펴보겠습니다. 2. How to upload in Git..

Git 2024.12.08

[Git#2] Git commit

앞서 말씀드렸듯이, 깃(Git)은 분산 버전 관리 시스템으로, 소스 코드를 효율적으로 관리하고 협업을 원활하게 진행할 수 있게 도와줍니다. 간단하게 예를 들어보겠습니다. 가끔씩 어떤 프로젝트나 업무를 할 때 아래와 같이 여러 버전의 작업물을 생성한 적이 있으신가요?저는 많았습니다... 특히, 과거 작업물을 보관할 때 많이 했던 것 같습니다. 이렇게 작업물을 많이 생성하게 되면, 모든 파일을 따로 저장해놔야 하고, 중복되는 내용으로 인해 저장소를 효율적으로 사용하기 힘들 뿐만 아니라 업무적으로 소통하는 데 제한이 발생할 수 있습니다. 이를 해결하기 위해 깃은 작업물의 각 버전의 변경 사항을 기록합니다. 이 과정은 크게 3가지로 나뉘게 되는데요.로컬에서 사용자가 작업을 수행저장할 변경될 작업물을 지정(스테이..

Git 2024.12.08

[Git#1] Git 설치 (Windows)

개발자라면 필수로 알아야 할 도구 중 하나가 바로 Git과 Github입니다. 이번 포스팅에서는 Git에 대해서 알아보고 설치해보도록 하겠습니다. 1. Git이란?깃(Git)은 소프트웨어 개발 과정에서 버전 관리를 담당하는 분산 버전 관리 시스템(Distributed Version Control Systems, DVCS)으로, 2005년 리누스 토르발스에 의해 개발되었습니다.  깃을 사용하면 프로젝트 파일의 변경 사항을 기록하고, 시간에 따라 어떤 변경이 이루어졌는지 확인하며, 협업을 원활히 진행할 수 있으며, 다음의 특징을 가지고 있습니다.(참고: https://git-scm.com/about/branching-and-merging)강력한 브랜칭 모델깃은 여러 개의 로컬 브랜치를 지원하며, 각 브랜치는..

Git 2024.12.08

[LLM#2] What? How? BERT

지난 포스팅으로부터 트랜스포머 아키텍처가 인코더와 디코더로 이뤄져 있다는 사실을 확인했습니다. 이때, 트랜스포머 아키텍처를 활용한 모델은 크게 세 가지로 나눌 수 있습니다. 인코더만 활용: 자연어 이해(Natural Language Understanding, NLU)디코더만 활용: 자연어 생성(Natural Language Generation, NLG)인코더와 디코더 모두 활용각 모델들은 서로 다른 장단점이 존재합니다. 각 모델마다 잘 할 수 있는 일이 다르기에 모두 숙지하는 것이 필요합니다. 이번 포스팅에서는 대표적인 구글의 인코더 모델인 BERT에 대해서 알아보도록 하겠습니다. 1. What?구글에서 개발한 BERT(Bidirectional Encoder Representations from Tran..

NLP 2024.12.07

[LLM#1] What? How? 트랜스포머(Transformer)

최근 ChatGPT, Gemini, LLama 등이 등장하면서 LLM(Large Language Model, 대규모 언어 모델)에 대한 관심이 폭발하고 있습니다.현재 대부분의 LLM이 트랜스포머(Transformer) 구조를 기반으로 하고 있는 만큼, 트랜스포머에 대해서 이해하지 않고는 LLM과 관련된 기술을 정확히 이해하기 어렵습니다.따라서, 이번 글에서는 트랜스포머의 구조에 대해서 알아보고 Pytorch로 구현해보도록 하겠습니다. 1. What?트랜스포머 아키텍쳐는 2017년 구글에서 처음 발표하였습니다.※ 매우 유명한 논문이니 읽어보는 것을 권장드립니다.https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence tr..

NLP 2024.11.15

[데이터 전처리#6] 데이터 구조 전처리 - 전개

이번 시간에는 데이터 구조 전처리 중 마지막 파트인 '전개'입니다. 만약 앞의 내용이 기억이 안 난다면 복습하고 와서 보시면 더 이해가 잘 될 것입니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. 그리고 자연스럽게 관련 기술인 인공지능, 머신러닝, 딥러닝 등이 주목받게 되었습니다. 실제로 많은 조직 just-data.tistory.com 전개 데이터 집계 결과를 표 형식으로 변환하는 전개는 전처리에서 빼놓을 수 없습니다. 가로 데이터 vs 세로 데이터 가로 데이터는 데이터를 표 형식으로 나타냅니다. 다시 말해, 행은 적고 열은 많은 특징을 가지고 있습니다. 반면 세로 데이터는 데이터가 레코드 형식일 때를 의미합니다. 새로 데..

Data preprocessing 2023.07.10

[데이터 전처리#5] 데이터 구조 전처리 - 생성

지난 시간에는 나누어져 있는 데이터를 특정 ID를 기준으로 결합하는 것에 대해 알아보았습니다. [데이터 전처리#4] 데이터 구조 전처리 - 결합 본 포스팅에 들어가기에 앞서 데이터 전처리에 대한 전체적인 내용이 궁금하신 분들은 아래의 링크를 확인하고 오시면 좋을 것 같습니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 just-data.tistory.com 사실 책의 순서로 따지면 분할 파트가 있지만 이 부분은 머신러닝에서 다루는 게 더 나은 것 같아 제외했습니다. 이번 시간에는 데이터를 생성하는 방법에 대해 알아보겠습니다. 생성 머신러닝에서 모델으로 예측을 할 때 학습 데이터가 불균형하면 예측 정확도가 떨어지는 경우가 많습니다. 데이터 불균형이란 어느 분류에 속하는 데이터 수가 다른 분류에..

Data preprocessing 2023.07.10

[머신러닝#4] 지도학습 - 의사결정 나무(Decision Tree)

계속해서 지도학습의 알고리즘에 공부해보겠습니다. 지난시간에는 로지스틱 회귀를 이용해 binary값을 예측하는 모델을 만들어보았습니다. [머신러닝#3] 지도 학습 - 로지스틱 회귀(Logistic Regression) 이번 시간에 이야기해볼 지도 학습 머신러닝 모델은 로지스틱 회귀입니다. 로지스틱 회귀 로지스틱 회귀 모델은 분류에 사용될 수 있는 회귀 알고리즘입니다. 어떤 상황을 가정해 봅시다. 만약 just-data.tistory.com 오늘은 또 다른 지도학습의 대표적인 알고리즘인 결정트리에 대해 알아보겠습니다. 의사결정 나무(Decision Tree) 의사결정나무란 학습 데이터를 분석하여 데이터에 내재되어 있는 패턴을 통해, 한번에 하나씩의 설명변수를 사용하여 분류와 회귀가 가능한 규칙들의 집합을 생..

Machine Learning 2023.07.06

[데이터 전처리#4] 데이터 구조 전처리 - 결합

본 포스팅에 들어가기에 앞서 데이터 전처리에 대한 전체적인 내용이 궁금하신 분들은 아래의 링크를 확인하고 오시면 좋을 것 같습니다. [데이터 전처리#1] 데이터 전처리 개요 최근 인터넷과 전자 기기들의 발달로 매일 엄청난 양의 데이터가 생성되고 있습니다. 그리고 자연스럽게 관련 기술인 인공지능, 머신러닝, 딥러닝 등이 주목받게 되었습니다. 실제로 많은 조직 just-data.tistory.com 이번 주제는 결합에 대한 내용입니다. 결합 실제 현업에서 데이터는 종류별로 테이블이 나뉘기 때문에 하나의 테이블에 필요한 데이터가 모두 포함된 경우는 드뭅니다. 데이터 분석용인 데이터는 하나의 테이블에 모두 정리된 가로로 긴 데이터가 이상적입니다. 마스터 테이블에서 정보 얻기 레코드 테이블과 마스터 테이블의 결합..

Data preprocessing 2023.07.04