분류 전체보기53 Transformer 모델 요즘 우리가 사용하는 대부분의 인공지능 모델—ChatGPT, BERT, LLaMA, Qwen 같은 LLM—의 공통된 기반에는 Transformer 모델이 있습니다. Transformer는 단순히 "성능이 좋은 모델”을 넘어, 자연어 처리의 패러다임을 완전히 바꾼 구조라고 할 수 있습니다. 본 글에서는 Transformer가 무엇인지 살펴보고, 실제 Hugging Face의 LLaMA 모델을 예시로 하여 Transformer를 구성하는 Neural Network 레이어들을 살펴볼께요. .먼저 Transformer는 왜 등장했을까요?Transformer 이전의 자연어 처리 모델은 주로 RNN(Recurrent Neural Network) 계열이었습니다. 기존 RNN 계열은, 문장을 앞에서부터 순차적으로 처.. 2025. 12. 18. Hugging Face Transformers Hugging Face의 Transformers 라이브러리는 사전 학습된(pre-trained) 다양한 딥러닝 모델을 손쉽게 활용할 수 있도록 만들어진 오픈소스 라이브러리입니다. 이 라이브러리는 사용 목적에 따라 두 가지 수준(Level)의 API를 제공합니다.High Level API: 빠르고 간단하게 추론(Inference)을 수행하는 pipelineLow Level API: Model, Tokenizer를 직접 제어하는 방식먼저 Pipeline에 대해서 알아볼께요.Pipeline이란?pipeline은 Hugging Face에서 제공하는 사전 정의된 추론용 API입니다. 모델 로딩, 토크나이징(Tokenization), 추론(Inference), 후처리(Post-processing)까지의 전 과정을 .. 2025. 12. 8. Ollama 설치부터 구글 Gemma 모델 실행까지 최근 로컬 환경에서 LLM(대규모 언어 모델)을 실행할 수 있는 도구로 Ollama가 많은 관심을 받고 있습니다. 클라우드 서버에 의존하지 않고 내 PC에서 직접 AI 모델을 실행할 수 있다는 점이 Ollama의 가장 큰 장점입니다. 이번 글에서는 Ollama 설치부터 실제로 구글이 공개한 Gemma 모델을 다운로드하고 실행하는 과정까지 차근차근 정리해보겠습니다.Ollama 다운로드 및 설치먼저 Ollama 공식 사이트에 접속합니다.https://ollama.com/자신의 운영체제에 맞는 버튼을 클릭해 설치 파일을 다운로드합니다. Windows 사용자라면 OllamaSetup.exe 파일이 다운로드되며, 해당 파일을 더블 클릭하여 설치를 진행하면 됩니다. 설치는 일반 프로그램과 동일하게 진행되며 특별한 .. 2025. 12. 7. [k8] Storage class 정적 프로비저닝정적 프로비저닝은 말 그대로 수동으로 스토리지를 준비하는 방식입니다. 관리자가 미리 스토리지(디스크)를 만들어 두고, 그에 맞는 PV 정의 파일을 작성해야 합니다. 즉, 애플리케이션이 스토리지를 요청하기 전에 먼저 관리자가 다음과 같은 과정을 거칩니다.서버나 클라우드에서 실제 디스크를 생성그 디스크를 기반으로 하는 PV YAML 파일을 직접 작성쿠버네티스에 kubectl apply -f pv.yaml 로 등록이렇게 만들어진 PV를 개발자가 PVC에서 요청하면, 쿠버네티스는 해당 PV를 연결해줍니다.하지만 문제는 매번 수동으로 만들어야 한다는 점입니다. 새로운 애플리케이션이 생길 때마다 디스크를 만들고 PV를 작성해야 하니, 자동화나 확장성 측면에서는 한계가 있습니다. 동적 프로비저닝“매번 .. 2025. 10. 10. [k8] Node Affinity Kubernetes에서 파드를 배치할 때, 스케줄러는 클러스터 내의 여러 노드를 살펴보고 가장 적합한 노드를 선택합니다.하지만 때로는 단순히 “가장 여유 있는 노드”가 아니라, 특정 조건을 만족하는 노드에 파드를 배치하고 싶을 때가 있습니다.예를 들어,SSD 디스크를 사용하는 노드에서만 데이터베이스 파드를 실행하고 싶거나GPU가 있는 노드에만 AI 모델을 올리고 싶을 때,또는 특정 워크로드를 특정 영역(zone)이나 지역(region)의 노드에 제한하고 싶을 때가 그렇죠.이럴 때 사용하는 기능이 바로 Node Affinity입니다. Node Affinity는 Kubernetes의 스케줄링 규칙 중 하나로, 파드가 어떤 노드에 배치될지를 세밀하게 제어할 수 있게 해줍니다.기본적인 nodeSelector보다.. 2025. 10. 4. [k8] Taints와 Tolerations 쿠버네티스에서 Taints와 Tolerations는 파드가 특정 노드에 스케줄링될 수 있는지 여부를 제어하는 중요한 메커니즘입니다. 쉽게 말해, 노드에는 제한(taint)을 걸고, 파드에는 그 제한을 허용하는 설정(toleration)을 붙이는 방식으로 동작합니다. 쿠버네티스 스케줄러는 파드가 생성되면 사용 가능한 워커 노드 중 하나에 배치합니다. 특별한 제한이 없다면, 스케줄러는 파드를 모든 노드에 균등하게 분산하려고 합니다.예를 들어, 3개의 워커 노드와 파드 A, B, C, D가 있다고 가정해 보겠습니다. 아무런 제약이 없다면 파드들은 워커 노드 1, 2, 3에 고르게 배치됩니다.그런데 만약 워커 노드 1을 특정 애플리케이션 전용 노드로 사용하고 싶다면 어떻게 해야 할까요?노드에 Taint를 설정해.. 2025. 9. 28. 이전 1 2 3 4 ··· 9 다음