kafka

[Kafka] Kafka 고급 활용 학습

JABHACK 2025. 2. 3. 20:42

2025. 2. 3. 20:42

Kafka 고급 활용 학습

Kafka를 실무에서 대규모 데이터 처리, 장기 보관, 멀티 데이터센터 운영까지 확장하려면 Flink/Spark 연동, Schema Registry, Tiered Storage, Cross-Cluster Kafka 등의 개념을 이해해야 합니다.

📌 1. Kafka + Flink/Spark (실시간 데이터 처리 프레임워크 연동)

Kafka는 Flink, Spark와 결합하여 실시간 데이터 처리 시스템을 구축할 수 있습니다.

🔹 Kafka + Apache Flink

Apache Flink는 저지연 실시간 데이터 스트리밍 처리에 최적화된 프레임워크입니다.

특징	설명
실시간 스트리밍	Kafka에서 데이터를 받아 실시간 분석
상태 기반 처리	이벤트의 상태를 저장하여 복잡한 계산 수행 가능
Exactly-once 처리	정확히 한 번만 처리 (Kafka와 잘 호환됨)

✅ Flink + Kafka 예제

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream<String> stream = env.addSource(new FlinkKafkaConsumer<>("input-topic", new SimpleStringSchema(), properties));
stream.map(value -> "Processed: " + value).addSink(new FlinkKafkaProducer<>("output-topic", new SimpleStringSchema(), properties));
env.execute();

Kafka에서 데이터를 읽고, **"Processed: "**를 붙여 새로운 Kafka Topic에 저장

🔹 Kafka + Apache Spark Streaming

Apache Spark Streaming은 마이크로 배치(Micro-Batch) 기반 실시간 분석 프레임워크입니다.

특징	설명
마이크로 배치 처리	일정한 시간 간격으로 데이터를 묶어서 처리
대규모 데이터 분석 가능	머신러닝 및 데이터 분석과 결합 가능
고가용성	데이터 손실 없이 복구 가능

✅ Spark Streaming + Kafka 예제

from pyspark.sql import SparkSession
from pyspark.sql.functions import explode, split

spark = SparkSession.builder.appName("KafkaSpark").getOrCreate()
df = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092").option("subscribe", "input-topic").load()
df.selectExpr("CAST(value AS STRING)").writeStream.format("console").start().awaitTermination()

✅ Kafka에서 데이터를 받아 Spark Streaming으로 실시간 출력

🔹 Kafka + Flink vs Kafka + Spark Streaming

비교 항목	Kafka + Flink	Kafka + Spark Streaming
처리 방식	이벤트 단위(저지연)	마이크로 배치
처리 속도	빠름 (ms 단위)	배치 기반 (초 단위)
상태 관리	지원 (Stateful Processing)	기본 지원 X (별도 구현 필요)
적용 사례	IoT, 실시간 모니터링	로그 분석, 머신러닝

✅ 실시간 저지연 처리는 Flink, 대규모 데이터 분석은 Spark가 유리

📌 2. Kafka Schema Registry (Avro/JSON Schema 관리)

Kafka에서는 데이터 형식(스키마)을 표준화하여 비호환성을 방지해야 합니다.
이를 위해 Schema Registry를 사용합니다.

🔹 Schema Registry란?

JSON, Avro, Protocol Buffers와 함께 사용
스키마 변경(버전 관리) 지원
Kafka Producer-Consumer 간의 데이터 구조 일관성 유지

🔹 Avro 스키마 예제

{
  "type": "record",
  "name": "User",
  "fields": [
    {"name": "id", "type": "int"},
    {"name": "name", "type": "string"}
  ]
}

✅ Kafka 메시지가 Avro 형식을 따르도록 강제

🔹 Schema Registry 적용 방식

Kafka Producer가 메시지를 Avro 형식으로 직렬화
Schema Registry에 스키마를 저장
Consumer가 메시지를 받을 때 스키마를 확인 후 역직렬화

✅ Schema Registry를 사용하면 Kafka 메시지 형식을 통합하여 데이터 충돌을 방지할 수 있습니다.

📌 3. Kafka Tiered Storage (장기 보관 데이터를 위한 스토리지 옵션)

Kafka는 기본적으로 디스크 기반 로그 저장을 사용하지만, 장기간 데이터를 보관하려면 추가 스토리지가 필요합니다.
이를 위해 **Tiered Storage(계층형 스토리지)**를 사용할 수 있습니다.

🔹 Kafka Tiered Storage 개념

계층	설명
Hot Storage (빠른 디스크)	SSD, NVMe 기반 저장소 (저지연)
Warm Storage (HDD, NAS)	주기적으로 접근하는 데이터
Cold Storage (클라우드, S3, HDFS)	장기 보관 (비용 절감)

🔹 Kafka Tiered Storage 활용 예제

단기 데이터(최근 7일) → Kafka Broker 디스크 저장
장기 데이터(6개월 이상) → AWS S3, HDFS로 이전

✅ Kafka Tiered Storage를 사용하면 스토리지 비용을 줄이고, 장기 데이터를 효율적으로 관리 가능

📌 4. Kafka Streams vs Flink (스트리밍 데이터 처리 비교)

Kafka Streams와 Flink는 모두 Kafka 데이터를 처리하는 스트리밍 프레임워크지만 차이가 있습니다.

비교 항목	Kafka Streams	Apache Flink
Kafka 통합	Kafka 전용	Kafka 포함 가능
처리 방식	이벤트 기반 (Stream Processing)	저지연 스트리밍
배포 방식	애플리케이션 내장	클러스터 필요
상태 관리	RocksDB 기반	Flink State Backend
적용 사례	간단한 스트리밍	복잡한 이벤트 분석

✅ Kafka Streams는 Kafka에 최적화된 경량 솔루션, Flink는 대규모 실시간 분석에 적합

📌 5. Cross-Cluster Kafka (여러 데이터센터에서 Kafka 활용)

Kafka를 멀티 데이터센터 환경에서 운영하려면 Cross-Cluster Kafka를 설정해야 합니다.

🔹 Cross-Cluster Kafka 아키텍처

Active-Active: 여러 데이터센터에서 Kafka가 독립적으로 운영되며, 양방향 복제 지원
Active-Passive: 한쪽 Kafka 클러스터에서 데이터를 처리하고, 다른 데이터센터로 백업
MirrorMaker 2: Kafka 클러스터 간 데이터 복제를 위한 도구

🔹 MirrorMaker 2를 이용한 Kafka 복제

bin/connect-mirror-maker.sh config/mirror-maker.properties

✅ Kafka 데이터를 원격 데이터센터로 자동 복제 가능

🔹 Cross-Cluster Kafka 적용 사례

사례	설명
DR(재해 복구) 구성	장애 발생 시 데이터 손실 없이 백업 가능
데이터 글로벌 동기화	미국, 유럽, 아시아 간 실시간 데이터 동기화
로드 밸런싱	여러 데이터센터에서 Kafka를 분산 운영

✅ Cross-Cluster Kafka를 활용하면 글로벌 시스템에서도 안정적인 데이터 스트리밍이 가능

✅ 정리

학습 주제	설명
Kafka + Flink/Spark	실시간 데이터 처리 프레임워크와 결합
Kafka Schema Registry	Avro/JSON Schema 관리
Kafka Tiered Storage	장기 보관 데이터를 위한 스토리지 옵션
Kafka Streams vs Flink	스트리밍 데이터 처리 비교
Cross-Cluster Kafka	여러 데이터센터에서 Kafka 활용

이제 Kafka를 대규모 데이터 처리, 글로벌 운영 환경에서도 활용할 수 있습니다! 🚀

저작자표시 비영리 동일조건 (새창열림)

'kafka' 카테고리의 다른 글

[Kafka] Kafka 운영 및 최적화 학습 (0)	2025.02.03
[Kafka] Kafka 개념 및 기초 학습 (0)	2025.02.03
[Kafka] 학습 로드맵 (0)	2025.02.03

[Kafka] Kafka 운영 및 최적화 학습

JABHACK 2025. 2. 3. 20:38

2025. 2. 3. 20:38

Kafka 운영 및 최적화 학습

Kafka를 실무에서 운영할 때는 클러스터 구성, 성능 튜닝, 보안 설정, 모니터링 및 관리 API 활용이 중요합니다.
이제 Kafka를 운영 및 최적화하는 방법을 학습해 보겠습니다.

📌 1. Kafka 클러스터 구성 (Multi-Broker 설정 및 운영)

Kafka는 분산 시스템이므로 여러 개의 Broker를 구성하여 고가용성(HA)을 확보해야 합니다.

📌 Broker란?

Kafka에서 **Broker(브로커)**는 메시지를 저장하고 관리하는 서버입니다.
Kafka 클러스터는 여러 개의 Broker로 구성될 수 있으며, 각 Broker는 특정 Topic의 Partition을 저장 및 관리합니다.

🔹 Broker의 역할

Producer로부터 메시지를 받아서 저장
Consumer 요청을 처리하여 메시지를 제공
Partition을 관리하고, Replication(복제)을 수행
클러스터 내에서 리더 선출 및 장애 조치(Failover) 기능 수행

🔹 Kafka 클러스터에서 Broker의 역할

Kafka 클러스터는 여러 개의 Broker가 서로 협력하여 메시지를 분산 처리하는 구조입니다.

예를 들어 3개의 Broker가 있는 Kafka 클러스터를 생각해보겠습니다.

Producer → Broker 1 (Partition 0 - Leader)
         → Broker 2 (Partition 1 - Leader)
         → Broker 3 (Partition 2 - Leader)

Producer는 데이터를 Broker 1, 2, 3에 분산 저장
각 Partition은 하나의 Leader Broker를 갖고 있으며, 다른 Broker는 복제본(Replica)을 저장
Consumer는 Leader Broker로부터 데이터를 읽음

✅ Broker를 여러 개 운영하면 데이터 부하를 분산하여 성능을 높일 수 있습니다.

📌 고가용성(HA, High Availability)이란?

**고가용성(HA, High Availability)**이란 시스템이 장애 없이 지속적으로 운영될 수 있는 능력을 의미합니다.

🔹 Kafka에서 HA(고가용성)를 보장하는 방법

Kafka는 Replication Factor(복제 개수)와 ISR(In-Sync Replicas) 개념을 활용하여 고가용성을 보장합니다.

Replication Factor 설정
- Replication Factor = 3으로 설정하면 각 메시지가 3개의 Broker에 복제됨
- 하나의 Broker가 다운되더라도 다른 Broker가 데이터를 보존하고 장애 복구 가능
ISR(In-Sync Replicas) 활용
- ISR(동기화된 복제본)이 유지되도록 설정하여 데이터 유실 방지
Failover(장애 조치)
- 만약 Leader Broker가 다운되면, ISR 중 하나가 새로운 Leader로 자동 승격됨
- Consumer는 새로운 Leader에서 데이터를 읽어옴

📌 Kafka 고가용성(HA) 예제

3개의 Broker를 운영하고 Replication Factor를 3으로 설정

bin/kafka-topics.sh --create --topic ha-topic --bootstrap-server localhost:9092 --partitions 3 --replication-factor 3

Leader Broker가 다운되었을 때 새로운 Leader 자동 선출

bin/kafka-leader-election.sh --bootstrap-server localhost:9092 --election-type preferred

✅ Kafka 클러스터를 운영할 때 여러 개의 Broker와 Replication 설정을 활용하면 장애 발생 시에도 데이터 유실 없이 운영 가능합니다. 🚀

🔹 Multi-Broker 설정

Kafka를 3개의 Broker로 구성하려면 각 Broker별로 설정 파일을 수정해야 합니다.

# server-1.properties
broker.id=1
listeners=PLAINTEXT://:9092
log.dirs=/var/lib/kafka/data1
zookeeper.connect=localhost:2181

# server-2.properties
broker.id=2
listeners=PLAINTEXT://:9093
log.dirs=/var/lib/kafka/data2
zookeeper.connect=localhost:2181

# server-3.properties
broker.id=3
listeners=PLAINTEXT://:9094
log.dirs=/var/lib/kafka/data3
zookeeper.connect=localhost:2181

🔹 클러스터 실행

bin/kafka-server-start.sh config/server-1.properties &
bin/kafka-server-start.sh config/server-2.properties &
bin/kafka-server-start.sh config/server-3.properties &

✅ 여러 개의 Broker를 실행하면 Kafka 클러스터가 구성됩니다.

📌 2. Replication & Fault Tolerance (Replication Factor, ISR 개념)

Kafka는 **데이터 복제(Replication)**를 통해 장애 발생 시에도 데이터를 보호합니다.

🔹 Replication Factor란?

Replication Factor = 3 → 동일한 메시지가 3개의 Broker에 복제됨
하나의 Broker가 다운되더라도 다른 Broker에서 데이터를 복구 가능

🔹 ISR (In-Sync Replicas) 개념

ISR(In-Sync Replicas): 리더와 동기화된 복제본 리스트
AR(All Replicas): 모든 복제본 목록
ISR이 줄어들면 데이터 손실 위험 증가

🔹 Replication Factor 설정

bin/kafka-topics.sh --create --topic replicated-topic --bootstrap-server localhost:9092 --partitions 3 --replication-factor 3

✅ 3개의 Broker에 대해 3개의 Partition을 만들고, Replication Factor를 3으로 설정

📌 3. Kafka 성능 튜닝 (배치 전송, 압축 설정, Consumer Lag 모니터링)

Kafka 성능을 최적화하려면 배치 전송, 압축 설정, Consumer Lag 모니터링이 중요합니다.

🔹 배치 전송 최적화

batch.size=16384  # 메시지를 배치로 묶어서 전송
linger.ms=10      # 일정 시간 동안 배치를 기다린 후 전송

✅ batch.size를 증가시키면 네트워크 호출을 줄이고 성능 향상

🔹 메시지 압축 (Compression)

compression.type=snappy  # snappy, gzip, lz4 사용 가능

✅ 압축을 사용하면 네트워크 비용 절감 가능

🔹 Consumer Lag 모니터링

Consumer Lag: Consumer가 Producer보다 늦게 메시지를 소비하는 정도
Lag이 크면 지연 발생
확인 방법:

bin/kafka-consumer-groups.sh --describe --group my-group --bootstrap-server localhost:9092

📌 4. Security 설정 (SASL, TLS, ACL 적용)

Kafka는 기본적으로 보안이 설정되어 있지 않으므로 SASL, TLS, ACL을 적용해야 합니다.

🔹 1) TLS 설정 (데이터 암호화)

TLS를 활성화하려면 server.properties 수정

ssl.keystore.location=/etc/kafka/kafka.keystore.jks
ssl.keystore.password=mypassword
ssl.truststore.location=/etc/kafka/kafka.truststore.jks
ssl.truststore.password=mypassword

✅ TLS를 설정하면 Kafka 메시지가 암호화되어 안전한 통신 가능

🔹 2) SASL 설정 (사용자 인증)

security.inter.broker.protocol=SASL_SSL
sasl.mechanism.inter.broker.protocol=PLAIN

✅ SASL을 사용하면 사용자 인증을 추가하여 보안 강화

🔹 3) ACL 설정 (권한 관리)

bin/kafka-acls.sh --authorizer-properties zookeeper.connect=localhost:2181 --add --allow-principal User:admin --operation Read --topic test-topic

✅ 특정 사용자가 특정 Topic에 접근할 수 있도록 ACL 적용

📌 5. Kafka Metrics & Monitoring (Prometheus, Grafana 활용)

Kafka 운영에서는 메트릭을 수집하고 시각화하는 것이 필수적입니다.

🔹 1) Prometheus + Grafana 모니터링

Kafka에서 JMX Exporter를 사용하여 Prometheus로 메트릭을 전송할 수 있습니다.

# JMX Exporter 실행
java -javaagent:/opt/jmx_exporter/jmx_prometheus_javaagent-0.16.1.jar=7071:/opt/jmx_exporter/kafka-config.yml -jar kafka_2.13-3.6.0/libs/kafka.jar

✅ JMX Exporter를 사용하면 Kafka 메트릭을 Prometheus로 전송

🔹 2) Kafka Manager (웹 UI 관리)

docker run -d -p 9000:9000 sheepkiller/kafka-manager

✅ http://localhost:9000 에서 Kafka 클러스터 상태를 확인 가능

📌 6. Kafka Admin API 활용 (클러스터 상태 점검 및 동적 설정 변경)

Kafka Admin API를 사용하면 Topic, Broker 설정을 동적으로 관리할 수 있습니다.

🔹 1) Kafka Admin Client를 활용한 Topic 생성

AdminClient adminClient = AdminClient.create(props);
NewTopic newTopic = new NewTopic("new-topic", 3, (short) 3);
adminClient.createTopics(Collections.singleton(newTopic));

✅ 코드를 통해 Kafka 토픽을 동적으로 생성 가능

🔹 2) Topic 정보 조회

DescribeTopicsResult result = adminClient.describeTopics(Collections.singleton("test-topic"));

✅ 특정 Topic의 메타데이터를 조회

🔹 3) Broker 설정 변경

ConfigResource configResource = new ConfigResource(ConfigResource.Type.BROKER, "1");
ConfigEntry configEntry = new ConfigEntry("log.retention.hours", "48");
Map<ConfigResource, Collection<ConfigEntry>> updateConfig = Collections.singletonMap(configResource, Collections.singleton(configEntry));
adminClient.alterConfigs(updateConfig);

✅ Broker 설정을 동적으로 변경 가능

✅ 정리

학습 주제	설명
Kafka 클러스터 구성	Multi-broker 설정 및 운영
Replication & Fault Tolerance	Replication Factor, ISR 개념
Kafka 성능 튜닝	배치 전송, 압축 설정, Consumer Lag 모니터링
Security 설정	SASL, TLS, ACL 적용
Kafka Metrics & Monitoring	Prometheus, Grafana를 이용한 모니터링
Kafka Admin API 활용	클러스터 상태 점검 및 동적 설정 변경

Kafka를 실무에서 운영하기 위해 클러스터 설정, 보안 강화, 성능 최적화, 모니터링 및 관리 API 활용을 학습해야 합니다.
이제 Kafka를 대규모 트래픽 환경에서도 안정적으로 운영할 준비가 되었습니다! 🚀

저작자표시 비영리 동일조건 (새창열림)

'kafka' 카테고리의 다른 글

[Kafka] Kafka 고급 활용 학습 (0)	2025.02.03
[Kafka] Kafka 개념 및 기초 학습 (0)	2025.02.03
[Kafka] 학습 로드맵 (0)	2025.02.03

[Kafka] Kafka 개념 및 기초 학습

JABHACK 2025. 2. 3. 20:30

2025. 2. 3. 20:30

Kafka 개념 및 기초 학습

Kafka를 학습하는 첫 단계로, Kafka가 무엇인지, 기존 메시지 큐와의 차이점, 기본적인 아키텍처 및 메시지 처리 방식을 이해하는 것이 중요합니다.
아래 내용을 따라가며 하나씩 익혀보세요.

📌 1. Kafka란 무엇인가? 어떤 문제를 해결하는가?

🔹 Kafka의 정의

Apache Kafka는 대량의 데이터를 빠르고 안정적으로 처리할 수 있는 분산 메시징 시스템입니다.
Pub/Sub(발행-구독) 모델을 기반으로 하며, 실시간 데이터 스트리밍과 로그 수집, 데이터 파이프라인 구축 등에 사용됩니다.

🔹 Kafka가 해결하는 문제

대량의 데이터 처리
- 기존 메시지 큐(RabbitMQ, ActiveMQ)로는 수천만 개 이상의 메시지를 처리하기 어려움
실시간 데이터 스트리밍
- Kafka는 이벤트 기반 시스템으로 실시간 분석 및 데이터 처리 가능
확장성 문제 해결
- Kafka는 분산 아키텍처 기반으로 확장성이 뛰어남
데이터 손실 최소화
- 디스크 기반 로그 저장을 사용하여 장애 발생 시 데이터 유실을 최소화

📌 2. Kafka vs 메시지 큐(RabbitMQ, ActiveMQ)

비교 항목	Kafka	RabbitMQ / ActiveMQ
데이터 처리 모델	Pub/Sub (스트리밍 중심)	큐 기반 (비동기 메시징)
메시지 저장 방식	디스크 로그 기반 저장 (장기 보관 가능)	메시지 소모 후 삭제
확장성	분산 시스템 (수평 확장 용이)	노드 추가 시 관리 복잡
사용 사례	실시간 데이터 분석, 로그 수집, 이벤트 스트리밍	요청-응답 비동기 메시징
메시지 소비 방식	Consumer Group 활용 (병렬 처리 가능)	1:1 혹은 Pub/Sub 모델
메시지 순서 보장	Partition 단위에서 순서 유지	일반적으로 순서 보장 없음
성능	초당 수백만 TPS 가능	수십만 TPS 수준
내구성 (Durability)	디스크에 저장하여 복구 가능	메시지 소비 후 삭제

📌 결론:

Kafka는 고성능, 확장성, 실시간 데이터 처리가 필요한 경우 유리
RabbitMQ, ActiveMQ는 단순한 비동기 메시징(예: 주문 처리, 트랜잭션 큐) 용도로 적합

📌 3. Kafka 아키텍처 (Broker, Producer, Consumer, Topic, Partition, Offset)

Kafka는 분산 아키텍처로 동작하며, 주요 구성 요소는 다음과 같습니다.

🔹 Kafka의 주요 구성 요소

구성 요소 설명

구성 요소	설명
Broker	Kafka 서버 역할 (메시지 저장 및 관리)
Producer	메시지를 Kafka에 전송하는 클라이언트
Consumer	메시지를 구독(소비)하는 클라이언트
Topic	메시지가 저장되는 논리적 공간 (카테고리)
Partition	Topic을 나누어 여러 Broker에 분산 저장
Offset	메시지의 고유한 위치 (Consumer가 어디까지 읽었는지 저장)

🔹 Kafka 데이터 흐름

Producer가 Topic에 메시지를 전송
Topic은 여러 개의 Partition으로 나뉘어 저장됨
Broker가 Partition을 관리하고 데이터 저장
Consumer는 특정 Topic을 구독하여 메시지를 가져감
메시지의 위치(Offset)를 사용하여 데이터를 추적

🔹 Kafka 구조 예시

Producer → [ Kafka Topic (Partition 0, 1, 2) ] → Consumer Group

Producer가 메시지를 Kafka Topic에 전송
Topic은 여러 개의 Partition으로 나뉘어 Broker에 분산 저장
Consumer Group이 메시지를 읽고 처리

📌 4. 메시지 처리 방식 (Pub/Sub 모델 및 Consumer Group)

Kafka는 Pub/Sub(발행-구독) 모델을 사용합니다.

🔹 Pub/Sub 모델 (Publish-Subscribe)

Producer가 메시지를 Topic에 게시
여러 개의 Consumer가 메시지를 구독 가능
Consumer Group을 활용하여 메시지를 병렬로 처리 가능

🔹 Consumer Group 활용

Kafka에서는 Consumer Group을 사용하여 메시지를 효과적으로 분산 처리합니다.

Consumer	Group 방식 설명
Single Consumer	하나의 Consumer가 모든 메시지를 소비
Multiple Consumers	여러 개의 Consumer가 각기 다른 Partition을 소비
Consumer Group	여러 Consumer가 하나의 그룹으로 묶여 병렬 처리

예시

Topic에 3개의 Partition이 있고, **2개의 Consumer(C1, C2)**가 있다면:
- C1이 Partition 0, 1을 소비
- C2가 Partition 2를 소비

장점: Consumer Group을 사용하면 부하를 분산하여 처리 속도를 향상할 수 있습니다.

📌 5. Kafka 설치 및 실행 (로컬 & Docker)

Kafka를 실습하려면 직접 설치하고 실행해보는 것이 중요합니다.

🔹 Kafka 로컬 설치 (Zookeeper 포함)

# Kafka 다운로드
wget https://downloads.apache.org/kafka/3.6.0/kafka_2.13-3.6.0.tgz
tar -xzf kafka_2.13-3.6.0.tgz
cd kafka_2.13-3.6.0

# Zookeeper 실행
bin/zookeeper-server-start.sh config/zookeeper.properties &

# Kafka 실행
bin/kafka-server-start.sh config/server.properties &

🔹 Docker로 Kafka 실행

docker-compose up -d

📌 Docker-Compose 예시 파일

version: '3'
services:
  zookeeper:
    image: wurstmeister/zookeeper
    ports:
      - "2181:2181"

  kafka:
    image: wurstmeister/kafka
    ports:
      - "9092:9092"
    environment:
      KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181
      KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://localhost:9092

📌 6. 기본 CLI 명령어 (Topic 생성, 메시지 전송 및 소비 테스트)

Kafka의 기본 명령어를 사용하여 직접 테스트해봅니다.

🔹 Topic 생성

bin/kafka-topics.sh --create --topic test-topic --bootstrap-server localhost:9092 --partitions 3 --replication-factor 1

🔹 Producer 메시지 전송

bin/kafka-console-producer.sh --topic test-topic --bootstrap-server localhost:9092
> Hello Kafka!  # 메시지 입력 후 Enter

🔹 Consumer 메시지 수신

bin/kafka-console-consumer.sh --topic test-topic --bootstrap-server localhost:9092 --from-beginning

출력 예시:
Hello Kafka!

✅ 정리

주제	요약
Kafka 개념	대량 데이터 처리, 실시간 스트리밍을 위한 분산 메시징 시스템
Kafka vs 메시지 큐	메시지 큐(RabbitMQ)보다 확장성과 성능이 뛰어남
Kafka 아키텍처	Producer → Topic(Partition) → Consumer Group 구조
Pub/Sub 모델	다수의 Consumer가 메시지를 병렬 처리 가능
Kafka 설치	로컬 또는 Docker로 쉽게 실행 가능
CLI 테스트	Topic 생성, 메시지 전송 및 소비

Kafka의 기본 개념과 동작 방식이 이해되었다면, 이제 실제 애플리케이션과 연동하는 방법을 학습하면 좋습니다! 🚀

저작자표시 비영리 동일조건 (새창열림)

'kafka' 카테고리의 다른 글

[Kafka] Kafka 고급 활용 학습 (0)	2025.02.03
[Kafka] Kafka 운영 및 최적화 학습 (0)	2025.02.03
[Kafka] 학습 로드맵 (0)	2025.02.03

[Kafka] 학습 로드맵

JABHACK 2025. 2. 3. 20:21

Kafka를 활용한 실전 프로젝트를 진행하면서 실무에서 활용할 수 있습니다.

📚 학습 내용

학습 주제	설명
실무 프로젝트 구현	로그 수집, 이벤트 스트리밍, IoT 데이터 처리
Kafka 성능 이슈 해결	Consumer Lag, Offset Reset, Partition 관리
대량 트래픽 처리 사례 분석	Netflix, LinkedIn의 Kafka 활용 사례
Kafka와 클라우드	AWS MSK, GCP Pub/Sub와 비교

✅ Kafka 학습 로드맵 정리

단계	학습 내용	목표
1단계	Kafka 기본 개념, 아키텍처 이해	Kafka가 무엇인지 이해
2단계	프로듀서/컨슈머 개발, Kafka Streams	Kafka 연동 및 데이터 처리
3단계	클러스터 운영, 보안 설정, 성능 튜닝	Kafka 운영 및 최적화
4단계	대규모 데이터 처리, 실시간 분석	Kafka 확장 및 고급 활용
5단계	실무 적용, 프로젝트 사례 학습	Kafka를 실무에 적용

📌 Kafka를 학습해야 하는 이유

대규모 데이터 처리: 실시간 로그 분석, 이벤트 스트리밍 등에 필수
높은 확장성: 분산 환경에서 효율적으로 동작
다양한 연동성: Spark, Flink, Hadoop 등과 손쉽게 연결 가능
빠른 데이터 처리: 수백만 TPS(초당 트랜잭션)까지 가능

이 로드맵을 따라가면 Kafka의 기본 개념부터 실무 적용까지 단계적으로 학습할 수 있습니다.
각 단계별로 실습을 병행하며 진행하면 더욱 효과적인 학습이 가능합니다! 🚀

저작자표시 비영리 동일조건 (새창열림)

'kafka' 카테고리의 다른 글

[Kafka] Kafka 고급 활용 학습 (0)	2025.02.03
[Kafka] Kafka 운영 및 최적화 학습 (0)	2025.02.03
[Kafka] Kafka 개념 및 기초 학습 (0)	2025.02.03

PREV 이전 1 NEXT 다음

잡학다식 개발일지

kafka

[Kafka] Kafka 고급 활용 학습

Kafka 고급 활용 학습

📌 1. Kafka + Flink/Spark (실시간 데이터 처리 프레임워크 연동)

🔹 Kafka + Apache Flink

🔹 Kafka + Apache Spark Streaming

📌 2. Kafka Schema Registry (Avro/JSON Schema 관리)

🔹 Schema Registry란?

🔹 Avro 스키마 예제

🔹 Schema Registry 적용 방식

📌 3. Kafka Tiered Storage (장기 보관 데이터를 위한 스토리지 옵션)

🔹 Kafka Tiered Storage 개념

🔹 Kafka Tiered Storage 활용 예제

📌 4. Kafka Streams vs Flink (스트리밍 데이터 처리 비교)

📌 5. Cross-Cluster Kafka (여러 데이터센터에서 Kafka 활용)

🔹 Cross-Cluster Kafka 아키텍처

🔹 MirrorMaker 2를 이용한 Kafka 복제

🔹 Cross-Cluster Kafka 적용 사례

✅ 정리

'kafka' 카테고리의 다른 글

[Kafka] Kafka 운영 및 최적화 학습

Kafka 운영 및 최적화 학습

📌 1. Kafka 클러스터 구성 (Multi-Broker 설정 및 운영)

📌 Broker란?

🔹 Broker의 역할

🔹 Kafka 클러스터에서 Broker의 역할

📌 고가용성(HA, High Availability)이란?

🔹 Kafka에서 HA(고가용성)를 보장하는 방법

📌 Kafka 고가용성(HA) 예제

🔹 Multi-Broker 설정

🔹 클러스터 실행

📌 2. Replication & Fault Tolerance (Replication Factor, ISR 개념)

🔹 Replication Factor란?

🔹 ISR (In-Sync Replicas) 개념

🔹 Replication Factor 설정

📌 3. Kafka 성능 튜닝 (배치 전송, 압축 설정, Consumer Lag 모니터링)

🔹 배치 전송 최적화

🔹 메시지 압축 (Compression)

🔹 Consumer Lag 모니터링

📌 4. Security 설정 (SASL, TLS, ACL 적용)

🔹 1) TLS 설정 (데이터 암호화)

🔹 2) SASL 설정 (사용자 인증)

🔹 3) ACL 설정 (권한 관리)

📌 5. Kafka Metrics & Monitoring (Prometheus, Grafana 활용)

🔹 1) Prometheus + Grafana 모니터링

🔹 2) Kafka Manager (웹 UI 관리)

📌 6. Kafka Admin API 활용 (클러스터 상태 점검 및 동적 설정 변경)

🔹 1) Kafka Admin Client를 활용한 Topic 생성

🔹 2) Topic 정보 조회

🔹 3) Broker 설정 변경

✅ 정리

'kafka' 카테고리의 다른 글

[Kafka] Kafka 개념 및 기초 학습

Kafka 개념 및 기초 학습

📌 1. Kafka란 무엇인가? 어떤 문제를 해결하는가?

🔹 Kafka의 정의

🔹 Kafka가 해결하는 문제

📌 2. Kafka vs 메시지 큐(RabbitMQ, ActiveMQ)

📌 3. Kafka 아키텍처 (Broker, Producer, Consumer, Topic, Partition, Offset)

🔹 Kafka의 주요 구성 요소

🔹 Kafka 데이터 흐름

📌 4. 메시지 처리 방식 (Pub/Sub 모델 및 Consumer Group)

🔹 Pub/Sub 모델 (Publish-Subscribe)

🔹 Consumer Group 활용

📌 5. Kafka 설치 및 실행 (로컬 & Docker)

🔹 Kafka 로컬 설치 (Zookeeper 포함)

🔹 Docker로 Kafka 실행

📌 6. 기본 CLI 명령어 (Topic 생성, 메시지 전송 및 소비 테스트)

🔹 Topic 생성

🔹 Producer 메시지 전송

🔹 Consumer 메시지 수신

✅ 정리

'kafka' 카테고리의 다른 글

[Kafka] 학습 로드맵

Kafka 학습 로드맵

📌 1단계: 기본 개념 이해 (입문자용)

🔹 핵심 목표

📚 학습 내용

📌 2단계: 실전 사용 및 개발 (초급 ~ 중급)