Lewis's Tech Keep

[kafka] 기본적인 단어 정리 본문

카테고리 없음

[kafka] 기본적인 단어 정리

Lewis Seo 2021. 12. 6. 23:58
카프카?

카프카는 분산 스트리밍 데이터 플랫폼이다.

 

스트리밍 데이터 : 비즈니스, SNS 등 다양한 어플리케이션에 의해 실시간 정보는 끊임없이 생성된다

 

  • 요즘은 데이터가 이벤트성으로 여기저기서 발생을 함
  • 이 데이터들을 가치있는 value로 만들기 위해서는 데이터들을 하나의 스트리밍화 시켜서 담아서 데이터 파이프라인을 구축하는 것
  • 스트리밍 데이터 처리는 실시간 데이터 처리를 내포하고 있음
브로커?

카프카 저장소의 노드 역할을 수행한다.

 

토픽?

페이지 캐싱 형태의 데이터 임시 저장소 (in memory 형태)

 

파티션?

고가용성을 위해 저장소 안에 분리 되어진 공간 (토픽이 날라갔을 때 복귀를 파티션이 커버)

 

주키퍼

주키퍼는 분산 코디네이터 서비스를 제공하는 오픈소스 시스템이다.

서버의 상태를 감지하기 위해 사용되며 새로운 토픽이 생성되었을 때, 토픽의 생성과 소비에 대한 상태를 저장한다.

 

 


여담

 

주키퍼는 카프카에서 없어질 수 있다. 이유 링크

=> 주키퍼 자체의 문제는 없음

=> 하지만 주키퍼 자체가 카프카 안에서 관리하는 것이 아니라 외부에 있기 때문에 메타데이터 관리에 있어 이슈가 있다.

=> 주키퍼를 이용할 때 최소 3개 이상의 프로세스를 실행하게 된다.

=> 주키퍼의 데이터는 카프카의 컨트롤러에 반영되어야 하고 이는 이중 캐싱으로 이어진다.

 

Comments