Storm


 * Storm 소개와 Twitter 사례

스트림 처리
http://highlyscalable.wordpress.com/2013/08/20/in-stream-big-data-processing/


 * 분산 데이터베이스 질의엔진과 스트림 처리 시스템은 공통의 핵심 기술(shuffling과 pipelining)을 가지고, 개념적으로 동일하게 동작한다. 그러나 신뢰성 측면에서, 읽기 질의를 항상 재시작할 수 있는 데이터베이스 질의엔진과 달리 스트림 처리 시스템은 다음을 고려해야 한다.
 * Stream Replay - 일정 시간 동안 입력을 저장하고, 필요할 때 출력의 일부를 폐기하고 처음부터 다시 계산
 * Lineage Tracking - 최소 한번을 처리하기위해 파이프라인 이력 추적
 * State Checkpointing - 정확히 한번만 처리하기위해
 * Additive State and Sketches - 결과의 가산 성질, 가산 성질이 없는 값을 가산화하기
 * Logical Time Tracking
 * Aggregation - in a Persistent Store (Cassandra가 join), on a Sliding Window (모든 값을 새로 계산할 필요없이, 오래된 값을 역적용하고 새로운 값을 적용)
 * 미래의 통합(배치+실시간질의+스트림) 빅데이터 도구 후보 - Apache Spark, Apache Tez (Pig와 Hive 등이 작업을 잘게 분해하여 파이프라인으로 처리할 수 있도록 세밀한 질의처리 명령 제공)