## AWS
- AWS IoT
- Lambda Fuction
- Kinesis Streams/ Firehose
- Glacier / S3
- Glue ETL
- EMR / Kinesis Analytics
- SageMaker
- RedShift / Elastic Search / Glue Catalog
- RDS / Dynamo DB
- Athena (EDA)
- QuickSight
## Azure
- Acure IoT Hub
- Azure Function
- Event Hub
- Azure Data Lake Store
- Data Explorer
- Databricks / Stream Analytics
- Azure ML
- Cosmos DB / Azure SQL / Data Catalog
- Azure Redis Cache
- Azure ML Designer/Studio (EDA)
- Power BI
## GCP
- Cloud IoT
- Cloud Function
- PubSub
- Cloud Storage
- DataPrep
- DataProc / DataFlow
- AutoML
- Cloud Datastore / Bigtable
- BigQuery / Data Catalog
- Cloud SQL / Memory-store
- Colab (EDA)
- Datalab / DataStudio
============================================================================================
## Data Flow 이해해보기
- AWS 기준으로 흐름도를 따라가보려 한다.
1. 데이터 레이크
- AWS IoT : IoT 디바이스를 다른 디바이스에 연결하는 클라우드 서비스와 AWS 클라우드 서비스
- Lambda Function : 서버리스(개발자가 서버를 관리할 필요 없이 applciation build 및 실행할 수 있도록 하는 Cloud Native 개발 모델) 컴퓨팅 FaaS(Function as a Service).
- Kinesis : 실시간으로 데이터 스트림을 수집, 처리, 분석해주는 서비스
- Data Streams : 데이터 스트림 수집 및 저장. 샤드 수로 스트림 유입량 조절 가능
- Data Firehose : 데이터 스트림 처리 및 전송. 스트리밍 데이터를 분석하고, Kinesis를 통해 AWS S3 또는 AWS RedShift로 전송이 가능하다.
2. 데이터 스토리지
- S3 : 인터넷용 스토리지 서비스 (Simple Storage Service). 제공되는 단순한 웹 서비스 인터페이스를 사용해서 웹에서 언제 어디서나 원하는 양의 데이터를 저장 및 검색할 수 있다.
- Glacier : 아카이브 백업 데이터를 주 목적으로 하는 스토리지 서비스.
3. 데이터 준비 및 계산
- Glue : ETL(Extract Transform Load) 서비스. AWS Glue Data Catalog라는 중앙 메타데이터 저장소 DB를 통해 모든 데이터를 한곳에 모아 ETL 작업을 할 수 있도록 제공.
- EMR : Elastic MapReduce. 완전관리형 빅데이터 플랫폼. Hadoop, Spark 등 오픈소스 프레임워크를 규모에 구애받지 않고 원하는 용량으로 쉽게 생성이 가능하게 한다.
- SageMaker : AI Machine learning을 보조하는 완전 관리형 기계 학습 서비스.
4. 데이터 웨어하우스
- RedShift : AWS의 MPP (Massive Parallel Processing) DB이다. 완전관리형으로 제공해주는 클라우드 데이터 웨어하우스이며, 클러스터를 생성 및 데이터 적재/분석 가능하다.
- Elastic Search : 아파치 루씬 기반의 검색 엔진이며, 페타바이트의 데이터 처리가 가능하거나 키워드를 통해 문서를 찾아낼 수 있다.
- Glue Catalog : 위에 Glue에서 설명한 중앙 메타데이터 저장소 DB. Glue의 영구적 metadata store이며, 테이블 정의, 작업 정의 및 기타 관리 정보를 포함하여 Glue 환경을 관리한다.
- RDS : AWs의 Relational Database Service(관계형 데이터베이스). MySQL, Oracle DB, PostgreSQL, MariaDB 등을 제공하며, AWS측에서 DB 인프라 및 업데이트를 관리해주며 설치, 운영, 관리 등의 서비스를 지원한다.
- Dynamo DB : AWS에서 제공하는 서버리스 기반 key-value NoSQL 데이터베이스.
5. EDA (탐색적 데이터 분석)
- Athena : RDBMS와 동일하게 친숙한 표준 SQL을 사용해서 AWS S3에 저장된 데이터를 간편하게 분석할 수 있는 대화식 쿼리 서버리스 서비스.
6. 데이터 시각화
- QuickSight : 어떠한 데이터를 사용할지에 대해 data set을 설정해주면, 차트 및 그래프 형태로 데이터를 시각화하고 분석해내는 클라우드 기반 데이터 시각화 도구