๐ฝ ๋ฐ์ดํฐ๋ธ๋ฆญ์ค๋ฅผ "์๋ฆฌ ๋ฐฐ๋ฌ ์์คํ "์ ๋น์ ํด๋ณด์!
๋ฐ์ดํฐ๋ธ๋ฆญ์ค(Databricks)๋ Spark๋ฅผ ๋ ์ฝ๊ฒ ์ฌ์ฉํ๋๋ก ๋์์ฃผ๋ ํ๋ซํผ์ด์์.
AWS, Azure ๊ฐ์ ํด๋ผ์ฐ๋์์ Spark๋ฅผ ์ง์ ์ค์ ํ๋ ค๋ฉด ์๋ฒ ๊ตฌ์ฑ, ๋ฐ์ดํฐ ์ ์ฅ์ ์ฐ๊ฒฐ, ๋ณด์ ์ค์ ๋ฑ์ ๋ค ํด์ผ ํ์ง๋ง,
๋ฐ์ดํฐ๋ธ๋ฆญ์ค๋ ์ด๋ฅผ ์๋ํํด์ ์ฝ๊ฒ ๊ด๋ฆฌํ ์ ์๋๋ก ํด์ค์.
๐ ๋น์ ์ ์ผ๋ก ์ค๋ช ํ๋ฉด…
- AWS์ EC2 + Spark = ๋ด๊ฐ ์ง์ ๋ ์คํ ๋(์๋ฒ)๋ฅผ ์ฐจ๋ฆฌ๊ณ ์๋ฆฌ(Spark)๋ ํด์ผ ํ๋ ์ํฉ
- ๋ฐ์ดํฐ๋ธ๋ฆญ์ค = ๋ฐฐ๋ฌ ์ ๋ฌธ ํ๋์ฐจ์ด์ฆ ์์คํ ์ ์ด์ฉํด์ ์ฝ๊ฒ ์๋ฆฌ(Spark)๋ฅผ ํ ์ ์๋ ํ๊ฒฝ์ ์ ๊ณตํ๋ ๊ฒ!
๐ ๋ฐ์ดํฐ๋ธ๋ฆญ์ค์ ์ญํ ์ ์๋ฆฌ ๋ฐฐ๋ฌ ์์คํ ์ผ๋ก ์ดํดํด๋ณด์!
๊ฐ๋ | ์ผ๋ฐ Spark ํ๊ฒฝ (AWS EMR, EC2) |
๋ฐ์ดํฐ๋ธ๋ฆญ์ค (Databricks) | ๋น์ |
์๋ฒ ๊ด๋ฆฌ | ์ง์ ์๋ฒ(EC2)๋ฅผ ์ค์นํ๊ณ Spark๋ฅผ ์ค์ ํด์ผ ํจ | ์๋์ผ๋ก ํด๋ฌ์คํฐ๋ฅผ ์์ฑํ๊ณ ๊ด๋ฆฌํด์ค | ์ง์ ๊ฐ๊ฒ ์ฐจ๋ฆฌ๊ธฐ vs ๋ฐฐ๋ฌ ํ๋ซํผ ๊ฐ๋งน์ |
๋ฐ์ดํฐ ์ ์ฅ | S3, HDFS๋ฅผ ์ง์ ์ค์ ํด์ผ ํจ | ์์ฒด ์ ๊ณตํ๋ "Databricks File System (DBFS)"์ ํตํด ํธ๋ฆฌํ ๋ฐ์ดํฐ ๊ด๋ฆฌ ๊ฐ๋ฅ | ์์ฌ๋ฃ(๋ฐ์ดํฐ)๋ฅผ ์ง์ ์ฐฝ๊ณ (S3)์ ๋ณด๊ด vs ๋ฐฐ๋ฌ์ ์ฒด์์ ๊ด๋ฆฌํด์ฃผ๋ ์ฐฝ๊ณ ์ด์ฉ |
Spark ์คํ | ํฐ๋ฏธ๋์์ ์ง์ ์ฝ๋ ์คํ | ์น UI์์ ์ฝ๊ฒ ๋ ธํธ๋ถ์ ์คํ | ์ง์ ๋ถ์ ํผ์ ์๋ฆฌํ๊ธฐ vs ์๋ ์กฐ๋ฆฌ ์์คํ ์ฌ์ฉ |
ํ์ ์ง์ | ์ค์ ์์ด ๊ฐ๋ณ ํ๊ฒฝ์์ ์์ ํด์ผ ํจ | ๋ ธํธ๋ถ ๊ณต์ , ๋ฒ์ ๊ด๋ฆฌ ๋ฑ ํ์ ๊ธฐ๋ฅ ์ ๊ณต | ํผ์ ์๋ฆฌํ๊ธฐ vs ์ฃผ๋ฐฉํ์ด ํ์ ํ๋ ๋ ์คํ ๋ |
์๋ ํ์ฅ (Auto-scaling) | ์ง์ ์๋ฒ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํด์ผ ํจ | ํ์ํ ๋ ์๋์ผ๋ก ์๋ฒ ์ถ๊ฐ/์ญ์ | ์ฃผ๋ฐฉ ์ธ๋ ฅ์ ๋ด๊ฐ ๊ณ ์ฉ vs ์ฃผ๋ฌธ๋์ ๋ฐ๋ผ ์ง์ ์๋ ๋ฐฐ์น |
๐ ์ฆ, ๋ฐ์ดํฐ๋ธ๋ฆญ์ค๋ Spark๋ฅผ ์ฝ๊ฒ ์ฌ์ฉํ ์ ์๋ ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ ํ๋ซํผ!
- AWS์์ EMR์ ์ง์ ์ค์นํ๋ ๊ฒ๋ณด๋ค ๋ ๊ฐํธํ๊ฒ Spark๋ฅผ ์ด์ํ ์ ์๋๋ก ๋์์ค.
- ๊ฐ๋ฐ์๊ฐ ์ธํ๋ผ ๊ด๋ฆฌ์ ์ ๊ฒฝ ์ฐ์ง ์๊ณ , ์ฝ๋ ์์ฑ & ๋ฐ์ดํฐ ๋ถ์์ ์ง์คํ ์ ์๋๋ก ํ๊ฒฝ์ ์ ๊ณตํจ.
- Jupyter ๋ ธํธ๋ถ ๊ฐ์ UI๋ฅผ ์ ๊ณตํด์, ๊ฐ๋ฐ์๋ค์ด ๋ฐ๋ก ๋ฐ์ดํฐ ๋ถ์ ์์ ์ ํ ์ ์์.
๐ฏ ํ ์ค ์์ฝ!
๋ฐ์ดํฐ๋ธ๋ฆญ์ค = "Spark๋ฅผ ๋ ์ฝ๊ฒ ์ฌ์ฉํ๋๋ก ๋ง๋ค์ด์ฃผ๋ ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ ๋ฐฐ๋ฌ ์์คํ !"
Spark๋ฅผ ์ง์ ์ด์ํ๋ ๊ฒ๋ณด๋ค ์๋ํ & ํ์ & ๊ด๋ฆฌ๊ฐ ํธ๋ฆฌํ๋๋ก ๋์์ฃผ๋ ์๋น์ค ๐๐ฅ