๐ฝ "์คํํฌ(Spark)"๋?
์คํํฌ๋ ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ๋ ๋ถ์ฐ ์ฐ์ฐ ์์ง์ผ๋ก, ๋ง์น ์๋ฆฌ๋ฅผ ๋ด๋นํ๋ ์กฐ๋ฆฌ ๋๊ตฌ์ ์๋ฆฌ์ฌ ํ๊ณผ ๊ฐ์ต๋๋ค. ๐ณ๐จ๐ณ
๐ฏ ๋น์ ์ ๋ฆฌ
๊ฐ๋ | ์ค์ ์ญํ | ๋น์ |
์๋ฒ (AWS EC2, EMR) | ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ํ๊ฒฝ | ์๋ฆฌ๋ฅผ ํ ์ ์๋ ์ฃผ๋ฐฉ (์๋น) |
๋ฐ์ดํฐ (S3, HDFS) | ์ ์ฅ๋ ์์ฌ๋ฃ | ์ฐฝ๊ณ ์ ๋ณด๊ด๋ ์์ฌ๋ฃ |
Spark | ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ๋ ๋ถ์ฐ ์ฐ์ฐ ์์ง | ์ฃผ๋ฐฉ์ ์๋ฆฌ์ฌ ํ + ์๋ ์๋ฆฌ ๊ธฐ๊ณ |
Databricks | Spark๋ฅผ ์ฝ๊ฒ ์ฌ์ฉํ ์ ์๋๋ก ๊ด๋ฆฌํด ์ฃผ๋ ํ๋ซํผ | ๋ฐฐ๋ฌ ์ฃผ๋ฌธ์ด ์๋ํ๋ ํ๋์ฐจ์ด์ฆ ์์คํ |
๐ณ Spark = "์ฃผ๋ฐฉ์ ์๋ฆฌ์ฌ + ์๋ ์๋ฆฌ ์์คํ "
์คํํฌ๋ ํ ๋ช ์ ์๋ฆฌ์ฌ๊ฐ ์๋ฆฌ๋ฅผ ํ๋ ๊ฒ์ด ์๋๋ผ,
์ฌ๋ฌ ๋ช ์ ์๋ฆฌ์ฌ๊ฐ ๋์์ ๋๋ ์ ์๋ฆฌํ๋ ์์คํ ์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋ฉ๋๋ค.
๋ง์ฝ ํ ๋ช ์ ์๋ฆฌ์ฌ๊ฐ ๋ชจ๋ ์ฃผ๋ฌธ์ ๋ด๋นํ๋ค๋ฉด ์๋๊ฐ ๋งค์ฐ ๋๋ ค์ง๊ฒ ์ง๋ง,
์ฌ๋ฌ ๋ช ์ ์๋ฆฌ์ฌ๊ฐ ํ๋ ฅํ๋ฉด ํจ์ฌ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ์๋ฆฌ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
์คํํฌ๋ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๋์ํฉ๋๋ค.
**"ํ ๋์ ์๋ฒ๊ฐ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๊ฒ์ด ์๋๋ผ, ์ฌ๋ฌ ๋์ ์๋ฒ๊ฐ ๋์์ ๋ฐ์ดํฐ๋ฅผ ๋๋ ์ ์ฒ๋ฆฌํ๋ ๊ตฌ์กฐ"**์ ๋๋ค.
๐ ๋น์ ์ ์ฉ - "ํผ์ ๊ฐ๊ฒ์์ ์ฃผ๋ฌธ์ ์ฒ๋ฆฌํ๋ ๊ณผ์ "
1๏ธโฃ ์๋(ํด๋ผ์ด์ธํธ)์ด "ํผ์ 100ํ ์ฃผ๋ฌธ!" (๋ฐ์ดํฐ ๋ถ์ ์์ฒญ)
2๏ธโฃ ๋จ ํ ๋ช
์ ์๋ฆฌ์ฌ๊ฐ ๋ง๋ ๋ค๋ฉด ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฌ์ง๋ง,
3๏ธโฃ **10๋ช
์ ์๋ฆฌ์ฌ(Spark ์์ปค ๋
ธ๋)**๊ฐ ๋๋ ์ ์กฐ๋ฆฌํ๋ฉด ํจ์ฌ ๋น ๋ฅด๊ฒ ์๋ฃ๋ฉ๋๋ค!
4๏ธโฃ ์ฃผ๋ฌธ์ด ํญ์ฃผํ๋ฉด, ์๋ฆฌ์ฌ๋ฅผ ์๋์ผ๋ก ์ถ๊ฐ ๊ณ ์ฉํ์ฌ ์ฒ๋ฆฌ๋์ ๋๋ฆฝ๋๋ค. (Spark ํด๋ฌ์คํฐ ํ์ฅ)
5๏ธโฃ ์๋ฆฌ๊ฐ ๋๋๋ฉด ์๋(์ฌ์ฉ์)์๊ฒ ํผ์(๋ถ์ ๊ฒฐ๊ณผ)๋ฅผ ์ ๊ณตํฉ๋๋ค.
๐ ํ ์ค ์์ฝ
Spark = "๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ์๋ฆฌ์ฌ ํ + ์๋ํ๋ ์๋ฆฌ ๊ธฐ๊ณ!"
Databricks = "์ด Spark ์๋ฆฌ์ฌ๋ค์ ์ฝ๊ฒ ๊ด๋ฆฌํ ์ ์๋๋ก ๋์์ฃผ๋ ํ๋์ฐจ์ด์ฆ ์์คํ
!"
์ด์ ์คํํฌ๊ฐ ์ด๋ค ์๋ฆฌ๋ก ๋์ํ๋์ง ์กฐ๊ธ ๋ ๊ฐ์ด ์ค์ จ๋์? ๐๐ฅ