Data & Technology Insights

๐Ÿฝ ํ”ผ์ž ๊ฐ€๊ฒŒ๋กœ ์ดํ•ดํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค! Spark๋Š” ‘์š”๋ฆฌ์‚ฌ ํŒ€’์ž…๋‹ˆ๋‹ค! ๐Ÿš€

soni-log 2025. 3. 8. 19:58

    ๐Ÿฝ "์ŠคํŒŒํฌ(Spark)"๋Š”?

    ์ŠคํŒŒํฌ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ถ„์‚ฐ ์—ฐ์‚ฐ ์—”์ง„์œผ๋กœ, ๋งˆ์น˜ ์š”๋ฆฌ๋ฅผ ๋‹ด๋‹นํ•˜๋Š” ์กฐ๋ฆฌ ๋„๊ตฌ์™€ ์š”๋ฆฌ์‚ฌ ํŒ€๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๐Ÿณ๐Ÿ‘จ‍๐Ÿณ


    ๐ŸŽฏ ๋น„์œ  ์ •๋ฆฌ

    ๊ฐœ๋… ์‹ค์ œ ์—ญํ•  ๋น„์œ 
    ์„œ๋ฒ„ (AWS EC2, EMR) ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ํ™˜๊ฒฝ ์š”๋ฆฌ๋ฅผ ํ•  ์ˆ˜ ์žˆ๋Š” ์ฃผ๋ฐฉ (์‹๋‹น)
    ๋ฐ์ดํ„ฐ (S3, HDFS) ์ €์žฅ๋œ ์›์žฌ๋ฃŒ ์ฐฝ๊ณ ์— ๋ณด๊ด€๋œ ์‹์žฌ๋ฃŒ
    Spark ๋ฐ์ดํ„ฐ๋ฅผ ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ถ„์‚ฐ ์—ฐ์‚ฐ ์—”์ง„ ์ฃผ๋ฐฉ์˜ ์š”๋ฆฌ์‚ฌ ํŒ€ + ์ž๋™ ์š”๋ฆฌ ๊ธฐ๊ณ„
    Databricks Spark๋ฅผ ์‰ฝ๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ด€๋ฆฌํ•ด ์ฃผ๋Š” ํ”Œ๋žซํผ ๋ฐฐ๋‹ฌ ์ฃผ๋ฌธ์ด ์ž๋™ํ™”๋œ ํ”„๋žœ์ฐจ์ด์ฆˆ ์‹œ์Šคํ…œ

    ๐Ÿณ Spark = "์ฃผ๋ฐฉ์˜ ์š”๋ฆฌ์‚ฌ + ์ž๋™ ์š”๋ฆฌ ์‹œ์Šคํ…œ"

    ์ŠคํŒŒํฌ๋Š” ํ•œ ๋ช…์˜ ์š”๋ฆฌ์‚ฌ๊ฐ€ ์š”๋ฆฌ๋ฅผ ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ,

    ์—ฌ๋Ÿฌ ๋ช…์˜ ์š”๋ฆฌ์‚ฌ๊ฐ€ ๋™์‹œ์— ๋‚˜๋ˆ ์„œ ์š”๋ฆฌํ•˜๋Š” ์‹œ์Šคํ…œ์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

     

    ๋งŒ์•ฝ ํ•œ ๋ช…์˜ ์š”๋ฆฌ์‚ฌ๊ฐ€ ๋ชจ๋“  ์ฃผ๋ฌธ์„ ๋‹ด๋‹นํ•œ๋‹ค๋ฉด ์†๋„๊ฐ€ ๋งค์šฐ ๋А๋ ค์ง€๊ฒ ์ง€๋งŒ,

    ์—ฌ๋Ÿฌ ๋ช…์˜ ์š”๋ฆฌ์‚ฌ๊ฐ€ ํ˜‘๋ ฅํ•˜๋ฉด ํ›จ์”ฌ ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ์š”๋ฆฌ๋ฅผ ์™„์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

     

    ์ŠคํŒŒํฌ๋„ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.

    **"ํ•œ ๋Œ€์˜ ์„œ๋ฒ„๊ฐ€ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์—ฌ๋Ÿฌ ๋Œ€์˜ ์„œ๋ฒ„๊ฐ€ ๋™์‹œ์— ๋ฐ์ดํ„ฐ๋ฅผ ๋‚˜๋ˆ ์„œ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ตฌ์กฐ"**์ž…๋‹ˆ๋‹ค.


    ๐Ÿ• ๋น„์œ  ์ ์šฉ - "ํ”ผ์ž ๊ฐ€๊ฒŒ์—์„œ ์ฃผ๋ฌธ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ณผ์ •"

    1๏ธโƒฃ ์†๋‹˜(ํด๋ผ์ด์–ธํŠธ)์ด "ํ”ผ์ž 100ํŒ ์ฃผ๋ฌธ!" (๋ฐ์ดํ„ฐ ๋ถ„์„ ์š”์ฒญ)
    2๏ธโƒฃ ๋‹จ ํ•œ ๋ช…์˜ ์š”๋ฆฌ์‚ฌ๊ฐ€ ๋งŒ๋“ ๋‹ค๋ฉด ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆฌ์ง€๋งŒ,
    3๏ธโƒฃ **10๋ช…์˜ ์š”๋ฆฌ์‚ฌ(Spark ์›Œ์ปค ๋…ธ๋“œ)**๊ฐ€ ๋‚˜๋ˆ ์„œ ์กฐ๋ฆฌํ•˜๋ฉด ํ›จ์”ฌ ๋น ๋ฅด๊ฒŒ ์™„๋ฃŒ๋ฉ๋‹ˆ๋‹ค!
    4๏ธโƒฃ ์ฃผ๋ฌธ์ด ํญ์ฃผํ•˜๋ฉด, ์š”๋ฆฌ์‚ฌ๋ฅผ ์ž๋™์œผ๋กœ ์ถ”๊ฐ€ ๊ณ ์šฉํ•˜์—ฌ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๋Š˜๋ฆฝ๋‹ˆ๋‹ค. (Spark ํด๋Ÿฌ์Šคํ„ฐ ํ™•์žฅ)
    5๏ธโƒฃ ์š”๋ฆฌ๊ฐ€ ๋๋‚˜๋ฉด ์†๋‹˜(์‚ฌ์šฉ์ž)์—๊ฒŒ ํ”ผ์ž(๋ถ„์„ ๊ฒฐ๊ณผ)๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.


    ๐Ÿš€ ํ•œ ์ค„ ์š”์•ฝ

    Spark = "๋ฐ์ดํ„ฐ๋ฅผ ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ์š”๋ฆฌ์‚ฌ ํŒ€ + ์ž๋™ํ™”๋œ ์š”๋ฆฌ ๊ธฐ๊ณ„!"
    Databricks = "์ด Spark ์š”๋ฆฌ์‚ฌ๋“ค์„ ์‰ฝ๊ฒŒ ๊ด€๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ฃผ๋Š” ํ”„๋žœ์ฐจ์ด์ฆˆ ์‹œ์Šคํ…œ!"

    ์ด์ œ ์ŠคํŒŒํฌ๊ฐ€ ์–ด๋–ค ์›๋ฆฌ๋กœ ๋™์ž‘ํ•˜๋Š”์ง€ ์กฐ๊ธˆ ๋” ๊ฐ์ด ์˜ค์…จ๋‚˜์š”? ๐Ÿ˜Š๐Ÿ”ฅ