spark là gì

Ngày ni với thật nhiều khối hệ thống đang được dùng Hadoop nhằm phân tách và xử lý tài liệu rộng lớn. Ưu điểm lớn số 1 của Hadoop là được dựa vào một quy mô xây dựng tuy vậy song với xử lý tài liệu rộng lớn là MapReduce, quy mô này được cho phép tài năng đo lường rất có thể không ngừng mở rộng, linh động, tài năng chịu đựng lỗi, ngân sách rẻ rúng. Như vậy được cho phép tăng cường thời hạn xử lý những tài liệu rộng lớn nhằm mục tiêu giữ lại vận tốc, tách thời hạn chờ đón Lúc tài liệu càng ngày càng rộng lớn.

Bạn đang xem: spark là gì

Dù với thật nhiều ưu thế về tài năng đo lường tuy vậy song và tài năng chịu đựng lỗi cao tuy nhiên Apache Haddop với cùng 1 điểm yếu là toàn bộ những thao tác đều cần tiến hành bên trên ổ đĩa cứng điều này đã thử tách vận tốc đo lường cút hấp tấp rất nhiều lần.

Để xử lý được nhược điểm đó thì Apache Spark được Ra đời. Apache Spark rất có thể chạy thời gian nhanh rộng lớn 10 phen đối với Haddop phía trên đĩa cứng và 100 phen Lúc chạy xe trên bộ nhớ lưu trữ RAM.

1. Giới thiệu về Apache Spark

Apache Spark là 1 trong framework mã mối cung cấp há đo lường cụm, được cách tân và phát triển sơ khởi nhập năm 2009 vày AMPLab. Sau này, Spark đã và đang được trao mang lại Apache Software Foundation nhập năm trước đó và được cách tân và phát triển cho tới ni.

Tốc phỏng xử lý của Spark dành được tự việc đo lường được tiến hành đồng thời trên rất nhiều máy không giống nhau. Đồng thời việc đo lường được tiến hành ở bộ nhớ lưu trữ nhập (in-memories) hoặc tiến hành trọn vẹn bên trên RAM.

Spark được cho phép xử lý tài liệu theo gót thời hạn thực, vừa phải nhận tài liệu kể từ những mối cung cấp không giống nhau mặt khác tiến hành tức thì việc xử lý bên trên tài liệu vừa phải sẽ có được ( Spark Streaming).

Spark không tồn tại khối hệ thống tệp tin của riêng rẽ bản thân, nó dùng khối hệ thống tệp tin không giống như: HDFS, Stavrou, S3,…. Spark tương hỗ nhiều loại định hình tệp tin không giống nhau (text, csv, json…) mặt khác nó trọn vẹn ko tùy thuộc vào bất kể một khối hệ thống tệp tin này.

2. Thành phần của Spark

Apache Spark bao gồm với 5 bộ phận chủ yếu : Spark Vi xử lý Core, Spark Streaming, Spark SQL, MLlib và GraphX, nhập đó:

Xem thêm: 100gr ức gà bao nhiêu protein

  • Spark Core là nền tảng cho những bộ phận sót lại và những bộ phận này mong muốn khởi chạy được thì đều cần trải qua Spark Vi xử lý Core tự Spark Vi xử lý Core phụ trách tầm quan trọng tiến hành việc làm đo lường và xử lý nhập bộ nhớ lưu trữ (In-memory computing) mặt khác nó cũng tham ô chiếu những tài liệu được tàng trữ bên trên những khối hệ thống tàng trữ bên phía ngoài.

  • Spark SQL hỗ trợ một loại data abstraction mới mẻ (SchemaRDD) nhằm mục tiêu tương hỗ cho tất cả loại tài liệu với cấu hình (structured data) và tài liệu nửa cấu hình (semi-structured data – thông thường là tài liệu data với cấu hình tuy nhiên ko giống hệt và cấu hình của tài liệu tùy thuộc vào chủ yếu nội dung của tài liệu ấy). Spark SQL tương hỗ DSL (Domain-specific language) nhằm tiến hành những thao tác bên trên DataFrames vày ngôn từ Scala, Java hoặc Python và nó cũng tương hỗ cả ngôn từ SQL với skin command-line và ODBC/JDBC server.

  • Spark Streaming được dùng nhằm tiến hành việc phân tách stream vày việc xem stream là những mini-batches và thực hiệc chuyên môn RDD transformation so với những tài liệu mini-batches này. Qua cơ được cho phép những đoạn code được ghi chép mang lại xử lý batch rất có thể được tận dụng tối đa lại nhập trong những công việc xử lý stream, thực hiện mang lại việc cách tân và phát triển lambda architecture được đơn giản dễ dàng rộng lớn. Tuy nhiên điều đó lại đưa đến phỏng trễ nhập xử lý tài liệu (độ trễ chủ yếu vày mini-batch duration) và vì thế nhiều Chuyên Viên nhận định rằng Spark Streaming ko thực sự là dụng cụ xử lý streaming tương tự Storm hoặc Flink.

  • MLlib (Machine Learning Library): MLlib là 1 trong nền tảng học tập máy phân giã bên trên Spark tự phong cách xây dựng phân giã dựa vào bộ nhớ lưu trữ. Theo những đối chiếu benchmark Spark MLlib thời gian nhanh rộng lớn 9 phen đối với phiên phiên bản chạy xe trên Hadoop (Apache Mahout).

  • GrapX: Grapx là nền tảng xử lý vật dụng thị dựa vào Spark. Nó hỗ trợ những Api nhằm trình diễn tảcác đo lường nhập vật dụng thị bằng phương pháp dùng Pregel Api.

3. Những điểm nổi trội của Spark

  • Xử lý dữ liệu: Spark xử lý tài liệu theo gót lô và thời hạn thực
  • Tính tương thích: cũng có thể tích phù hợp với toàn bộ những mối cung cấp tài liệu và định hình tệp được tương hỗ vày cụm Hadoop.
  • Hỗ trợ ngôn ngữ: tương hỗ Java, Scala, Python và R.
  • Phân tích thời hạn thực:
    • Apache Spark rất có thể xử lý tài liệu thời hạn thực tức là tài liệu tới từ những luồng sự khiếu nại thời hạn thực với vận tốc mặt hàng triệu sự khiếu nại từng giây. Ví dụ: Data Twitter ví dụ điển hình hoặc luợt share, đăng bài xích bên trên Facebook. Sức mạnh Spark là tài năng xử lý luồng thẳng hiệu suất cao.
    • Apache Spark rất có thể được dùng nhằm xử lý trừng trị hiện tại mod trong những lúc tiến hành những thanh toán ngân hàng. Đó là cũng chính vì, toàn bộ những khoản thanh toán giao dịch trực tuyến được tiến hành nhập thời hạn thực và tất cả chúng ta cần thiết ngừng thanh toán mod trong những lúc quy trình thanh toán giao dịch đang được ra mắt.
  • Mục tiêu xài sử dụng:
    • Xử lý tài liệu thời gian nhanh và tương tác
    • Xử lý vật dụng thị
    • Công việc lặp cút lặp lại
    • Xử lý thời hạn thực
    • joining Dataset
    • Machine Learning
    • Apache Spark là Framework thực ganh đua tài liệu dựa vào Hadoop HDFS. Apache Spark ko thay cho thế mang lại Hadoop tuy nhiên nó là 1 trong framework phần mềm. Apache Spark tuy rằng Ra đời sau tuy nhiên được nổi tiếng rộng lớn Apache Hadoop vì như thế tài năng xử lý một loạt và thời hạn thực.

Những công ty dùng Apache Spark

Hiện ni, với thật nhiều hãng sản xuất rộng lớn tiếp tục người sử dụng Spark cho những thành phầm của tôi như Yahoo, ebay, IBM, Cisco…

Tổng kết

Với sự cách tân và phát triển mạnh mẽ và uy lực nhập vài ba năm quay về phía trên của Apache Spark thì xây dựng viên, những căn nhà khoa học tập PC nhận thêm dụng cụ hiệu quả nhằm đáp ứng việc làm của tôi và người tớ sẽ dần dần quên “Hadoop Stack” tuy nhiên thay cho thế nhập này sẽ là “Big data Stack”, với rất nhiều sự lựa lựa chọn rộng lớn không chỉ là là Hadoop.

Xem thêm: trai tim my nhan tap 183

Tham khảo

https://spark.apache.org/

https://www.mastercode.vn/blog/web-development/apache-spark-la-gi.85

http://itechseeker.com/