Bách khoa toàn thư hé Wikipedia
![]() | |
Phát triển bởi | Apache Software Foundation |
---|---|
Phiên bạn dạng ổn định định | 3.0.0 / 13 mon 12 năm 2017 Bạn đang xem: hdfs la gi |
Bản coi thử | 3.0.0 / 13 mon 12 năm 2017 |
Repository |
|
Viết bằng | Java |
Hệ điều hành | Cross-platform |
Thể loại | Hệ thống tài liệu phân phối |
Giấy phép | Apache License 2.0 |
Website | hadoop |
Trạng thái | Hoạt động |
Apache Hadoop hoặc Hadoop là một trong software framework tương hỗ những phần mềm phân nghiền tài liệu nâng cao theo đòi một giấy má phép tắc không tính tiền. Nó được cho phép những phần mềm thao tác làm việc với hàng trăm PC đo lường và tính toán song lập và petabyte tài liệu. Hadoop được bắt mối cung cấp kể từ những bài bác báo MapReduce của Google và Google File System (GFS).
Hadoop là một trong trong mỗi dự án công trình tiên phong hàng đầu của Apache, được thi công và được dùng vày một xã hội những người dân góp phần toàn thế giới, ghi chép vày ngôn từ xây dựng Java. Yahoo! tiếp tục góp phần lớn số 1 mang lại dự án công trình, và Hadoop được dùng rộng thoải mái bên trên từng những công ty.
Xem thêm: product activation failed 2016
Lịch sử[sửa | sửa mã nguồn]
Nguồn gốc của Hadoop tới từ những nội dung bài viết File System Google[1] được xuất bạn dạng nhập mon 10 năm 2003. Bài ghi chép này là một trong bài bác nghiên cứu và phân tích được sinh ra đi ra kể từ Google - MapReduce: Xử lý tài liệu đơn giản và giản dị bên trên những cluster lớn[2] Bắt đầu cải cách và phát triển bên trên dự án công trình Apache Nutch, tuy nhiên đã và đang được chuyển sang dự án công trình con cái Hadoop mới nhất nhập mon một năm 2006.[3] Doug Cutting tiếp tục thao tác làm việc bên trên Yahoo! nhập thời điểm lúc đó,[4] mệnh danh Hadoop theo đòi thương hiệu của con cái voi vật nghịch tặc của đàn ông bản thân.[5]
Xem thêm: google dịch hình
Hadoop 0.1.0 được tạo ra nhập tháng tư năm 2006[6] và nối tiếp cải cách và phát triển vày nhiều người góp phần cho tới dự án công trình Apache Hadoop.[7]
Kiến trúc Hadoop[sửa | sửa mã nguồn]
Hadoop framework bao gồm nhị layer chính:
- Hadoop Distriduted tệp tin system (HDFS):
- HDFS được kiến thiết và tối ưu hóa nhằm tàng trữ những tập luyện tin yêu rất rộng lớn và với cùng một quy mô truy vấn trực tuyến. Kể kể từ Lúc nó được dự con kiến tiếp tục điều khiển xe trên Hartware thương nghiệp, nó được kiến thiết nhằm tính cho tới và xử lý trường hợp hi hữu bên trên máy cá thể. HDFS thường thì ko tàng trữ tài liệu chủ yếu. Thay nhập cơ, nhập một việc nổi bật, tài liệu được sao chép thanh lịch HDFS mang lại mục tiêu tiến hành MapReduce, và thành quả tiếp sau đó sẽ tiến hành sao chép thanh lịch HDFS. Từ Lúc HDFS được tối ưu hóa cho những luồng truy vấn vấn đề rộng lớn, truy vấn tình cờ nhập những bộ phận của những tập luyện tin yêu thì tốn xoàng xĩnh rộng lớn truy vấn tuần tự động rõ rệt, và nó cũng ko tương hỗ update những tập luyện tin yêu, chỉ hoàn toàn có thể gắn tăng. Các kịch bạn dạng nổi bật của những phần mềm dùng HDFS sau quy mô truy vấn ghi một phiên hiểu nhiều lần
- Các tập luyện tin yêu nhập HDFS được phân thành một số trong những khối rộng lớn (thường là 64Mb) và được lưu nhập Data Node. Một tập luyện tin yêu nổi bật được phân phối bên trên một số trong những DataNodes nhằm mục đích xúc tiến đường dẫn cao và xử lý tuy vậy tuy vậy. Để nâng lên uy tín, những khối tài liệu nhập HDFS (data blocks) được nhân bạn dạng và lưu trỡ nhập 3 máy, với cùng một trong mỗi bạn dạng sao trong những giá chỉ không giống nhau nhằm tăng thêm sự sẵn đem hơn thế nữa của tài liệu. Việc lưu giữ những tập luyện tin yêu siêu tài liệu được xử lý vày một NameNode riêng không liên quan gì đến nhau. Siêu tài liệu này bao hàm ánh xạ kể từ tập luyện tin yêu nhập khối và địa điểm của khối (DataNode). NameNode theo đòi toan kì tiếp tục truyền đạt siêu tài liệu của chính nó mang lại Secondary NameNode Lúc cần thiết thông số kỹ thuật lại nhằm thực hiện nhiệm của NameNode Lúc xẩy ra tình huống lỗi.
- Execution engine (MapReduce):
- Trong Hadoop, JobTracker (công việc theo đòi dõi) là một trong điển truy vấn mang lại clients. Nhiệm vụ của JobTracker là đảm báo plan và lập plan việc làm tới đây của MR, và giao phó trách nhiệm cho những TaskTrackers nhưng mà nó đem trách cứ nhiệm tiến hành. Một TaskTracker hoàn toàn có thể chạy một số trong những của trách nhiệm dựa vào trong số nguồn lực có sẵn đã có sẵn trước (một ví dụ 2 trách nhiệm Map và 2 trách nhiệm reduce) và tiếp tục phân bổ cho những trách nhiệm mới nhất vày JogTracker Lúc nó sẵn sàng. Các độ cao thấp kha khá nhỏ của từng việc làm đối với con số rộng lớn những trách nhiệm nhập tổng số chung đáp ứng thăng bằng chuyên chở Một trong những máy. Cần cảnh báo rằng trong những lúc con số việc làm Map được tiến hành dựa vào độ cao thấp dầu nhập của tài liệu (số lượng phân chia) thì con số việc làm REDUCE là vì người tiêu dùng hướng đẫn.
- Trong một cụm rộng lớn, việc những máy xẩy ra trường hợp hi hữu là thông thường xuyên, và nhằm xử lý yếu tố này, thông điệp này thông thường được gửi kể từ TaskTracker cho tới JobTracker toan kì và kể từ việc làm Map cho tới việc làm REDUCE. bằng phẳng phương pháp này, lỗi hoàn toàn có thể được phân phát hiện tại và JobTracker hoàn toàn có thể bố trí lại những trách nhiệm lỗi cho những TaskTracker không giống. Hadoop theo đòi một quy mô tiến hành suy luận nhằm xử lý trường hợp hi hữu. Thay vì như thế thắt chặt và cố định một trách nhiệm thất bại hoặc chạy lừ đừ, nó tiến hành một trách nhiệm tương tự mới nhất như sao lưu. Thất bại của JobTracker tự động nó ko thể được xử lý tự động hóa, tuy nhiên phần trăm thất bại của một máy ví dụ là thấp nhằm điều này tránh việc trình diễn một yếu tố phát biểu công cộng.
Nguyên tắc kiến thiết của Hadoop:
- Cần xử lý tài liệu lớn
- Cần đo lường và tính toán tuy vậy song bên trên hàng trăm node
- Chịu lỗi và bình phục tự động động
Tham khảo[sửa | sửa mã nguồn]
Liên kết ngoài[sửa | sửa mã nguồn]
- Website chủ yếu thức
- Apache Hadoop popular APIs in GitHub
- Introducing Apache Hadoop: The Modern Data Operating System – a lecture given at Stanford University by Co-Founder and CTO of Cloudera, Amr Awadallah (video archive) (YouTube)
- Hadoop with Philip Zeyliger, Software Engineering Radio, IEEE Computer Society, ngày 8 mon 3 năm 2010
Bình luận