Nội dung chính
Hadoop là gì
Hadoop là một nền tảng viết bằng Java, cho phép lưu trữ và xử lý dữ liệu lớn trên các cụm máy tính.
Nó gồm hai thành phần chính: HDFS để lưu trữ dữ liệu phân tán và MapReduce để xử lý dữ liệu song song.
Hadoop được sử dụng phổ biến trong các hệ thống phân tích dữ liệu lớn của doanh nghiệp.
Trước khi cài Hadoop, hệ thống cần được cài Java vì Hadoop phụ thuộc vào môi trường Java để chạy.
Các bước cài đặt Hadoop trên Ubuntu
Bước 1: Kiểm tra Java
Mở Terminal và chạy:
Nếu chưa có Java, tiếp tục bước sau.
Bước 2: Cập nhật hệ thống
Bước 3: Cài đặt Java
Sau khi cài xong, kiểm tra lại:
Bước 4: Tạo người dùng riêng cho Hadoop
Bước 5: Cài đặt SSH và tạo SSH Key
Bước 6: Tải và giải nén Hadoop
Tải Hadoop từ trang chính thức, sau đó giải nén và di chuyển:
Bước 7: Cấu hình biến môi trường
Mở file ~/.bashrc
:
Thêm vào cuối file:
Áp dụng cấu hình:
Bước 8: Cấu hình Hadoop
Xác nhận đường dẫn Java
Chỉnh hadoop-env.sh
Sửa dòng:
Sửa core-site.xml
Chèn vào:
Sửa hdfs-site.xml
Chèn vào:
Cấu hình mapred-site.xml
Chèn vào:
Bước 9: Tạo thư mục lưu trữ
Khởi chạy Hadoop
Format NameNode
Khởi động HDFS
Khởi động YARN
Kiểm tra tiến trình Hadoop
Kết quả mong đợi gồm các tiến trình: NameNode, DataNode, ResourceManager, NodeManager, SecondaryNameNode, jps.
Truy cập giao diện quản lý Hadoop
Mở trình duyệt và truy cập:
Nếu hiển thị giao diện Hadoop, bạn đã cài đặt thành công.