Hướng dẫn cài đặt Hadoop trên Ubuntu

Tin tức công nghệ 10-7-2025

Nội dung chính

Khái niệm Hadoop là gì, và tại sao nó quan trọng trong xử lý dữ liệu lớn.

Các bước cài đặt Hadoop trên Ubuntu, bao gồm cả Java và cấu hình hệ thống.

Hadoop là gì

Hadoop là một nền tảng viết bằng Java, cho phép lưu trữ và xử lý dữ liệu lớn trên các cụm máy tính.

Nó gồm hai thành phần chính: HDFS để lưu trữ dữ liệu phân tán và MapReduce để xử lý dữ liệu song song.

Hadoop được sử dụng phổ biến trong các hệ thống phân tích dữ liệu lớn của doanh nghiệp.

Trước khi cài Hadoop, hệ thống cần được cài Java vì Hadoop phụ thuộc vào môi trường Java để chạy.

Các bước cài đặt Hadoop trên Ubuntu

Bước 1: Kiểm tra Java

Mở Terminal và chạy:

Nếu chưa có Java, tiếp tục bước sau.

Bước 2: Cập nhật hệ thống

Bước 3: Cài đặt Java

Sau khi cài xong, kiểm tra lại:

Bước 4: Tạo người dùng riêng cho Hadoop

Bước 5: Cài đặt SSH và tạo SSH Key

Bước 6: Tải và giải nén Hadoop

Tải Hadoop từ trang chính thức, sau đó giải nén và di chuyển:

Bước 7: Cấu hình biến môi trường

Mở file ~/.bashrc:

Thêm vào cuối file:

Áp dụng cấu hình:

Bước 8: Cấu hình Hadoop

Xác nhận đường dẫn Java

Chỉnh `hadoop-env.sh`

Sửa dòng:

Sửa `core-site.xml`

Chèn vào:

Sửa `hdfs-site.xml`

Chèn vào:

Cấu hình `mapred-site.xml`

Chèn vào:

Bước 9: Tạo thư mục lưu trữ

Khởi chạy Hadoop

Format NameNode

Khởi động HDFS

Khởi động YARN

Kiểm tra tiến trình Hadoop

Kết quả mong đợi gồm các tiến trình: NameNode, DataNode, ResourceManager, NodeManager, SecondaryNameNode, jps.

Truy cập giao diện quản lý Hadoop

Mở trình duyệt và truy cập:

Nếu hiển thị giao diện Hadoop, bạn đã cài đặt thành công.

Danh mục

Hướng dẫn cài đặt Hadoop trên Ubuntu

Nội dung chính

Hadoop là gì

Các bước cài đặt Hadoop trên Ubuntu

Bước 1: Kiểm tra Java

Bước 2: Cập nhật hệ thống

Bước 3: Cài đặt Java

Bước 4: Tạo người dùng riêng cho Hadoop

Bước 5: Cài đặt SSH và tạo SSH Key

Bước 6: Tải và giải nén Hadoop

Bước 7: Cấu hình biến môi trường

Thêm vào cuối file:

Áp dụng cấu hình:

Bước 8: Cấu hình Hadoop

Xác nhận đường dẫn Java

Chỉnh hadoop-env.sh

Sửa core-site.xml

Sửa hdfs-site.xml

Chèn vào:

Cấu hình mapred-site.xml

Chèn vào:

Bước 9: Tạo thư mục lưu trữ

Khởi chạy Hadoop

Format NameNode

Khởi động HDFS

Khởi động YARN

Kiểm tra tiến trình Hadoop

Truy cập giao diện quản lý Hadoop

BÀI VIẾT KHÁC

Cách xóa DNS cache trên Linux đơn giản và hiệu quả

Hướng dẫn toàn diện cách dùng lệnh sar trong Linux

AppImage là gì? Hướng dẫn chạy AppImage trên Linux đầy đủ

So sánh sự khác biệt giữa Linux và Ubuntu

CODE GỢI Ý CHO BẠN

Hệ thống quản lý trường học Laravel đơn giản

Hệ thống POS sử dụng Laravel đơn giản

Full source code web đọc truyện tranh, theme v11, laravel, tool cào truyện từ otruyen

Ứng dụng tạo đơn hàng và thu ngân POS

Chỉnh `hadoop-env.sh`

Sửa `core-site.xml`

Sửa `hdfs-site.xml`

Cấu hình `mapred-site.xml`