Hướng dẫn cài đặt Hadoop trên Ubuntu

Nội dung chính

 

  • Khái niệm Hadoop là gì, và tại sao nó quan trọng trong xử lý dữ liệu lớn.

 

  • Các bước cài đặt Hadoop trên Ubuntu, bao gồm cả Java và cấu hình hệ thống.

 

Hadoop là gì

 

Hadoop là một nền tảng viết bằng Java, cho phép lưu trữ và xử lý dữ liệu lớn trên các cụm máy tính.

 

Nó gồm hai thành phần chính: HDFS để lưu trữ dữ liệu phân tán và MapReduce để xử lý dữ liệu song song.

 

Hadoop được sử dụng phổ biến trong các hệ thống phân tích dữ liệu lớn của doanh nghiệp.

 

Trước khi cài Hadoop, hệ thống cần được cài Java vì Hadoop phụ thuộc vào môi trường Java để chạy.

 

Các bước cài đặt Hadoop trên Ubuntu

 

Bước 1: Kiểm tra Java

 

Mở Terminal và chạy:


 
java -version
 

Nếu chưa có Java, tiếp tục bước sau.

 

Bước 2: Cập nhật hệ thống


 
sudo apt-get update sudo apt-get install update
 

Bước 3: Cài đặt Java


 
sudo apt-get install default-jdk
 

Sau khi cài xong, kiểm tra lại:

 

java -version
 

Bước 4: Tạo người dùng riêng cho Hadoop


 
sudo addgroup hadoop sudo adduser --ingroup hadoop hadoopusr sudo adduser hadoopusr sudo
 
 

Bước 5: Cài đặt SSH và tạo SSH Key


 
sudo apt-get install openssh-server su - hadoopusr ssh-keygen -t rsa -P "" cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys ssh localhost exit
 

Bước 6: Tải và giải nén Hadoop

 

Tải Hadoop từ trang chính thức, sau đó giải nén và di chuyển:


 
sudo tar xvzf hadoop-2.9.0.tar.gz sudo mv hadoop-2.9.0 /usr/local/hadoop sudo chown -R hadoopusr /usr/local
 

Bước 7: Cấu hình biến môi trường

 

Mở file ~/.bashrc:

 

sudo gedit ~/.bashrc
 

Thêm vào cuối file:


 
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
 
export HADOOP_HOME=/usr/local/hadoop
 
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
 
export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME
 
export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME
 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
 
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
 

Áp dụng cấu hình:


 
source ~/.bashrc
 

Bước 8: Cấu hình Hadoop

 

Xác nhận đường dẫn Java


 
cd /usr/lib/jvm ls
 

Chỉnh hadoop-env.sh


 
sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh
 

Sửa dòng:


 
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
 

Sửa core-site.xml

 

sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml
 

Chèn vào:

 

<property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property>
 

Sửa hdfs-site.xml

 

sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml
 

Chèn vào:


 
<property> <name>dfs.replication</name> <value>1</value> </property>
 
<property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop_tmp/hdfs/namenode</value> </property>
 
<property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop_tmp/hdfs/datanode</value> </property>
 

Cấu hình mapred-site.xml

 

sudo cp
 
/usr/local/hadoop/etc/hadoop/mapred-site.xml.template
 
/usr/local/hadoop/etc/hadoop/mapred-site.xml sudo gedit
 
/usr/local/hadoop/etc/hadoop/mapred-site.xml
 

Chèn vào:

 

<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
 

Bước 9: Tạo thư mục lưu trữ


 
sudo mkdir -p /usr/local/hadoop_space/hdfs/namenode sudo mkdir -p
 
/usr/local/hadoop_space/hdfs/datanode sudo chown -R hadoopusr
 
/usr/local/hadoop_space
 

Khởi chạy Hadoop

 

Format NameNode

 

hdfs namenode -format
 

Khởi động HDFS


 
start-dfs.sh
 

Khởi động YARN


 
start-yarn.sh
 

Kiểm tra tiến trình Hadoop


 
jps
 

Kết quả mong đợi gồm các tiến trình: NameNode, DataNode, ResourceManager, NodeManager, SecondaryNameNode, jps.

 

Truy cập giao diện quản lý Hadoop

 

Mở trình duyệt và truy cập:

 

http://localhost:50070
 

Nếu hiển thị giao diện Hadoop, bạn đã cài đặt thành công.

 HỖ TRỢ TRỰC TUYẾN