Đồ Án Crawl dữ liệu từ website báo lao động môn kỹ thuật phân tích hướng đối tượng sẽ crawl : Bộ dữ liệu thu thập đươc lưu vào Database có tên là thongtinbaibao : Id, Tiêu Đề, Nội Dung, Hình Ảnh, Link Gốc, Link Chủ Đề, Tác Giả, Thời Gian, Cat_Id
-
Id : Là mã bài báo cũng như số thứ tự.
-
Tiêu đề : Sẽ hiển thị tiêu đề của trang báo đó.
-
Nội Dung : Sẽ hiển thị nội dung của bài báo đó.
-
Hình Ảnh : Hiển thị hình ảnh của bài báo.
-
Link gốc : link bài báo crawl.
-
Link chủ đề : link chủ đề mà bài báo đó đã crawl.
-
Tác Giả : Sẽ hiển thị thông tin tác giả của bài báo.
-
Thời gian : Sẽ hiển thị ngày giờ mà bài báo đó được đăng lên.
-
Cat_Id : sẽ hiển thị mã chủ đề lấy từ bảng phanloai trong cơ sở dữ liệu
Tiềm kiếm dữ liệu bằng từ khoá thông qua tiêu chí tiêu đề bài báo, và có bộ lọc dữ liệu theo loại báo.
XEM THÊM ==> Hướng dẫn cài đặt chi tiết
Nguồn: Sharecode.vn
sử dụng môi trường python và cơ sở dữ liệu mysql
Bước 1: dowload thư mục trên link dowload và opent forder
Bước 2: dowlad database mang tên newspaper
đổi return mysql.connector.connect(
host="localhost",
user="root",
password="",// thay đổi thành password của bạn
database="newspaper"
)
sau đó nhấn run crawl.py trước rồi chạy file index.py sau