Đây là đồ án của mình, trong đồ án này mình đã crawl 10000 bài báo từ vnexpress thuộc 10 chủ đề khác nhau sau đó lưu vào file data.txt. Tiếp tục mình xử lý để loại bỏ các kí tự đặc biệt như (,.!@#...) để làm sạch dữ liệu.
Sau khi đã làm sạch dữ liệu, mình tiếp tục tách các từ để có thể train model. Ví dụ như từ hội đồng => hội_đồng.
Sau khi train model thì mình có thể nhập link của nhiều bài báo sau đó chương trình sẽ dự đoán chủ đề của bài báo đó.
XEM THÊM ==> Hướng dẫn cài đặt chi tiết
Nguồn: Sharecode.vn
Các bạn xem trong README.md mình có hướng dẫn chi tiết. Nếu vẫn không chạy được các bạn có thể liên hệ mình qua email vovantam.dev@gmail.com. Mình xin cám ơn!