PHẦN MỞ ĐẦU
1. Tên đề tài
Tìm hiểu phương pháp phân loại văn bản bằng SVM.
2. Nhóm Sinh viên thực hiện
3. Giáo viên hướng dẫn
4. Lý do chọn đề tài
Trong thời đại bùng nổ công nghệ thông tin hiện nay, hệ thống dữ liệu số hoá trở nên khổng lồ để phục vụ cho việc lưu trữ trao đổi thông tin, dữ liệu số hoá này rất đa dạng - nó có thể là các dữ liệu dưới dạng tập tin văn bản text, tập tin văn bản MS Word, tập tin văn bản PDF, mail, HTML... Các tập tin văn bản cũng được lưu trữ trên máy tính cục bộ hoặc được truyền tải trên Intenet, cùng với thời gian và số lượng người dùng tăng nhanh thì các tập tin này ngày càng nhiều và đến một thời điểm nào đó thì số lượng tập tin này sẽ vượt quá tầm kiểm soát, do đó khi muốn tìm kiếm lại một văn bản nào đó việc tìm kiếm sẽ rất khó khăn và phức tạp, đặc biệt là trong trường hợp người cần tìm kiếm không nhớ rõ các câu cần tìm chính xác trong văn bản, do đó khi người sử dụng muốn sắp xếp các thông tin tìm được theo thể loại (nhóm văn bản) thì thời gian thực hiện sẽ mất rất nhiều thời gian và công sức bỏ ra cũng không phải nhỏ.
Từ các nhu cầu trên mà yêu cầu về một hệ thống nhận dạng và phân loại văn bản để đáp ứng yêu cầu phân loại văn bản sau đó mới thực hiện tìm kiếm được ra đời nhằm đáp ứng yêu cầu thực tế của người dùng. Đã có rất nhiều công trình nghiên cứu và ứng dụng thực tế dùng để thực hiện việc phân loại văn bản, tuy nhiên các ứng dụng đó cũng chưa thể đáp ứng hoàn toàn nhu cầu của người sử dụng, do vậy việc nghiên cứu đề tài: “Tìm hiểu phương pháp phân loại văn bản bằng SVM” là rất cần thiết.
5. Mục tiêu của đề tài
1. Tìm hiểu về bài toán xử lý văn bản, phân loại văn bản theo chủ đề.
2. Xây dựng một bản báo cáo về bài toàn xử lý văn bản, phân loại văn bản theo chủ đề, các phương pháp phân loại văn bảng, SVM.
3. Xây dựng chương trình demo phân loại văn bản bằng SVM.
6. Đối tượng nghiên cứu
- Bài toán phân loại văn bản.
- Phương pháp SVM.
- Ngôn ngữ lập trình C#.
7. Phạm vi nghiên cứu
- Đề tài tập trung nghiên cứu về bài toán phân loại văn bản, các phương pháp phân loại văn bản, phương pháp SVM.
- Sản phẩm của chuyên đề là sản phẩm minh họa (demo), có ứng dụng trong thực tế.
8. Phương pháp nghiên cứu
1. Phương pháp phân tích và tổng hợp lý thuyết: phân tích, nghiên cứu các tư liệu, tài liệu, lý luận từ nhiều nguồn, phân tích chúng thành từng bộ phận để tìm hiểu sâu sắc đề tài.
2. Phương pháp tham khảo tài liệu: tài liệu, báo cáo khoa học, bài tiểu luận, đồ án tốt nghiệp và tài liệu hội thảo đối tượng cần tìm hiểu.
3. Phương pháp tham khảo ý kiến chuyên gia: tham khảo ý kiến của Lãnh đạo Khoa, các thầy cô giáo có nhiều kinh nghiệm.
4. Phương pháp thực nghiệm: tiến hành cài đặt, vận hành và kiểm thử chương trình demo.
9. Nội dung nghiên cứu
Nội dung 1: Xử lý văn bản.
Nội dung 2: Bài toán phân loại văn bản theo chủ đề.
Nội dung 3: Phân loại văn bản tiếng việt chủ đề định sẵn.
10. Sản phẩm đạt được
- Về lý thuyết: quyển báo cáo chuyên đề. Cấu trúc quyển báo cáo gồm 3 chương:
Chương 1. Tổng quan về khai phá văn bản.
Chương 2. Bài toán phân loại văn bản theo chủ đề.
Chương 3. Tìm hiểu SVM và xây dựng chương trình demo.
- Về ứng dụng: Xây dựng chương trình phân loại văn bản tiếng việt.
Nguồn: Sharecode.vn