MỞ ĐẦU
-
Tính cấp thiết của chuyên đề
Nhận dạng là bài toán xuất hiện cách đây khá lâu và vẫn luôn thu hút được nhiều sự quan tâm, nghiên cứu. Đặc biệt là trong những năm gần đây, do sự phát triển của quá trình tin học hóa trong mọi lĩnh vực, bài toán nhận dạng đã trở thành một lĩnh vực để nghiên cứu áp dụng vào thực tế. Các bài toán nhận dạng đang được ứng dụng trong thực tế hiện nay tập trung vào nhận dạng mẫu, nhận dạng tiếng nói và nhận dạng chữ.
Trong đó nhận dạng chữ là một lĩnh vực đã được quan tâm nghiên cứu và đạt được những thành tựu lớn lao cả về mặt lý thuyết lẫn ứng dụng thực tế. Lĩnh vực nhận dạng chữ được chia làm hai loại: nhận dạng chữ viết máy và nhận dạng chữ viết tay. Nhận dạng chữ viết máy giúp phục vụ cho công việc tự động hóa tài liệu, tăng tốc độ và hiệu quả khi số hóa các tài liệu. Nhận dạng chữ viết tay phục vụ cho các ứng dụng đọc và xử lý chứng từ, hóa đơn, phiếu ghi, bản thảo,…
Mặc dù đã và đang có rất nhiều nghiên cứu về lĩnh vực nhận dạng chữ viết nhưng vẫn tồn tại nhiều hạn chế khi phải nhận dạng ảnh với chất lượng thấp, ảnh được nhận dạng có cấu trúc phức tạp với nhiều loại phông chữ khác nhau,…Các hệ thống nhận dạng ngày nay ngày càng được áp dụng các giải thuật học máy tiên tiến cùng với các thuật toán xử lý ảnh để xử lý dữ liệu ảnh vào cho kết quả nhận dạng tốt nhất. Có thể nói đây vẫn đang là vấn đề được nghiên cứu trong nhiều năm qua, các nghiên cứu gần đây tập trung vào phát triển và áp dụng các giải thuật học máy nhằm nâng cao chất lượng nhận dạng. Các giải thuật học máy như K láng giềng gần nhất, mạng Neural nhân tạo, máy vector hỗ trợ,…tỏ ra rất hiệu quả khi nhận dạng chữ viết trên ảnh tài liệu.
Trên đây đã điểm qua tầm quan trọng của bài toán nhận dạng chữ, đặc biệt là đối tượng chữ viết máy đã cho ta thấy rõ tính cần thiết và tính thực tiễn của vấn đề. Nhận thức được điều này, nhóm chúng em đã chọn chuyên đề “Nghiên cứu các phương pháp nhận dạng chữ viết máy” để làm chuyên đề này, trong đề tài này mục tiêu của em là giới thiệu tổng quan về lý thuyết nhận dạng mẫu, các hướng tiếp cận giải quyết bài toán nhận dạng mẫu, đồng thời cũng đề cập đến sơ đồ tổng quát của một hệ nhận chữ. Trên cơ sở đó, chúng em đề xuất các phương pháp và giải thuật khác nhau cho bài toán phát hiện và nhận dạng chữ viết máy nhằm giải quyết bài toán nhận dạng chữ viết máy trên ảnh, qua đó tiếp cận gần hơn lĩnh vực xử lý ảnh, bước đầu làm quen với các thuật toán nhận dạng, lập trình MFC và thư viện xử lý ảnh OpenCV. Cuối cùng chúng em xây dựng phần mềm demo nhận dạng chữ viết máy trên ảnh tài liệu được viết ngôn ngữ lập trình C++ dựa trên những gì đã tìm hiểu được, đây là tiền đề giúp cho công việc học tập và nghiên cứu sau này.
-
Mục tiêu của chuyên đề
- Trình bày tổng quan về lý thuyết nhận dạng và chữ viết máy.
- Trình bày bài toán nhận dạng chữ viết máy.
- Trình bày tổng quan về các phương pháp nhận dạng chữ viết máy.
- Xây dựng chương trình demo nhận dạng chữ viết máy trên ảnh tài liệu.
-
Đối tượng nghiên cứu
- Mô hình tổng quan về một hệ thống nhận dạng chữ viết máy.
- Các phương pháp nhận dạng chữ viết máy.
- Ngôn ngữ C++ và lập trình MFC.
-
Phạm vi nghiên cứu
- Ứng dụng trong các hệ thống nhận dạng chữ viết.
- Sản phẩm là phần mềm demo nhận dạng chữ viết máy.
- Ứng dụng của đề tài nghiên cứu là phục vụ cho học tập và nghiên cứu.
-
Phương pháp nghiên cứu
* Phương pháp chủ đạo
- Phương pháp nghiên cứu lý thuyết.
+ Tìm hiểu tổng quan về lý thuyết nhận dạng.
+ Tìm hiểu các hướng tiếp cận giải quyết bài toán nhận dạng mẫu.
+ Tìm hiểu sơ đồ tổng quát của một hệ nhận dạng chữ viết.
+ Tìm hiểu về một số phương pháp trích chọn đặc trưng và các giải thuật áp dụng cho nhận dạng chữ viết.
+ Tìm hiểu thư viện OpenCv và lập trình MFC.
- Phương pháp nghiên cứu thực nghiệm.
+ Tiến hành phân tích và cài đặt trên công cụ Visual Studio 2013.
+ Đánh giá kết quả đạt được.
* Phương pháp bổ trợ
- Phương pháp hỏi ý kiến chuyên gia.
- Phương pháp phân tích thống kê.
-
Nội dung nghiên cứu
- Nghiên cứu tổng quan về lý thuyết nhận dạng và chữ viết.
- Nghiên cứu bài toán phát hiện và nhận dạng chữ viết máy.
- Nghiên cứu các phương pháp nhận dạng chữ viết máy.
- Nghiên cứu xây dựng chương trình demo nhận dạng chữ viết máy.
-
Nội dung báo cáo của chuyên đề
Nội dung chính của chuyên đề được chia thành 5 phần như sau:
Mở đầu: Phần mở đầu này trình bày tính cấp thiết của chuyên đề, mục tiêu của chuyên đề, đối tượng, phạm vi, phương pháp và nội dung nghiên cứu. Nội dung các chương tiếp theo cụ thể như sau:
Chương 1. Tổng quan về nhận dạng chữ viết máy: Chương này trình bày một cách tổng quan về nhận dạng mẫu, các hướng tiếp cận để giải quyết bài toán nhận dạng mẫu. Ngoài ra còn giới thiệu sơ đồ tổng quát của một hệ nhận dạng chữ viết máy, các nghiên cứu liên quan tới bài toán phát hiện, nhận dạng chữ viết máy trên ảnh tài liệu và giới hạn bài toán thuộc phạm vi đề tài nghiên cứu.
Chương 2. Phương pháp nhận dạng chữ viết máy: Chương này đề xuất các giải pháp và thuật toán để nhận dạng chữ viết máy. Các đề xuất giải pháp tập trung cho việc nhận dạng các đối tượng là chữ viết máy trên ảnh tài liệu. Chia làm hai giai đoạn chính là phát hiện và nhận dạng chữ viết. Các kỹ thuật bao gồm: tiền xử lý; phân đoạn ảnh; trích chọn đặc trưng; phân lớp và nhận dạng; hậu xử lý.
Chương 3. Xây dựng phần mềm demo: Chương này giới thiệu về lập trình giao diện đồ hoạ MFC, đồng thời giới thiệu lại về thư viện OpenCV cũng như cách sử dụng, cài đặt khi xây dựng các ứng dụng có liên quan đến OpenCV. Trọng tâm chính của chương này chính là giới thiệu phần mềm demo nhận dạng chữ viết máy với giao diện đồ hoạ thân thiện với người sử dụng.
Kết luận: Phần này tổng kết các kết quả đã đạt được của chuyên đề cùng với các hướng phát triển trong tương lai.
Nguồn: Sharecode.vn