Trong văn bản với khối lượng lớn dữ liệu, ta cần bóc tách hoặc tìm kiếm 1 đối tượng cụ thể.
Việc tìm kiếm thông thường sẽ mất rất nhiều thời gian.
Những đối tượng cần tìm kiếm có giá trị không giống nhau, ví dụ tìm kiếm đối tượng là email có rất nhiều giá trị khác nhau như: abc@gmail.com, a_B_c@yahoo.com
Bằng cách sử dụng biểu thức chính quy (Regular Expression – RE) ta có thể tìm kiếm tất cả các giá trị dưới dạng cho sẵn bởi RE.
Mục đích của bài tập là nhận dạng được 9 thực thể trong văn bản cho trước: Email, số điện thoại, tên riêng, địa chỉ URL, ngày tháng,tiền tệ,IP, file bằng nhiều loại filter khác nhau
Ngoài ra chương trình có thể highlight từ khóa trong văn bản và đưa ra thống kê.
Nhằm mục đích dễ dàng sử dụng và phát triển, chương trình được xây dựng bằng ngôn ngữ C#.Net trên winsform. Dữ liệu đầu vào là file văn bản nhiều định dạng .rtf, txt, pdf, json, html...
Automat HỮU HẠN (FA : Finite Automata)
Nguồn: Sharecode.vn