Hướng đi cho bài toán chat tự động (P1)

Dựa vào từ điển tiếng Việt có sẵn, phân loại các loại từ dựa trên VnTokenizer, sau đó nhặt ra các keywords. Từ keyword này -> tìm kiếm câu trả lời phù hợp trên database.

Mọi người có thể tra cứu bảng viết tắt của các từ loại (quy ước), về cây ngữ nghĩa, các cấu trúc câu thông dụng trong tiếng Việt ở trang này

Từ phần này ta có thể sử dụng lại (reuse) và phân tích câu hỏi (Question Analyze) dễ dàng hơn.

Ở kết quả nghiên cứu của nhóm nghiên cứu về Ontology trường ĐH Công nghệ có 1 phần như sau (file này em đã send qua email cho mọi người):

Sau đó, bước tiếp theo sẽ là xác định quan hệ giữa các cụm danh từ

{Verb}+{Noun Phrase}{Preposition}{Verb}?
{Verb}+{Preposition}?{Verb}?
({“có”} | {Verb}){Adjective}{Preposition}{Verb}?
{“có”}({Noun Phrase } | {Adjective}){“là”}

Rồi ta dùng phần xử lý về trùng mẫu (hay còn gọi là thuật toán Pattern Matching và theo như nghiên cứu của nhóm này thì ta sẽ rút ra được:

(question-structure, question-class, Term1, Relation,
Term2, Term3)

Từ đó ta có thể tự dự đoán hướng đi tiếp theo cho máy chat tự động: Sau khi xử lý các từ trong văn bản (ở đây là văn bản quy chế đào tạo trường ĐH FPT), ta nhập vào Ontology và mô hình hóa ngôn ngữ. Ví dụ như ở nhóm nghiên cứu của ĐH CN, họ đã nhập vào Ontology như sau:

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s