Báo cáo công việc ngày 12.10 và hướng đi tiếp theo

Báo cáo công việc ngày 12.10

–       Xong hoàn toàn phần tách sử dụng API của JvnTextPro [1]

Các ý tưởng cho hướng đi tiếp theo

– Tách từ khóa (ý tưởng chung):

  • Với câu ngắn(k có từ ghép, hoặc k có từ nối) giữ nguyên.
  • Với câu có từ nối: bỏ từ nối.
  • Sử dụng KEA: Xây dựng corpus bằng dạng XML, đặt tag. Input: 1 văn bản bất kỳ, sử dụng thuật toán phân tích thô xem domain của nó là gì -> search TAG trong XML dựa trên domain đó-> xác định chủ đề cần tìm trong XML -> Tìm và so sánh -> Output: các thừ khóa đc extract.
  • Link: http://www.nzdl.org/Kea/

–       Phân tích câu (dùng cho cả phần văn bản lẫn câu hỏi):

  • Xử lý thô: Xác định chủ ngữ, vị ngữ, các loại từ trong câu, chủ thể được nói tới và các properties của chủ thể đó.
  • Xác định cấu trúc câu hỏi và loại câu hỏi.

[1] JvnTextPro by Cam-Tu Nguyen (ncamtu@gmail.com), Xuan-Hieu Pham (hieupx@gmail.com), Thu-Trang Nguyen (trangnt84@gmail.com)

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s