ออนโทโลยีพ็อพพิวเลชันจากเอกสาร สำหรับโดเมนการท่องเที่ยว

บทคัดย่อ

              งานวิจัยนี้นำเสนอเทคนิคในการทำออนโทโลยีพ็อพพิวเลชันจากเอกสาร โดยประยุกต์ใช้เทคนิคการประมวลผลภาษาธรรมชาติ และเทคนิคการเรียนรู้ด้วยเครื่องจักร เพื่อเป็นการขยายความรู้ในออนโทโลยีในโดเมนที่สนใจให้มีปริมาณมากขึ้น เช่น โดเมนการท่องเที่ยว การแพทย์ และการเกษตร ซึ่งจะทำให้เกิดประสิทธิภาพในการนำออนโทโลยีไปประยุกต์ใช้ในงานต่างๆ เช่น ระบบ
ค้นคืนสารสนเทศ ระบบให้คำแนะนำ และระบบถามตอบ เป็นต้น โดยในงานวิจัยนี้สนใจสร้างออนโทโลยีในโดเมนการท่องเที่ยว การทำออนโทโลยีพ็อพพิวเลชัน คือ การเพิ่มอินสแตนซ์ให้กับ
คอนเซ็ปต์ในออนโทโลยี โดยอินสแตนซ์ส่วนใหญ่มักเป็นชื่อเฉพาะ เช่น ชื่อสถานที่ ดังนั้นจึงได้มีการประยุกต์ใช้เทคนิคการสกัดนิพจน์ระบุนามมาใช้ในการหาอินสแตนซ์ เริ่มต้นเอกสารนำเข้าจะถูกประมวลผลด้วยเทคนิคการประมวลผลภาษาธรรมชาติ คือ การตัดคำ และการกำกับหน้าที่ของคำ หลังจากนั้นจะถูกเรียนรู้ด้วยเทคนิค Conditional Random Fields (CRFs) เพื่อระบุขอบเขตของนิพจน์ระบุนาม ซึ่งได้แก่ ชื่อสถานที่ท่องเที่ยวต่าง ๆ และชื่อสถานที่ท่องเที่ยวเหล่านี้จะถูกจำแนกตามประเภทของคอนเซ็ปต์ หรือประเภทของสถานที่ท่องเที่ยวด้วยเทคนิค Feature-weight k-Nearest Neighbor นอกจากนี้ยังได้มีการประยุกต์ใช้เทคนิครูปแบบการเกิดร่วมกัน (Co-occurrence patterns) ในการสกัดความสัมพันธ์ระหว่างกิจกรรม กับสถานที่ท่องเที่ยวต่าง ๆ

             จากการทดลองกับเอกสารภาษาไทยในโดเมนการท่องเที่ยวจำนวน 121,567 คำ ผลการทดลองพบว่าสามารถสกัดชื่อสถานที่ท่องเที่ยวได้จำนวน 857 แห่ง สามารถสกัดกิจกรรม
การท่องเที่ยวได้จำนวน 84 กิจกรรม และสกัดความสัมพันธ์ได้จำนวน 941 ความสัมพันธ์ โดยขั้นตอนการสกัดชื่อสถานที่ท่องเที่ยวมีค่าความแม่นยำ (precision) 74.38% และค่าระลึก (recall) 71.06% และขั้นตอนสกัดความสัมพันธ์มีค่าความแม่นยำ (precision) 70.16% และค่าระลึก (recall) 69.07%

Abstract

                 This research proposes the technique for populating ontology from text using natural language processing and machine learning techniques. The objective of the ontology population is to extend the knowledge in the ontology for covering the interested domain such as tourism, medication and architecture. This enhances the efficient use of ontologies for various applications e.g. information retreival system, recommendation system and question answering system. In this research, It is focused on populating an ontology in the tourism domain. The ontology population task is adding instances to the concept in the ontology which most of the instances are unique names such as name of places. Therefore, the name entity recognition technique has been applied to find the instances. The first stage is input documents to be processed with natural language processing technique. Next, the Conditional Random Fields (CRFs), the supervised learning technique, is applied to identify the boundary of the name entity specifically name of places. These names related to their attractions are classified based to the concept or types of tourist attractions with Feature-weight k-Nearest Neighbor technique. Furthermore, co-occurrence patterns are used for extracting activity names and identified relationships between activities and attractions.
According to the experiment, 121,567 words in Thai travel domain documents, the results showed that the proposed techniques is able to extract 857 tourist attractions, 84 activity names and 941 relationships. The tourist attractions instances extracting step provided 74.38% and 71.06% of precision and recall measures respectively. In addtion, relationships extracting step yielded 70.16% of precision and 69.07% of recall measures.