การสกัดและเก็บรวบรวมความสัมพันธ์ ‘ส่วนของพืชสมุนไพร-สรรพคุณทางยา’จากเอกสารบนเว็บ

บทคัดย่อ

จุดประสงค์ของงานวิจัยนี้คือการสกัดและเก็บรวบรวมการสกัดและเก็บรวบรวมความสัมพันธ์ ‘ส่วนของพืชสมุนไพร-สรรพคุณทางยา’ จากเอกสารบนเว็บสมุนไพรของหน่วยงานหรือองค์กรที่เกี่ยวข้องกับดูแลรักษาพันธ์พืชสมุนไพรรวมทั้งการพัฒนาผลิตภัณฑ์ ผลของงานวิจัยนี้คือองค์ความรู้คุณสมบัติหรือสรรพคุณทางยาของพืชสมุนไพรบนพื้นฐานประโยคความเดียวหรืออีดียู (EDU, Elementary Discourse Unit) จำนวนหลายๆประโยค ซึ่งเป็นเป็นประโยชน์ต่อชาวบ้านหรือบุคคลทั่วไปในการใช้รักษาสุขภาพผ่านระบบถามตอบอัตโนมัติ อย่างไรก็ตามงานวิจัยนี้มีสี่ปัญหาหลัก: ปัญหาแรกคือ ซึ่งมักจะมีลักษณะปัญหาเป็น Zero Anaphora (การละคำสรรพนามที่ใช้อ้างอิงเอนทิตี้ เช่น พืชสมุนไพร) และ Textual Ellipsis (การละคำนาม เช่น เอนทิตี้พืชสมุนไพร)   ปัญหาที่สองคือ การระบุ EDU ที่มีแนวความคิดสรรพคุณทางยาสมุนไพรของเอนทิตี้พืชสมุนไพรและปัญหาที่สามคือ การหาขอบเขตของ ที่มีแนวความคิดสรรพคุณทางยาสมุนไพร ปัญหาที่สี่คือ การจัดเก็บความสัมพันธ์ ‘ส่วนของพืชสมุนไพร-สรรพคุณทางยา’ที่สกัดได้อย่างไรเพื่อทำให้สามารถเข้าถึงความสัมพันธ์ ‘ส่วนของพืชสมุนไพร-สรรพคุณทางยา’ ได้อย่างไม่ซับซ้อน ดังนั้นสำหรับปัญหาที่หนึ่งงานวิจัยนี้ได้ใช้กฏทางฮิวริสติค คือใช้คำนามที่เป็น Agent ของ EDU ก่อนหน้า มาเป็น Agent ของ EDU ที่ปรากฏ Zero Anaphora และการใช้  Topic name  สำหรับปัญหาTextual Ellipsis    ส่วนปัญหาที่สองงานวิจัยนี้เสนอการใช้ N-Word-Co ที่สกัดได้จากกริยาวลีของ EDU ต่างๆที่มีแนวความคิดสรรพคุณทางยา ของพืชสมุนไพร และเก็บรวบรวมไว้มาทำการระบุ EDU ที่มีแนวความคิดสรรพคุณทางยาสมุนไพร   นอกจากนี้งานวิจัยนี้ใช้ N-Word-Co ที่เก็บรวบรวมนั้น กับ Similarity Score   แก้ไขปัญหาที่สาม  และงานวิจัยนี้ได้ใช้เมตริกซ์ที่ประกอบด้วย ระหัสพืชสมุนไพร , ชื่อพืชสมุนไพร, ชื่อส่วนของพืชสมุนไพร, แนวความคิดสรรพคุณทางยา, และระหัสความสัมพันธ์ มาทำการเก็บรวบรวมข้อมูลเป็นตารางเพื่อแสดงความสัมพันธ์ ‘ส่วนของพืชสมุนไพร-สรรพคุณทางยา’ ในรูปแบบเครือข่ายเหมือน  CODASYL โดยการเรียงลำดับตาม ชื่อพืชสมุนไพรและ ชื่อส่วนของพืชสมุนไพร  ฉะนั้นผลลัพธ์จากงานวิจัยที่ได้เสนอนี้ สามารถสกัดความรู้เชิงความสัมพันธ์ ‘ส่วนของพืชสมุนไพร-สรรพคุณทางยา’ จากเอกสารภาษาไทยได้ค่าความแม่นยำ และค่าระลึก 90% และ77.5% ตามลำดับ

Abstract

This research aims to collect extracted Herb-MedicinalProperty relations from downloaded herbal-plant documents from several Thai herabal medicinal product associations for creating the herbal-medicinal-property-network based representation. An Herb-MedicinalProperty relation is a semantic relation between one herbal-plant-component concept and several herbal-medicinal-property-concept expressions on texts and vice versa.  An herbal-plant-component occurrence is a noun-phrase expression and each herbal-medicinal-property concept occurrence is an event expression by a verb-phrase of an EDU (where ‘EDU’ is an elementary discourse unit which is a simple sentence or a clause). The extracted Herb-MedicinalProperty relations as the property knowledge represented by a diagram of an herbal-medicinal-property network are the essential information for the social health-care problems.  In particularly, the herbal-medicinal-property network based representation benefits a recommendation system of solving health-problems on web-boards. The research has four problems: 1) the problems of the zero anaphora and the textual ellipsis for the herbal named-entity expression  2)how to identify an EDU with the herbal medicinal property concept  3)how to determine the boundary of several EDUs with the herbal medicinal property concepts 4)how to collect the extracted Herb-MedicinalProperty relations for facilely accessing through the relations for the herbal-medicinal-property-network representation. Therefore, we apply the heuristic rules for solving the first problem; using the previous noun as an agent to be the agent of the EDU containing the zero-anaphora agent and using the topic name to solve the textual ellipsis.  We propose applying a co-occurrence of N-Words (or N-Word-Co) including N-Word-Co size learning on the verb phrase to identify EDU with the herbal medicinal property concept from the documents. We also apply the similarity-score determination for solving the boundary of several EDUs with the herbal medicinal property concepts.  We then apply the matrix consisting 5 features of Herb ID, HerbName, HerbPlantPart Concept, Herbal-Medicinal-Property Concept, and Relation ID to create the network representation of the herbal-medicinal-property network liked CODASYL. The research results provide the 90% precision with 77.5% recall of  the Herb-MedicinalProperty relation extraction from the documents.