ลักษณะของข้อมูลที่ใช้ในการวิเคราะห์ ตอนที่ 2

[อ่านตอนที่ 1 ได้ที่นี่ครับ]

หลังจากห่างหายไปนาน วันนี้ถือโอกาสเล่าขั้นตอนที่ 2-5 ต่อจนจบเลยดีกว่าค่ะ

ขั้นที่ 2 ข้อมูลมีการแจกแจงแบบปกติ (Normal Distribution) หรือไม่

โดยส่วนใหญ่ตามตำราต่าง ๆ มักจะแนะนำให้ทดสอบด้วยสถิติ เช่น Kolmogorov-Smirnov Test หรือ Shapiro-Wilk W test หรือ การ plot graph เช่น Normal Probability Plot หรือ Histogram เป็นต้น แต่วันนี้ เรามีทางเลือกที่ง่ายกว่านั้น เพียงแค่เราพิจารณาจากค่า SD และ Mean เท่านั้น ไม่ต้องไปใช้สถิติทดสอบ หรือ plot graph ให้ปวดหัว  เนื่องจาก SD เป็นค่าที่ใช้วัดการกระจาย (Dispersion) ของข้อมูล ถ้าค่า SD ห่างจากค่า Mean มาก ๆ นั้นแปลว่า ข้อมูลของเรามีการกระจายสูงมาก โอกาสที่ข้อมูลจะเกาะกลุ่มเป็นโค้งระฆังคว่ำก็น้อย ดังนั้นแล้ว

  • ถ้า SD>Mean/2≠Normal Distribution

เมื่อเราทราบการแจกแจงของข้อมูลแล้ว ต่อไปเราก็จะเลือกใช้สถิติได้อย่างถูกต้องมากขึ้น เพราะเมื่อไหร่ที่ข้อมูลมีการแจกแจงแบบปกติ เราจะต้องเลือกใช้สถิติในหมวดพาราเมตริก (Parametric Statistics) แต่ถ้าข้อมูลไม่มีการแจกแจงแบบปกติ เราจะต้องเลือกใช้สถิติในหมวดไม่อิงพาราเมตริก (Nonparametric Statistics)

ขั้นที่ 3 ข้อมูลที่เราสนใจมีแค่กลุ่มเดียว สองกลุ่ม หรือมากกว่านั้น

พูดกันง่าย ๆ ว่าค่า Outcome ที่เราสนใจ มีแค่กลุ่มเดียว สองกลุ่ม หรือมากกว่านั้น เช่น Outcome ที่เราสนใจ มีแค่กลุ่มเดียว ได้แก่ เราสนใจการเสียชีวิตด้วยโรคมะเร็งในคนไทย เนื่องจากเราศึกษาในคนไทย ดังนั้น คนไทยจึงเป็นกลุ่มที่เราศึกษาเพียงกลุ่มเดียว แต่ถ้าเมื่อไหร่ก็ตาม ที่เราสนใจการเสียชีวิตด้วยโรคมะเร็งจำแนกตามเพศ นั่นแปลว่า Outcome ที่เราสนใจจะถูกแบ่งออกเป็น 2 กลุ่ม คือ เพศชาย และ เพศหญิงทันที

ขั้นที่ 4 การเลือกใช้สถิติ

มีความยากนิดหนึ่ง แต่ถ้ายังจำรูปจากขั้นที่ 1 ได้ ในขั้นนี้ก็จะต่อเนื่องกันมา จำเอาเลยละกันนะคะ

ขั้นที่ 5 การสรุปผล

เอาแบบง่าย ๆ ละกันค่ะ แต่ถ้าอยากทราบถึงที่มาที่ไป ให้ไปตามอ่านที่เพจ DataRockie อธิบายประวัติความเป็นมาของ P-value ได้ชัดเจน เพราะฉะนั้น สรุปง่าย ๆ คือ

  • ถ้า P-value ≤ α นั่นคือ ปฏิเสธ H0 ยอมรับ H1 แปลว่า การทดสอบมีนัยสำคัญ (Significant)
  • ถ้า P-value > α นั่นคือ ไม่สามารถปฏิเสธ H0 ได้ แปลว่า การทดสอบไม่มีนัยสำคัญ (Not Significant)

เป็นไงกันบ้างคะ กับ 5 ขั้นตอนของใช้สถิติศาสตร์ หวังว่าจะเป็นแนวทางในการใช้สถิติได้อย่างถูกต้องกับทุกท่านได้บ้างนะคะ

---
บทความนี้เขียนโดย นางสาววราภรณ์ พิมา นักศึกษาหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ รุ่นที่ 2