ลักษณะของข้อมูลที่ใช้ในการวิเคราะห์

สถิติศาสตร์ ไม้เบื่อไม้เมากับใครหลายๆคน จริงๆ ถ้าจับหลักการได้ ก็จะไม่ใช่เรื่องยากอีกต่อไป

ขั้นแรกเลย เราต้องรู้ประเภทของข้อมูล (type of data) ว่า ข้อมูลที่เราสนใจจัดอยู่ประเภทไหน
ขั้นที่ 2 ข้อมูลมีการแจกแจงแบบปกติ (Normal Distribution) หรือเปล่า
ขั้นที่ 3 ข้อมูลที่เราสนใจมีแค่กลุ่มเดียว สองกลุ่ม หรือมากกว่านั้น
ขั้นที่ 4 การเลือกใช้สถิติ ก็จะมาจากข้อ 1+3 ถ้าตอบตัวเองได้ ก็เลือกใช้สถิติถูก
ขั้นที่ 5 การสรุปผล หรือภาษาที่เราคุ้นเคยกันคือ มัน sig ไหม
ขั้นตอนหลักๆ ของสถิติ มีเพียง 5 ขั้นตอนเอง บางคนอ่านมาถึงตรงนี้ ก็ยังเกิดความสงสัยว่า มันง่ายตรงไหนว่ะ อ่านแล้วไม่เห็นจะเข้าใจเลย ก็ยังเลือกใช้สถิติไม่ถูกอยู่ดี 555

เอางี้ เริ่มจากขั้นที่ 1 ประเภทของข้อมูล แบ่งเป็น 2 ประเภทหลักๆ ได้แก่

  1. ข้อมูลเชิงปริมาณ หรือ Numerical/ Quantitative Data คือข้อมูลที่สามารถวัด หรือนับได้ทั้งสิ้นทั้งปวง เช่น อายุ, น้ำหนัก, ส่วนสูง ซึ่งยังสามารถแบ่งกลุ่มย่อยได้อีกคือ
    • Discreat Data คือ ข้อมูลที่ได้จากการนับ ส่วนใหญ่จะเป็นจำนวนเต็ม ไม่มีจุดทศนิยม เช่น จำนวนลูกค้าที่มาซื้อสินค้าในร้านค้า
    • Continuous Data คือ ช้อมูลที่ได้จากการวัด เช่น น้ำหนัก, ส่วนสูง เป็นต้น
  2. ข้อมูลเชิงคุณภาพ หรือ Category/ Qualitative Data คือ ข้อมูลที่แบ่งกลุ่มได้ทั้งหลาย แบ่งกลุ่มย่อยได้อีกเช่นกัน
  • Nominal Data คือ ข้อมูลที่แบ่งออกเป็นกลุ่มๆ ไม่สามารถนำตัวเลขมา บวก ลบ คูณ หาร กันได้ แค่แบ่งกลุ่มเฉยๆ เช่น เพศ
  • Ordinal Data ข้อมูลที่แบ่งออกเป็นกลุ่มๆนี่แหล่ะ แต่พิเศษกว่า คือ บอกลำดับของกลุ่มได้ แต่ก็ไม่สามารถนำตัวเลขนั้นมาลบกันได้นะ เช่น ระยะของโรคมะเร็ง แต่ละระยะมีความรุนแรงไม่เท่ากัน แต่เราไม่สามารถนำระยะเริ่มต้น ลบระยะสุดท้าย เพื่อหาผลต่างได้

หรือจะจำเป็นแผนผังก็ได้นะ ตามรูปที่แนบเลย น่าจะจำได้ง่ายกว่าที่ต้องมาอ่านอะไรยาวๆ นะคะ

---
บทความนี้เขียนโดย นางสาววราภรณ์ พิมา นักศึกษาหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ รุ่นที่ 2