สถิติเป็นส่วนสำคัญของชีวิตมาช้านาน ผู้คนต้องเผชิญกับมันทุกที่ จากสถิติจะมีการสรุปข้อสรุปเกี่ยวกับโรคที่พบได้บ่อยและที่ใดมีความต้องการมากขึ้นในภูมิภาคใดภูมิภาคหนึ่งหรือในกลุ่มประชากรบางกลุ่ม แม้แต่การสร้างโครงการทางการเมืองของผู้สมัครรับเลือกตั้งเป็นหน่วยงานของรัฐก็ขึ้นอยู่กับข้อมูลทางสถิติ พวกเขายังถูกใช้โดยเครือข่ายค้าปลีกเมื่อซื้อสินค้า และข้อมูลเหล่านี้จะนำผู้ผลิตไปใช้ในข้อเสนอของพวกเขา
สถิติมีบทบาทสำคัญในชีวิตของสังคมและส่งผลกระทบต่อสมาชิกแต่ละคนแม้ในเรื่องเล็กน้อย ตัวอย่างเช่น หากตามสถิติแล้ว คนส่วนใหญ่ชอบเสื้อผ้าสีเข้มในเมืองหรือภูมิภาคใดเมืองหนึ่ง การค้นหาเสื้อกันฝนสีเหลืองสดใสที่มีลายพิมพ์ดอกไม้ในร้านท้องถิ่นจะเป็นเรื่องยากมาก แต่ปริมาณเท่าไหร่ข้อมูลเหล่านี้รวมกันแล้วมีผลกระทบหรือไม่? ตัวอย่างเช่น "นัยสำคัญทางสถิติ" คืออะไร? คำจำกัดความนี้มีความหมายว่าอย่างไร
นี่คืออะไร
สถิติในฐานะวิทยาศาสตร์ประกอบด้วยปริมาณและแนวคิดที่แตกต่างกัน หนึ่งในนั้นคือแนวคิดเรื่อง "นัยสำคัญทางสถิติ" นี่คือชื่อค่าของตัวแปร ความน่าจะเป็นที่ตัวบ่งชี้อื่น ๆ จะปรากฎขึ้นเล็กน้อย
ตัวอย่างเช่น 9 ใน 10 คนสวมรองเท้ายางในช่วงเช้าเพื่อเดินหาเห็ดในป่าฤดูใบไม้ร่วงหลังจากคืนฝนตก ความน่าจะเป็นที่ในบางจุด 8 ของพวกเขาจะสวมรองเท้าหนังนิ่มผ้าใบมีน้อยมาก ดังนั้น ในตัวอย่างนี้ หมายเลข 9 จึงเรียกว่า “นัยสำคัญทางสถิติ”
ดังนั้น หากเราพัฒนาตัวอย่างที่ใช้งานได้จริงเพิ่มเติม ร้านขายรองเท้าจะซื้อรองเท้าบูทยางในช่วงปลายฤดูร้อนในปริมาณที่มากกว่าช่วงเวลาอื่นๆ ของปี ดังนั้น ขนาดของค่าสถิติจึงมีผลกระทบต่อชีวิตปกติ
แน่นอน ในการคำนวณที่ซับซ้อน เช่น เมื่อคาดการณ์การแพร่กระจายของไวรัส ตัวแปรจำนวนมากจะถูกนำมาพิจารณา แต่สาระสำคัญของการกำหนดตัวบ่งชี้ที่สำคัญของข้อมูลทางสถิตินั้นคล้ายคลึงกัน โดยไม่คำนึงถึงความซับซ้อนของการคำนวณและจำนวนค่าตัวแปร
คำนวณอย่างไร
ใช้เมื่อคำนวณค่าของตัวบ่งชี้ "นัยสำคัญทางสถิติ" ของสมการ กล่าวคือสามารถโต้แย้งได้ว่าในกรณีนี้ทุกอย่างตัดสินโดยคณิตศาสตร์ตัวเลือกการคำนวณที่ง่ายที่สุดคือห่วงโซ่ของการดำเนินการทางคณิตศาสตร์ซึ่งเกี่ยวข้องกับพารามิเตอร์ต่อไปนี้:
- ผลลัพธ์สองประเภทที่ได้จากการสำรวจหรือการศึกษาข้อมูลวัตถุประสงค์ เช่น จำนวนการซื้อ แสดงด้วย a และ b;
- ตัวระบุขนาดตัวอย่างสำหรับทั้งสองกลุ่ม – n;
- มูลค่าของส่วนแบ่งตัวอย่างรวมกัน - p;
- ข้อผิดพลาดมาตรฐาน - SE.
ขั้นตอนต่อไปคือการกำหนดคะแนนการทดสอบโดยรวม - t ค่าของมันจะถูกเปรียบเทียบกับหมายเลข 1.96 1.96 คือค่าเฉลี่ยซึ่งแสดงช่วง 95% ตามฟังก์ชันการกระจายตัวของนักเรียน
คำถามมักเกิดขึ้นจากความแตกต่างระหว่างค่าของ n และ p ความแตกต่างนี้ง่ายต่อการชี้แจงด้วยตัวอย่าง สมมติว่ามีการคำนวณนัยสำคัญทางสถิติของความภักดีต่อผลิตภัณฑ์หรือแบรนด์ของผู้ชายและผู้หญิง
ในกรณีนี้ ตัวอักษรจะตามด้วย:
- n - จำนวนผู้ตอบแบบสอบถาม;
- p - จำนวนที่พึงพอใจในสินค้า
จำนวนผู้หญิงที่สัมภาษณ์ในกรณีนี้จะถูกกำหนดให้เป็น n1 ดังนั้นผู้ชาย - n2 ค่าเดียวกันจะมีตัวเลข "1" และ "2" ของสัญลักษณ์ p.
การเปรียบเทียบคะแนนสอบกับค่าเฉลี่ยของสเปรดชีตของนักเรียนกลายเป็นสิ่งที่เรียกว่า "นัยสำคัญทางสถิติ"
การยืนยันหมายความว่าอย่างไร
ผลการคำนวณทางคณิตศาสตร์ใด ๆ สามารถตรวจสอบได้ซึ่งสอนให้เด็ก ๆ ในโรงเรียนประถมศึกษา มีเหตุผลที่จะสมมติว่าเนื่องจากสถิติถูกกำหนดโดยใช้ห่วงโซ่ของการคำนวณ จึงมีการตรวจสอบ
อย่างไรก็ตาม การทดสอบนัยสำคัญทางสถิติไม่ใช่แค่คณิตศาสตร์ สถิติเกี่ยวข้องกับตัวแปรจำนวนมากและความน่าจะเป็นที่หลากหลาย ซึ่งไม่สามารถคล้อยตามการคำนวณได้เสมอ นั่นคือหากเราย้อนกลับไปที่ตัวอย่างรองเท้ายางในตอนต้นของบทความ การสร้างข้อมูลเชิงสถิติเชิงตรรกะที่ผู้ซื้อสินค้าสำหรับร้านค้าจะต้องพึ่งพาอาจถูกรบกวนด้วยสภาพอากาศที่แห้งและร้อนซึ่งไม่ปกติสำหรับฤดูใบไม้ร่วง. จากปรากฏการณ์นี้ จำนวนผู้ที่ซื้อรองเท้าบูทยางจะลดลงและร้านค้าจะขาดทุน แน่นอน สูตรทางคณิตศาสตร์ไม่สามารถคาดการณ์ความผิดปกติของสภาพอากาศได้ ช่วงเวลานี้เรียกว่า “ความผิดพลาด”
นั่นเป็นเพียงความน่าจะเป็นของข้อผิดพลาดดังกล่าวและคำนึงถึงการตรวจสอบระดับของนัยสำคัญที่คำนวณได้ โดยคำนึงถึงทั้งตัวชี้วัดที่คำนวณได้และระดับนัยสำคัญที่ยอมรับ ตลอดจนปริมาณที่เรียกว่าสมมติฐานตามอัตภาพ
ระดับความสำคัญคืออะไร
แนวคิดของ "ระดับ" รวมอยู่ในเกณฑ์หลักสำหรับนัยสำคัญทางสถิติ ใช้ในสถิติประยุกต์และเชิงปฏิบัติ นี่คือค่าประเภทหนึ่งที่คำนึงถึงความน่าจะเป็นของการเบี่ยงเบนหรือข้อผิดพลาดที่อาจเกิดขึ้น
ระดับขึ้นอยู่กับการระบุความแตกต่างในตัวอย่างสำเร็จรูป ช่วยให้คุณกำหนดนัยสำคัญหรือในทางกลับกัน เป็นการสุ่ม แนวคิดนี้ไม่เพียงแต่มีความหมายทางดิจิทัลเท่านั้น แต่ยังมีการตีความที่แปลกประหลาดอีกด้วย พวกเขาอธิบายวิธีที่คุณต้องเข้าใจคุณค่า และระดับนั้นถูกกำหนดโดยการเปรียบเทียบผลลัพธ์กับดัชนีเฉลี่ย ซึ่งเผยให้เห็นระดับความน่าเชื่อถือของความแตกต่าง
ดังนั้น เราสามารถจินตนาการแนวคิดของระดับได้ง่ายๆ - เป็นตัวบ่งชี้ข้อผิดพลาดหรือข้อผิดพลาดที่ยอมรับได้และน่าจะเป็นในข้อสรุปที่ได้จากข้อมูลสถิติที่ได้รับ
ใช้ระดับความสำคัญอะไร
นัยสำคัญทางสถิติของสัมประสิทธิ์ความน่าจะเป็นของข้อผิดพลาดในทางปฏิบัตินั้นอิงจากระดับพื้นฐานสามระดับ
ระดับแรกคือเกณฑ์ที่ค่าเป็น 5% นั่นคือความน่าจะเป็นของข้อผิดพลาดไม่เกินระดับนัยสำคัญที่ 5% ซึ่งหมายความว่าความเชื่อมั่นในความไร้ที่ติและความไม่ถูกต้องของข้อสรุปที่ทำขึ้นบนพื้นฐานของข้อมูลการวิจัยทางสถิติคือ 95%
ระดับที่สองคือเกณฑ์ 1% ดังนั้น ตัวเลขนี้หมายความว่าข้อมูลที่ได้รับระหว่างการคำนวณทางสถิติสามารถชี้นำได้ 99%
ระดับที่สาม - 0.1%. ด้วยค่านี้ ความน่าจะเป็นของข้อผิดพลาดจะเท่ากับเศษเสี้ยวของเปอร์เซ็นต์ กล่าวคือ ข้อผิดพลาดจะถูกลบออกในทางปฏิบัติ
สมมติฐานในสถิติคืออะไร
ข้อผิดพลาดตามแนวคิดแบ่งออกเป็นสองส่วน เกี่ยวกับการยอมรับหรือการปฏิเสธสมมติฐานว่าง สมมติฐานคือแนวคิดเบื้องหลังซึ่งตามคำจำกัดความ ชุดของผลการสำรวจ ข้อมูลหรือข้อความอื่น ๆ จะถูกซ่อนไว้ นั่นคือคำอธิบายของการแจกแจงความน่าจะเป็นของบางสิ่งที่เกี่ยวข้องกับหัวข้อการบัญชีทางสถิติ
มีสองสมมติฐานในการคำนวณอย่างง่าย - ศูนย์และทางเลือก ความแตกต่างระหว่างพวกเขาคือสมมติฐานว่างอยู่บนพื้นฐานของความคิดที่ว่าไม่มีความแตกต่างพื้นฐานระหว่างกลุ่มตัวอย่างที่เกี่ยวข้องในการกำหนดนัยสำคัญทางสถิติ และทางเลือกหนึ่งตรงกันข้ามกับมันอย่างสิ้นเชิง นั่นคือ สมมติฐานทางเลือกขึ้นอยู่กับการมีอยู่ของความแตกต่างที่มีนัยสำคัญในกลุ่มตัวอย่างเหล่านี้
ผิดพลาดยังไง
ข้อผิดพลาดเป็นแนวคิดในสถิติเป็นสัดส่วนโดยตรงกับการยอมรับสมมติฐานนี้หรือว่าเป็นจริง สามารถแบ่งออกเป็นสองทิศทางหรือประเภท:
- ประเภทแรกเกิดจากการยอมรับสมมติฐานว่างซึ่งกลายเป็นว่าไม่ถูกต้อง
- วินาที - เกิดจากการทำตามทางเลือก
ข้อผิดพลาดประเภทแรกเรียกว่าผลบวกลวง (false positive) และพบได้บ่อยในทุกพื้นที่ที่ใช้สถิติ ดังนั้นข้อผิดพลาดประเภทที่สองจึงเรียกว่าผลลบปลอม
ทำไมเราต้องถดถอยในสถิติ
นัยสำคัญทางสถิติของการถดถอยคือด้วยความช่วยเหลือ มันเป็นไปได้ที่จะกำหนดว่าแบบจำลองของการพึ่งพาต่างๆ ที่คำนวณบนพื้นฐานของข้อมูลที่สอดคล้องกับความเป็นจริงมากน้อยเพียงใด ช่วยให้คุณระบุความเพียงพอหรือขาดปัจจัยสำหรับการทำบัญชีและข้อสรุป
ค่าการถดถอยถูกกำหนดโดยการเปรียบเทียบผลลัพธ์กับข้อมูลที่แสดงในตารางฟิชเชอร์ หรือใช้การวิเคราะห์ความแปรปรวน ตัวบ่งชี้การถดถอยมีความสำคัญเมื่อการศึกษาทางสถิติที่ซับซ้อนและการคำนวณที่เกี่ยวข้องกับตัวแปรจำนวนมาก ข้อมูลสุ่มและการเปลี่ยนแปลงที่น่าจะเป็นไปได้