- 01) Executive Talk: Enhancing health science education with Standardized Patients (SPs) (8 views)
- 02)ผู้ป่วยมาตรฐานกับการศึกษาวิทยาศาสตร์สุขภาพ (Standardized Patients and health science education) (5 views)
- 03) Learning theories and the uses of Standardized Patients in Medical Schools (3 views)
- 04) การออกแบบสถานการณ์ผู้ป่วยมาตรฐานอย่างมีประสิทธิภาพ: แนวทางเชิงปฏิบัติผ่าน 7 องค์ประกอบ (3 views)
- 05) Assessment with Standardized Patients (4 views)
- 06) Standardized Patients Quality Improvement Project จากผู้ป่วยจำลองสู่ผู้ป่วยมาตรฐาน (2 views)
- 07) Message from Deputy Dean (3 views)
- 08) Students' voice: The Learners' Viewpoints on Standardized Patients (11 views)
- 09) เชิด-ชู: ผู้ได้รับรางวัลอายุรแพทย์ดีเด่น ด้านครูแพทย์ ประจำปี 2568 (3 views)
- 10) สับ สรรพ ศัพท์: High Fidelity Simulation, Role-Portrayal, Pre-Brief, Debriefing (5 views)
- 11) Educational Movement: Improving quality of Standardized patients in Thailand (4 views)
- 12) SHEE Sharing: Is the use of standardized patients more effective than role-playing in medical education? A meta-analysis (3 views)
- 13) SHEE Research: Action Research (3 views)
- 14) Click&Go with Technology: Virtual Standardized Patient: What They Can—and Cannot—Replace (3 views)
05
Assessment with Standardized Patients
ภาควิชาวิสัญญีวิทยา
คณะแพทยศาสตร์ศิริราชพยาบาล มหาวิทยาลัยมหิดล

การวัดและประเมินผลผู้เรียนในบริบทสาขาการศึกษาวิทยาศาสตร์สุขภาพได้พัฒนาอย่างต่อเนื่องจากการวัดความรู้เชิงทฤษฎีไปสู่การประเมินสมรรถนะเชิงปฏิบัติที่สะท้อนการดูแลผู้ป่วยจริง “ผู้ป่วยมาตรฐาน” (Standardized Patients: SPs) จึงกลายเป็นเครื่องมือสำคัญที่ช่วยให้การประเมินมีความสมจริง เป็นระบบ และมีความเป็นธรรมมากขึ้น แนวคิดการใช้ผู้ป่วยมาตรฐานได้รับการพัฒนาอย่างเป็นรูปธรรม ซึ่งแสดงให้เห็นว่าสามารถจำลองสถานการณ์ทางคลินิกได้อย่างมีมาตรฐานและควบคุมตัวแปรได้ดีกว่าการประเมินในสถานการณ์จริงเพียงอย่างเดียว
ในเชิงทฤษฎี การประเมินด้วยผู้ป่วยมาตรฐานสอดคล้องกับกรอบความคิดของ George E. Miller โดยเฉพาะระดับ “Shows How” ใน Miller’s Pyramid ซึ่งมุ่งประเมินความสามารถในการแสดงทักษะและพฤติกรรมทางคลินิก ไม่ใช่เพียงการอธิบายความรู้หรือการเลือกคำตอบที่ถูกต้อง นอกจากนี้ การเปลี่ยนผ่านสู่ระบบการจัดการศึกษาตามสมรรถนะ (competency-based medical education: CBME) และแนวคิดการประเมินแบบต่อเนื่องเชิงระบบ (programmatic assessment) ยิ่งทำให้บทบาทของ SP ขยายจากการใช้ในข้อสอบแบบ OSCE ไปสู่การเป็นแหล่งข้อมูลสำคัญในการตัดสินความก้าวหน้าของผู้เรียนในภาพรวม
จุดแข็งของการประเมินด้วยผู้ป่วยมาตรฐานคือความสามารถในการประเมินทักษะที่ซับซ้อน เช่น การสื่อสาร การแสดงความเห็นอกเห็นใจ ความเป็นมืออาชีพ การตัดสินใจเชิงคลินิก และการจัดการสถานการณ์ที่มีความละเอียดอ่อน ทั้งยังเปิดโอกาสให้ผู้เรียนได้รับข้อมูลสะท้อนกลับ (feedback) ที่เฉพาะเจาะจงและมีโครงสร้าง อย่างไรก็ตาม การออกแบบและดำเนินการประเมินด้วย SP จำเป็นต้องคำนึงถึงความเที่ยงตรง (validity) ความเชื่อมั่น (reliability) มาตรฐานการให้คะแนน การฝึกอบรมผู้ป่วยมาตรฐาน ตลอดจนประเด็นด้านจริยธรรมและความเป็นธรรม
บทความนี้มีวัตถุประสงค์เพื่อสังเคราะห์องค์ความรู้ แนวคิดเชิงทฤษฎี หลักฐานเชิงประจักษ์ และแนวทางปฏิบัติที่เกี่ยวข้องกับการประเมินด้วยผู้ป่วยมาตรฐาน โดยครอบคลุมตั้งแต่การออกแบบสถานี การพัฒนาเครื่องมือประเมิน ไปจนถึงหลักจิตวิทยาการวัด เพื่อให้ผู้อ่านสามารถนำไปประยุกต์ใช้ในการพัฒนาระบบประเมินที่มีคุณภาพ โปร่งใส และส่งเสริมการเรียนรู้ของผู้เรียนได้อย่างแท้จริง
กรอบแนวคิดพื้นฐาน (Conceptual Foundations)
การประเมินที่สอดคล้องกับบริบทจริง (Authentic Assessment) และ Constructive Alignment
การประเมินด้วยผู้ป่วยมาตรฐานจัดเป็นรูปแบบหนึ่งของ authentic assessment เนื่องจากมุ่งวัดความสามารถของผู้เรียนในการปฏิบัติงานที่ใกล้เคียงกับสถานการณ์จริงทางคลินิก ผู้เรียนต้องบูรณาการความรู้ ทักษะ และเจตคติในการจัดการผู้ป่วยอย่างครบถ้วน ไม่ใช่เพียงตอบคำถามเชิงทฤษฎี
ในขณะเดียวกัน การออกแบบการประเมินควรยึดหลัก constructive alignment คือ การจัดให้วัตถุประสงค์การเรียนรู้ (learning outcomes) วิธีการสอน และวิธีการประเมินสอดคล้องกันอย่างเป็นระบบ หากผลลัพธ์การเรียนรู้ระบุว่าผู้เรียนต้องสามารถสื่อสารข่าวร้ายอย่างมีความเห็นอกเห็นใจ การประเมินควรเปิดโอกาสให้ผู้เรียน “แสดงพฤติกรรม” ดังกล่าวผ่านสถานการณ์ SP ที่ออกแบบมาอย่างเหมาะสม พร้อมเกณฑ์การประเมินที่สะท้อนสมรรถนะนั้นโดยตรง
ความสัมพันธ์กับการประเมินในสถานที่ปฏิบัติงานจริง (Workplace-Based Assessment)
แม้การประเมินด้วยผู้ป่วยมาตรฐานจะเกิดขึ้นในบริบทจำลอง แต่มีความเชื่อมโยงอย่างใกล้ชิดกับการประเมินในสถานที่ปฏิบัติงานจริง (workplace-based assessment: WBA) ทั้งสองรูปแบบมีเป้าหมายร่วมกันคือการประเมินสมรรถนะเชิงปฏิบัติในระดับ “การลงมือทำ”
จุดเด่นของ SP คือการควบคุมตัวแปรและความเป็นมาตรฐาน ทำให้เหมาะสำหรับการเปรียบเทียบผลและการตัดสินเชิงสรุป (summative decisions) ขณะที่ WBA ให้ข้อมูลจากบริบทจริงซึ่งสะท้อนความซับซ้อนของการทำงานประจำวันมากกว่า ดังนั้น ในระบบการประเมินแบบองค์รวม (programmatic assessment) การใช้ SP ควรถูกมองว่าเป็นหนึ่งในแหล่งข้อมูลที่สำคัญ ซึ่งเมื่อผสานกับข้อมูลจาก WBA การสอบข้อเขียน และข้อมูลเชิงบรรยาย จะช่วยให้การตัดสินความก้าวหน้าของผู้เรียนมีความรอบด้านและน่าเชื่อถือยิ่งขึ้น
การประเมินสมรรถนะเฉพาะด้าน (Assessment of Specific Competencies)
การประเมินด้วย SP มีความโดดเด่นในการวัดสมรรถนะที่ซับซ้อนและเกี่ยวข้องกับพฤติกรรมเชิงมนุษยสัมพันธ์ ซึ่งยากต่อการประเมินด้วยข้อสอบข้อเขียนเพียงอย่างเดียว โดยสามารถประเมินทักษะเหล่านี้ได้
ทักษะการสื่อสาร (Communication Skills)
SP เหมาะอย่างยิ่งสำหรับการประเมินสถานการณ์ที่ละเอียดอ่อน เช่น
- การแจ้งข่าวร้าย (breaking bad news)
- การขอความยินยอมในการรักษา (informed consent)
- การอธิบายความเสี่ยงและทางเลือกการรักษา
โดยผู้เรียนต้องแสดงความชัดเจน ความเห็นอกเห็นใจ และการตอบสนองต่ออารมณ์ผู้ป่วย ซึ่งสามารถสังเกตและให้คะแนนได้อย่างเป็นรูปธรรม

ความเป็นมืออาชีพและจริยธรรม (Professionalism and Ethics)
สถานการณ์การประเมินโดยใช้ SP สามารถออกแบบให้มีประเด็นด้านจริยธรรม เช่น ความลับผู้ป่วย ความขัดแย้งทางผลประโยชน์ หรือการจัดการกับพฤติกรรมไม่เหมาะสม การประเมินพฤติกรรมเหล่านี้ช่วยสะท้อนคุณลักษณะเชิงวิชาชีพของผู้เรียน
การให้เหตุผลเชิงคลินิก (Clinical Reasoning)
แม้การประเมินโดยใช้ SP จะเน้นพฤติกรรมเชิงปฏิบัติ แต่สามารถออกแบบกรณีที่ท้าทายกระบวนการคิด เช่น การซักประวัติแบบ hypothesis-driven การสรุปปัญหา และการเสนอแผนการรักษาที่สมเหตุสมผล การสังเกตลำดับคำถามและการสังเคราะห์ข้อมูลช่วยสะท้อนคุณภาพของ clinical reasoning
ความสามารถด้านวัฒนธรรม (Cultural Competence)
การประเมินโดยใช้กรณี SP สามารถสะท้อนความหลากหลายทางวัฒนธรรม ภาษา หรือความเชื่อทางสุขภาพ เพื่อประเมินว่าผู้เรียนมีความไวต่อบริบททางสังคมและสามารถสื่อสารอย่างเคารพต่อความแตกต่างได้หรือไม่ เช่น ในชุมชนที่มีความเชื่อทางศาสนาที่แตกต่างจากประชากรทั่วไป
การทำงานร่วมกันระหว่างวิชาชีพ (Interprofessional Collaboration)
ในบริบท hybrid simulation หรือสถานการณ์ทีม ผู้เรียนสามารถถูกประเมินในด้านการสื่อสารกับทีม การแบ่งบทบาท ความเป็นผู้นำ และการใช้ closed-loop communication เช่น การให้นักศึกษาฝึกแบ่งตำแหน่งหน้าที่และประสานงานในทีมระหว่างทำสถานการณ์จำลอง ซึ่งการประเมินลักษณะนี้ช่วยสะท้อนความพร้อมของผู้เรียนในการทำงานในระบบสุขภาพจริงที่ต้องอาศัยความร่วมมือข้ามวิชาชีพ
โดยสรุป การประเมินด้วยผู้ป่วยมาตรฐานที่มีคุณภาพต้องตั้งอยู่บนรากฐานทางจิตวิทยาการวัดที่แข็งแรง ควบคู่กับการออกแบบกรณีที่สอดคล้องกับสมรรถนะเป้าหมาย เพื่อให้ผลการประเมินมีทั้งความน่าเชื่อถือ ความเที่ยงตรง และคุณค่าเชิงการเรียนรู้ในระยะยาว
การออกแบบการประเมินด้วยผู้ป่วยมาตรฐาน (Designing SP-Based Assessment)
การออกแบบการประเมินด้วยผู้ป่วยมาตรฐาน จำเป็นต้องอาศัยการวางแผนอย่างเป็นระบบ ครอบคลุมตั้งแต่การกำหนดกรอบสมรรถนะ การพัฒนากรณีศึกษา การคัดเลือกและฝึกอบรม SP ไปจนถึงการเลือกเครื่องมือประเมินที่เหมาะสม งานทบทวนวรรณกรรมชี้ให้เห็นว่า SP เป็นองค์ประกอบสำคัญของการจัดการเรียนรู้แบบ simulation-based training ซึ่งมีบทบาททั้งในด้านการพัฒนาทักษะและการประเมินผลอย่างมีมาตรฐาน และได้รับการสนับสนุนอย่างกว้างขวางในวรรณกรรมการศึกษาแพทย์
การวางผังข้อสอบ (Blueprinting)
การเชื่อมโยงกรณีกับสมรรถนะและ EPAs
ขั้นตอนแรกของการออกแบบ SP-based assessment คือการจัดทำ blueprint เพื่อกำหนดว่าแต่ละสถานีหรือกรณีศึกษาจะประเมินสมรรถนะใด เช่น ทักษะการสื่อสาร การซักประวัติ การตรวจร่างกาย ความเป็นมืออาชีพ หรือการตัดสินใจเชิงคลินิก การกำหนด blueprint ที่ชัดเจนช่วยให้การประเมินมีความตรงตามเนื้อหา (content validity) และสอดคล้องกับผลลัพธ์การเรียนรู้ (learning outcomes)
ในบริบทของ CBME ควรเชื่อมโยงกรณี SP เข้ากับ EPAs อย่างชัดเจน เช่น EPA ด้านการดูแลผู้ป่วยรายใหม่ การสื่อสารข่าวร้าย หรือการขอความยินยอมรักษา ทั้งนี้ การประเมินควรมีเครื่องมือที่เป็นมาตรฐานและสอดคล้องกับกรอบสมรรถนะวิชาชีพ

การกระจายเนื้อหาอย่างสมดุล (Content Balancing)
การวาง blueprint ควรคำนึงถึงความสมดุลของเนื้อหา เช่น
- การกระจายตามระบบอวัยวะ
- การกระจายตามระดับความซับซ้อน
- การกระจายตามมิติของสมรรถนะ (ความรู้ ทักษะ เจตคติ)
การจัดสรรเนื้อหาอย่างเหมาะสมช่วยลดอคติจากกรณีเฉพาะ (case specificity) และเพิ่มความน่าเชื่อถือของผลการประเมิน
การพัฒนากรณีศึกษา (Case Development)
การเขียนบทมาตรฐาน (Standardized Scripts)
การพัฒนากรณี SP ต้องเริ่มจากการเขียนบท (script) ที่ละเอียด ครอบคลุมข้อมูลสำคัญ ได้แก่
- อาการสำคัญ
- ประวัติการเจ็บป่วย
- ประวัติส่วนตัวและครอบครัว
- อารมณ์และท่าทีของผู้ป่วย
- คำตอบต่อคำถามที่คาดว่าจะได้รับ
บทต้องมีความชัดเจนเพียงพอเพื่อให้ SP ทุกคนสามารถแสดงได้อย่างสม่ำเสมอ ลดความแปรปรวนที่ไม่จำเป็นในการประเมิน การใช้ SP ที่ได้รับการฝึกอย่างเป็นระบบช่วยเพิ่มความสม่ำเสมอของประสบการณ์ผู้เรียน
การถ่ายทอดอารมณ์ (Emotional Portrayal)
SP ต้องสามารถถ่ายทอดอารมณ์ได้อย่างสมจริง เช่น ความวิตกกังวล ความโกรธ ความเศร้า หรือความสับสน เพื่อกระตุ้นการตอบสนองเชิงพฤติกรรมจากผู้เรียน งานวิจัยเปรียบเทียบระหว่าง SP กับเทคโนโลยีอื่น เช่น VR หรือ mannequin พบว่าปฏิสัมพันธ์กับมนุษย์จริงสามารถกระตุ้นการตอบสนองเชิงอารมณ์และทักษะการสื่อสารได้ดีกว่า

การสะท้อนความหลากหลายทางวัฒนธรรม (Cultural Representation)
การออกแบบกรณีควรคำนึงถึงบริบททางสังคมและวัฒนธรรม เช่น ภาษา ความเชื่อด้านสุขภาพ หรือปัจจัยทางสังคมเศรษฐกิจ เพื่อสะท้อนความเป็นจริงของผู้ป่วยในสังคม ควรมีแนวทางประเมินแบบสหสาขา (multidisciplinary assessment) และคำนึงถึงความหลากหลายทางวัฒนธรรม
การคงไว้ซึ่งความสมจริง (Ensuring Authenticity)
แม้การจำลองจะไม่สามารถแทนที่สถานการณ์จริงได้ทั้งหมด แต่การออกแบบกรณีที่มีบริบทชัดเจน ลำดับเหตุการณ์สมเหตุสมผล และปฏิกิริยาของผู้ป่วยที่สอดคล้องกับสถานการณ์ จะช่วยเพิ่มความสมจริงและความมีคุณค่าทางการศึกษา
การคัดเลือกและการฝึกอบรม SP (SP Recruitment and Training)
เกณฑ์การคัดเลือก (Selection Criteria)
SP ควรมีคุณลักษณะดังนี้
- ความสามารถในการจดจำบทและแสดงบทบาทได้สม่ำเสมอ
- ทักษะการสื่อสารที่ดี
- ความสามารถในการให้ feedback อย่างสร้างสรรค์
- ความรับผิดชอบและตรงต่อเวลา
SP ต้องได้รับการฝึกอย่างรอบคอบเพื่อให้สามารถถ่ายทอดลักษณะผู้ป่วยได้อย่างแม่นยำและสม่ำเสมอ
การปรับมาตรฐานและความสม่ำเสมอ (Calibration and Consistency)
ก่อนการสอบหรือกิจกรรมประเมิน ควรมีการฝึกซ้อม (rehearsal) และ calibration session เพื่อให้ SP ทุกคน
- ให้ข้อมูลตรงกัน
- แสดงอารมณ์ในระดับใกล้เคียงกัน
- ใช้เกณฑ์การให้คะแนนอย่างสอดคล้อง
ความสม่ำเสมอนี้เป็นหัวใจของคำว่า “standardized” และส่งผลต่อความเชื่อมั่นของการประเมิน
การฝึก SP ให้เป็นผู้ประเมินและผู้ให้ข้อมูลสะท้อนกลับ
งานวิจัยพบว่า SP สามารถมีบทบาทเป็นผู้ให้ feedback ที่มีคุณค่า โดยเฉพาะด้านการสื่อสารและความเห็นอกเห็นใจ ดังนั้น ควรฝึก SP ในการ
- ใช้เกณฑ์ประเมินที่กำหนด
- ให้ข้อมูลสะท้อนกลับตามพฤติกรรมที่สังเกตได้
- แยกแยะความคิดเห็นส่วนตัวออกจากข้อเท็จจริง
เครื่องมือประเมิน (Assessment Instruments)
การเลือกเครื่องมือประเมินควรสอดคล้องกับวัตถุประสงค์ของสถานี SP และลักษณะสมรรถนะที่ต้องการวัด
แบบตรวจรายการ (Checklists)
Checklist เป็นเครื่องมือเชิงวิเคราะห์ (analytic scoring) ที่ระบุพฤติกรรมหรือขั้นตอนเฉพาะ เช่น
- ถามอาการสำคัญครบถ้วน
- ตรวจร่างกายตามลำดับ
- อธิบายแผนการรักษาชัดเจน
ข้อดีคือมีความชัดเจนและลดความคลุมเครือในการให้คะแนน แต่ข้อจำกัดคืออาจไม่สะท้อนคุณภาพโดยรวมของการสื่อสารหรือความเป็นมืออาชีพ
การประเมินแบบภาพรวม (Global Rating Scales)
Global rating scales ใช้การประเมินภาพรวม เช่น
- ความสามารถในการสื่อสาร
- ความเป็นมืออาชีพ
- ความมั่นใจและความเหมาะสม
โดยตั้งหัวข้อประเมินที่ครอบคลุม เช่น ความสามารถในการสื่อสารด้วยภาษาที่เหมาะสม ความสามารถในการรับมือสถานการณ์เฉพาะหน้าได้อย่างมืออาชีพ และตั้ง scale ที่มีความเหมาะสม เช่น 1-5 โดยที่ระบุชัดเจนว่าแต่ละระดับคืออะไร ทั้งนี้ ควรมีการพัฒนาเครื่องมือที่เป็นมาตรฐานและสะท้อนสมรรถนะเชิงวิชาชีพอย่างรอบด้าน ออกแบบให้ใช้งานง่าย เนื่องจากแบบประเมินที่ดีสามารถเพิ่ม reliability ของการวัดผลได้
แนวทางผสมผสาน (Hybrid Scoring Approaches)
การใช้ checklist ร่วมกับ global rating scale ช่วยให้ได้ข้อมูลทั้งเชิงปริมาณและเชิงคุณภาพ เพิ่มความครอบคลุมของการประเมิน และลดข้อจำกัดของแต่ละเครื่องมือเมื่อใช้เพียงลำพัง
กรอบการให้ข้อคิดเห็นเชิงบรรยาย (Narrative Comment Frameworks)
นอกจากคะแนนเชิงตัวเลข การบันทึกข้อคิดเห็นเชิงบรรยาย (narrative comments) ช่วยสะท้อนพฤติกรรมที่ซับซ้อน เช่น ความเห็นอกเห็นใจ ความไวต่อบริบททางสังคม หรือการตอบสนองต่ออารมณ์ผู้ป่วย ซึ่งเป็นองค์ประกอบสำคัญของความสามารถทางวิชาชีพ
ประเด็นด้านจิตวิทยาการวัดและการประกันคุณภาพ (Psychometric and Quality Assurance Considerations)
การประเมินด้วยผู้ป่วยมาตรฐาน โดยเฉพาะในบริบทที่มีผลกระทบสูง (high-stakes assessment) จำเป็นต้องอาศัยหลักฐานด้านจิตวิทยาการวัดที่ชัดเจน เพื่อให้ผลการประเมินมีความน่าเชื่อถือ เป็นธรรม และสามารถใช้ประกอบการตัดสินเชิงวิชาชีพได้อย่างเหมาะสม การออกแบบและดำเนินการสอบจึงต้องคำนึงถึงทั้งความเชื่อมั่น (reliability) ความเที่ยงตรง (validity) และกระบวนการกำหนดเกณฑ์ผ่าน (standard setting) อย่างเป็นระบบ
ความเชื่อมั่นของการประเมิน (Reliability)
ความสอดคล้องระหว่างผู้ประเมิน (Inter-rater Reliability)
ในการประเมินแบบ SP ผู้ให้คะแนนอาจเป็นอาจารย์ ผู้ป่วยมาตรฐาน หรือผู้ประเมินร่วมหลายคน ความสอดคล้องของคะแนนระหว่างผู้ประเมินเป็นปัจจัยสำคัญที่ส่งผลต่อความน่าเชื่อถือของผลลัพธ์ การจัดการฝึกอบรมผู้ประเมิน (rater training) การใช้เกณฑ์ที่ชัดเจน และการทำ calibration session ล้วนช่วยลดความคลาดเคลื่อนจากความแตกต่างเชิงบุคคล
ความจำเพาะของกรณี (Case Specificity)
ผลการประเมินในสถานีหนึ่งอาจไม่สะท้อนสมรรถนะโดยรวมของผู้เรียนทั้งหมด เนื่องจากแต่ละกรณีมีบริบทและเนื้อหาที่แตกต่างกัน ปรากฏการณ์นี้เรียกว่า case specificity ดังนั้น การเพิ่มจำนวนสถานี การกระจายเนื้อหาอย่างเหมาะสม และการออกแบบ blueprint ที่รอบคอบ จึงเป็นแนวทางสำคัญในการเพิ่มความเชื่อมั่นของการสอบ
การใช้ทฤษฎีความสามารถทั่วไป (Generalizability Theory)
Generalizability Theory (G-theory) เป็นกรอบทางสถิติที่ช่วยวิเคราะห์แหล่งที่มาของความแปรปรวนในคะแนน เช่น ความแตกต่างจากผู้สอบ ผู้ประเมิน หรือกรณีศึกษา การประยุกต์ใช้ G-theory ช่วยให้ผู้ออกแบบการสอบสามารถตัดสินใจได้ว่าควรเพิ่มจำนวนสถานี เพิ่มจำนวนผู้ประเมิน หรือปรับโครงสร้างการสอบในลักษณะใด เพื่อให้ได้ระดับความเชื่อมั่นที่เพียงพอสำหรับการตัดสินเชิงสรุปผล
หลักฐานความเที่ยงตรง (Validity Evidence)
แนวคิดร่วมสมัยเกี่ยวกับความเที่ยงตรงมองว่า validity มิใช่คุณสมบัติของเครื่องมือเพียงอย่างเดียว แต่เป็นหลักฐานที่สนับสนุนการตีความและการใช้คะแนนอย่างเหมาะสม หลักฐานความเที่ยงตรงของการประเมินด้วย SP สามารถพิจารณาได้จากหลายแหล่ง ดังนี้
ความตรงตามเนื้อหา (Content Validity)
การออกแบบสถานี SP ต้องสะท้อนเนื้อหาและสมรรถนะที่ต้องการวัดอย่างครบถ้วน การใช้ blueprint และการมีผู้เชี่ยวชาญร่วมพิจารณาความเหมาะสมของกรณีช่วยสนับสนุนหลักฐานด้านนี้
กระบวนการตอบสนอง (Response Process)
หมายถึงความสอดคล้องระหว่างกระบวนการคิดหรือการปฏิบัติของผู้เรียนกับสิ่งที่เครื่องมือออกแบบไว้ รวมถึงความเข้าใจของผู้ประเมินต่อเกณฑ์การให้คะแนน การฝึก SP และผู้ประเมินอย่างเป็นระบบช่วยลดความคลาดเคลื่อนในกระบวนการตอบสนอง
โครงสร้างภายใน (Internal Structure)
เกี่ยวข้องกับความสัมพันธ์ระหว่างองค์ประกอบต่าง ๆ ของเครื่องมือ เช่น ความสอดคล้องของข้อรายการใน checklist หรือความสัมพันธ์ระหว่างคะแนนสถานีต่าง ๆ การวิเคราะห์ทางสถิติ เช่น การวิเคราะห์องค์ประกอบ (factor analysis) สามารถใช้สนับสนุนหลักฐานด้านนี้
ความสัมพันธ์กับตัวแปรอื่น (Relationship to Other Variables)
คะแนนจาก SP assessment ควรมีความสัมพันธ์ในทิศทางที่สมเหตุสมผลกับตัวชี้วัดอื่น เช่น คะแนนการประเมินในสถานที่ปฏิบัติงานจริง (workplace-based assessment) หรือคะแนนสอบข้อเขียน หากพบความสัมพันธ์ที่สอดคล้องกัน จะช่วยสนับสนุนความเที่ยงตรงของการตีความคะแนน
ผลกระทบของการประเมิน (Consequences of Assessment)
ควรพิจารณาผลกระทบทั้งเชิงบวกและเชิงลบ เช่น การส่งเสริมการเรียนรู้ การกระตุ้นให้ผู้เรียนพัฒนาทักษะการสื่อสาร หรือในทางกลับกัน ความเครียดหรือแรงกดดันที่อาจเกินจำเป็น การประเมินที่ดีควรส่งผลในทางสร้างสรรค์และเป็นธรรมต่อผู้เรียน
การกำหนดเกณฑ์ผ่าน (Standard Setting)
ในบริบทการประเมินเชิงสรุปผล จำเป็นต้องมีวิธีการกำหนดเกณฑ์ผ่านที่เป็นระบบและโปร่งใส โดยสามารถเลือกการตั้งเกณฑ์ผ่านที่เหมาะสมกับบริบท อาจใช้ วิธี Modified Angoff วิธี Borderline Regression หรือ วิธี Contrasting Groups ก็ได้
Modified Angoff
เป็นวิธีที่ผู้เชี่ยวชาญพิจารณาว่าผู้เรียนระดับ “ผ่านขั้นต่ำ” (minimally competent candidate) ควรจะสามารถทำแต่ละรายการได้หรือไม่ แล้วนำค่าประมาณเหล่านั้นมาคำนวณเป็นคะแนนผ่านรวม กล่าวคือ ให้ผู้เชี่ยวชาญมาตรวจสอบทีละรายการ แล้วคาดคะเนว่า ผู้เรียนกลุ่มคาบเส้น (borderline) น่าจะทำรายการนั้น ๆ ถูกกี่ percent ซึ่งวิธีนี้เหมาะสำหรับเครื่องมือแบบ checklist และข้อสอบที่มีโครงสร้างชัดเจน
Borderline Regression
ใช้ข้อมูลคะแนนภาพรวม (global rating) ของผู้เรียนกลุ่ม borderline มาวิเคราะห์ร่วมกับคะแนนเชิงปริมาณ เพื่อกำหนดจุดตัดผ่านอย่างมีหลักฐานเชิงประจักษ์ กล่าวคือ ผู้ประเมินไม่ใช้เพียงคะแนนดิบ แต่นำคะแนนภาพรวมมาใช้ร่วมในการชั่งน้ำหนักเกณฑ์ผ่านด้วย ซึ่งวิธีนี้นิยมใช้ใน OSCE ที่มีทั้ง checklist และ global rating
Contrasting Groups
อาศัยการเปรียบเทียบคะแนนของกลุ่มผู้เรียนที่ได้รับการตัดสินว่า “ผ่าน” และ “ไม่ผ่าน” จากการประเมินโดยผู้เชี่ยวชาญ แล้วหาจุดตัดที่เหมาะสมจากการกระจายคะแนนของทั้งสองกลุ่ม กล่าวคือ นำคะแนนของกลุ่ม "เก่งมาก" กับกลุ่มที่ "ไม่เก่งอย่างมาก" มา plot ลง graph และหาจุดที่คะแนนของสองกลุ่มนี้ ตัดกัน (intersect) แล้วนำไปใช้เป็นเกณฑ์ผ่าน
บทสรุป
การประเมินด้วยผู้ป่วยมาตรฐาน เป็นเครื่องมือสำคัญในการประเมินสมรรถนะเชิงปฏิบัติของผู้เรียนในบริบทการศึกษาวิทยาศาสตร์สุขภาพในยุคปัจจุบัน โดยเฉพาะทักษะการสื่อสาร ความเป็นมืออาชีพ และการให้เหตุผลเชิงคลินิก SP ช่วยสร้างสภาพแวดล้อมที่ปลอดภัย มีมาตรฐาน และเอื้อต่อการให้ข้อมูลสะท้อนกลับอย่างมีคุณภาพ การออกแบบการประเมินต้องอาศัยการวาง blueprint ที่ชัดเจน เครื่องมือประเมินที่เหมาะสม และหลักฐานด้านจิตวิทยาการวัดที่รองรับ เพื่อให้ผลการประเมินมีความน่าเชื่อถือและเที่ยงตรง นอกจากนี้ การบูรณาการ SP เข้ากับระบบ programmatic assessment ช่วยให้การตัดสินความก้าวหน้าของผู้เรียนมีความรอบด้าน อย่างไรก็ตาม ควรตระหนักถึงข้อจำกัดด้านความสมจริง ภาระของ SP และความยั่งยืนทางทรัพยากร เพื่อให้การใช้ SP เป็นไปอย่างสมดุล มีจริยธรรม และส่งเสริมการเรียนรู้อย่างแท้จริงในระยะยาว
References
1. Flanagan OL, Cummings KM, Cummings K. Standardized patients in medical education: a review of the literature. Cureus. 2023;15(7).2. Elendu C, Amaechi DC, Okatta AU, Amaechi EC, Elendu TC, Ezeh CP, Elendu ID. The impact of simulation-based training in medical education: A review. Medicine. 2024;103(27):e38813.
3. Herrera-Aliaga E, Estrada LD. Trends and innovations of simulation for twenty first century medical education. Frontiers in Public Health. 2022;10:619769.
4. Koukourikos K, Tsaloglidou A, Kourkouta L, Papathanasiou IV, Iliadis C, Fratzana A, Panagiotou A. Simulation in clinical nursing education. Acta Informatica Medica. 2021;29(1):15.
รศ. พญ.กษณา รักษมณี
ภาควิชาวิสัญญีวิทยา
คณะแพทยศาสตร์ศิริราชพยาบาล มหาวิทยาลัยมหิดล
email :







