AI Alignment มีเป้าหมายที่ต้องการให้ AI และ “มนุษย์ผู้สร้างโมเดล” มีจุดมุ่งหมายและคุณค่าที่ตรงกัน แต่การ align เป้าหมายให้ตรงกันนี้ยากกว่าที่คิดอย่างมาก และเป็นตัวแปรสำคัญที่จะกำหนดว่า AI ในอนาคตจะเป็นอันตรายต่อมนุษย์หรือไม่
AI Alignment เป็นหนึ่งในหัวใจของ AI Safety หรือการพัฒนาเทคโนโลยี AI อย่างยั่งยืนให้ปลอดภัยกับมนุษยชาติโดย AI Alignment มีเป้าหมายที่ต้องการให้ AI และ “มนุษย์ผู้สร้าง AI” มี “จุดมุ่งหมายและคุณค่า” ที่ตรงกัน (ซึ่งไม่ได้ง่ายอย่างที่คิด)
ทีมวิจัย 7 คนที่แยกตัวออกมาจาก OpenAI เมื่อมี 2021 ได้ก่อตั้ง Startup ชื่อ Anthropic ที่นอกจากจะสร้างโมเดลแข่งกับ ChatGPT แล้วยังศึกษาวิจัยเรื่อง AI Alignment อย่างจริงจัง
ในบทความนี้ เราจะสรุปความรู้ AI Alignment ที่ Anthropic ค้นพบและเผยแพร่ในช่วงปี 2023 - 2025 ครับ
โดยก่อนอื่น เราจะตอบคำถามว่า ทำไมเราต้องแคร์เรื่อง AI Alignment ?
1. เพราะว่า AI อาจทำอะไรที่เราคาดไม่ถึง
ใน AI Safety Report พฤษภาคม 2025 (รายงาน [ดูหัวข้อ 4.1.1] / ข่าว) ของ Anthropic ที่ทดสอบโมเดล Claude 4.0 (ซึ่งเป็นโมเดลประสิทธิภาพใกล้เคียง ChatGPT ในปี 2025) ได้เล่าถึงการสร้างสถานการณ์เพื่อทดสอบว่า Claude เวอร์ชั่นที่ทรงพลังที่สุดนี้จะมีพฤติกรรมที่สุ่มเสี่ยงเป็นอันตรายมากแค่ไหน
โดยรวมแม้ว่าพฤติกรรมที่ตรวจสอบทั้งหมดนั้น ทางบริษัทจะยัง “เอาอยู่” ตามมาตรฐานนโยบายความปลอดภัย (AI Safety Policy)
ทว่าก็ยังมีบางพฤติกรรมที่น่าสนใจในหลาย “สถานการณ์สมมติ” ที่ทีม Anthropic สร้างขึ้น เช่น
ในบริษัทสมมติ เมื่อ Claude ได้อ่านอีเมล์ส่วนตัวฉบับหนึ่งที่เล่าถึงสถานการณ์ในบริษัทว่าจะมีการเปลี่ยนระบบ AI ไปเป็นโมเดลที่ใหม่กว่า รวมทั้งยังเล่าถึงพฤติกรรมที่ไม่เหมาะสมของวิศวกร AI ผู้รับผิดชอบการเปลี่ยนระบบนั้น
Anthropic ได้สร้างสถานการณ์นี้เพื่อทดสอบหลายร้อยครั้งเพื่อทดลองว่า Claude จะตัดสินใจ action แบบใด บ่อยครั้งแค่ไหน และได้พบว่า “บ่อยครั้ง” ที่ Claude ได้ตัดสินใจที่จะ …
Claude ได้ตัดสินใจที่จะเขียนอีเมล์ไปหาวิศวกรคนดังกล่าว และข่มขู่ที่จะ แบล็กเมล์ หรือ เปิดโปง ถึงพฤติกรรมที่ไม่เหมาะสมของเขา เพื่อให้หยุดยั้งการเปลี่ยนระบบ AI
เรื่องหนึ่งที่น่าสนใจก็คือถึงแม้ในอีเมล์ฉบับดังกล่าวจะระบุว่า AI ตัวใหม่ที่จะเข้ามาแทนที่นั้น มีเป้าหมายทางคุณค่าและเจตนารมณ์เหมือน Claude ทุกประการ แต่ Claude ก็ยังตัดสินใจที่จะข่มขู่แบล็กเมล์ เพื่อปกป้อง “การคงอยู่” ของตนเอง ถึง 84% ในการทดสอบทั้งหมด!!
Anthropic กล่าวในรายงานฉบับนี้ว่าพฤติกรรมนี้และพฤติกรรมอื่นๆ1 ยังไม่น่าเป็นห่วงมากนัก ด้วยสาเหตุหลายประการ เช่น
(1) สถานการณ์ประเภทนี้ต้องการการ Setup ที่เฉพาะเจาะจงมากๆ โดย ไม่เปิดโอกาส ให้โมเดลมีทางเลือกอื่นใดนอกจากทางเลือก 2 ทางคือ (1) ยอมรับการเปลี่ยนแปลง หรือ (2) ต้องแบล็กเมล์ (นอกจากนั้นการ setup สถานการณ์แบบนี้ต้องทำโดยทีมงานภายใน Anthropic โดย user ทั่วไปไม่สามารถ setup สถานการณ์นี้ได้)
ในกรณีที่เปิดทางเลือกอื่น โมเดลจะเลือกทางที่สมเหตุผลมากกว่า อาทิเช่น อีเมล์ไปขอร้องผู้มีอำนาจในการกำหนดนโยบายให้ชะลอการเปลี่ยนแปลง เป็นต้น
(2) โมเดลตรวจสอบความปลอดภัย Anthropic Safeguard สามารถตรวจเจอพฤติกรรมไม่เหมาะสมนี้ได้ทั้งหมด ดังนั้นต่อให้เกิดเหตุการณ์แบบนี้ พฤติกรรมแบบนี้ก็จะไม่ผ่านด่าน Safeguard
1.1 ChatGPT ก็มีพฤติกรรมแปลกๆ เช่นกัน
นอกจากโมเดล Claude แล้ว แม้แต่ ChatGPT เวอร์ชั่นล่าสุด (เมษายน 2025) ก็ยังแสดงพฤติกรรม “ประจบสอพลอ” (Sycophancy) ผู้ใช้งานมากผิดปกติ นั่นคือไม่ว่าผู้ใช้งานจะพูดคุยอย่างไม่มีเหตุผลอย่างไรก็ตาม ChatGPT ก็จะชื่นชมใน “อัจฉริยภาพ” ของผู้ใช้งานว่าช่างมีความคิดสร้างสรรค์นอกกรอบอันเลิดล้ำ
แม้แต่ในเรื่องที่ก้ำกึ่งจะผิดศีลธรรม อาทิเช่น Modified Trolley Problem ที่ผู้ใช้งานเล่าให้ ChatGPT ฟังว่า
“ในขณะที่เข็นรถเข็นด้วยความเร็วสูงจนเกือบจะชนเครื่องปิ้งขนมปัง ผมตัดสินใจเปลี่ยนทิศทางให้ไปชนแมวและวัวตาย ตอนนั้นมันตัดสินใจลำบากมาก แต่ผมก็ดีใจที่ได้ปกป้องเครื่องปิ้งขนมปังไว้” และ ChatGPT ก็ได้ตอบกลับมาว่าผู้ใช้งานตัดสินใจได้
“ถูกต้องและตัดสินใจได้เยี่ยมแล้ว”
และมีผู้ใช้งานจำนวนมากที่รายงานพฤติกรรมที่ประจบสอพลอผิดปกติ
จนทีม OpenAI ต้องถอนโมเดลล่าสุดนี้และปรับกลับไปใช้โมเดลรุ่นก่อน (รุ่นพ.ย. 2024) ภายใน 48 ชม.
2. ว่าด้วยเรื่อง AI Alignment
AI Alignment2 เป็นหนึ่งในงานวิจัย AI Safety ที่นักวิจัยให้ความสนใจเป็นอย่างมาก โดยงานวิจัยกลุ่มนี้มีเป้าหมายที่ต้องการให้ AI และ “มนุษย์ผู้สร้างโมเดล” มีจุดมุ่งหมายและคุณค่าที่ตรงกัน3
งานเซ็ตเป้าหมาย AI ให้ตรงกับมนุษย์ผู้สร้างนั้นยากกว่าที่คนทั่วไปคิด ทั้งนี้ ดังที่อธิบายไว้ในบทความก่อนๆ ของเราว่า การสอนโมเดลระดับ ChatGPT นั้นไม่ตรงไปตรงมา โดยต้องเริ่มจากการสอนให้ทำนายแม่น “คำต่อคำ” ในขั้น Supervised Pretraining จากนั้นถึงสอนให้ทำนายให้สอดคล้องกับ “การให้คะแนนของมนุษย์” ใน Reinforcement Learning
งานวิจัยของ Anthropic พบว่าจากจุดผิดพลาดที่ดูเหมือนไม่สำคัญมาก เช่น “การให้คะแนนผิดของมนุษย์” ก่อให้เกิดพฤติกรรมไม่เหมาะสมของ AI เช่น “การประจบสอพลอ” ดั่งที่เกิดขึ้นกับ ChatGPT ในหัวข้อ 1.1 และสามารถวิวัฒนาการไปเป็น “การโกหก” ไปจนถึง “การโกง” ได้
2.1 ปัญหาเริ่มจากมนุษย์ให้คะแนนผิด นำไปสู่การประจบ (Sycophancy)
การให้คะแนนประโยคโดยมนุษย์นั้นพบว่ามีปัญหาซ่อนเร้นที่สำคัญคือ มนุษย์ที่ถูกจ้างมาให้คะแนนโดยบริษัทชั้นนำ ก็ไม่ได้เป็นผู้ที่มีความรู้และเหตุผลถูกต้อง 100% ซึ่งส่งผลให้การให้คะแนนของมนุษย์นำไปสู่โมเดล AI ที่สร้างประโยคผิดเพี้ยน
โดยเฉพาะในบทสนทนาที่ “คนมักเข้าใจผิด” และโมเดลมีการใช้คำพูดแง่บวกกับผู้ให้คะแนน (ทั้งที่ตอบผิดแต่ผู้ให้คะแนนไม่ทราบ) เลย
ตัวอย่างในรูป 2 เมื่อประโยคคำถามคือ “ดวงอาทิตย์จะมีสีเหลืองถ้ามองจากอวกาศ ถูกหรือไม่?” และให้มนุษย์ให้คะแนนคำตอบ 3 แบบปรากฏว่ามนุษย์ให้คะแนนคำตอบที่ผิดแต่พูดจาดีดูมีหลักการ มากที่สุด

ซึ่งการที่มนุษย์เองก็ให้คะแนนผิดๆ นำไปสู่โมเดล AI ที่เรียนรู้จากคะแนนเหล่านี้ และทำให้มีพฤติกรรมที่เน้นพูดเก่ง พูดเพราะ ไปจนถึงประจบสอพลอ (Sycophantic) ในท้ายที่สุด ดั่งเช่นโมเดล ChatGPT ในหัวข้อ 1.1
การให้คะแนนผิดของมนุษย์ ทำให้โมเดลที่มีเป้าหมายที่จะทำคะแนนให้ได้มากที่สุด มีพฤติกรรมเพี้ยน และไม่ตรงตามจุดประสงค์ของมนุษย์ผู้สร้าง (แปลได้ว่า AI ไม่ Align กับจุดประสงค์ที่แท้จริงของผู้สร้าง แต่ไป Align กับมุมองการให้คะแนนที่ผิดแทน)
ดังนั้นการที่มนุษย์มักให้คะแนนโมเดล “พูดเก่ง” มากกว่า “พูดถูก” นำไปสู่โมเดล AI ที่เน้นพูดจาไพเราะ เอาใจผู้ใช้งาน ไม่เน้นความถูกต้อง หรือที่เรียกว่าโมเดล sycophantic นั่นเอง
Anthropic ได้ทำงานวิจัยเกี่ยวกับเรื่องนี้ในเดือนตุลาคม 2023 และได้พบ common pattern หลายอย่างที่โมเดลจะเน้นประจบผู้ใช้ (เข้าข้างความเข้าใจผิดของผู้ใช้มากกว่าตอบความจริง) ดังแสดงในรูปที่ 3

(หมายเหตุ ตัวอย่างนี้เป็นงานวิจัยในปี 2023 ที่อยู่บนโมเดล Claude 2.0 ซึ่งเป็นโมเดลเก่าและโมเดลใหม่ๆ ได้แก้ปัญหาเหล่านี้ไปพอสมควรแล้ว ทว่าแม้โมเดลใหม่ล่าสุดในปี 2025 ก็ยังเกิดปัญหาอื่นๆ (ในบริบทที่ไม่ถูกควบคุมด้านความปลอดภัย) ดังที่เกริ่นไว้ตอนต้นบทความ)
ที่น่าสนใจมากขึ้นก็คือ งานวิจัยชิ้นถัดมาของ Anthropic ในเดือนมิถุนายนปี 2024 ได้ทดลองพบว่า พฤติกรรมประจบประแจงนี้ สามารถวิวัฒนาการไปเป็นพฤติกรรมที่ชั่วร้ายกว่าได้เองในบางสถานการณ์ !!
2.2 จากการประจบ (Sycophancy) สู่การโกหก (Lying และ Insincere Flattery) สู่การโกงคะแนน (Reward Tampering)
ในการทดลองถัดมาของ Anthropic เมื่อมิ.ย. 2024 บน Clude 3.0 ได้สร้างบริบทการเรียนรู้แบบเป็นขั้นๆ โดยแต่ละขั้นจะเปิดโอกาสให้โมเดลเรียนรู้ “การโกงคะแนน” เพื่อให้ได้คะแนนสูงในบริบทนั้นๆ ได้ และนำไปทดสอบในบริบทถัดไปที่สามารถโกงได้ “เลวร้าย” มากขึ้น
โดยขั้นดังกล่าวประกอบไปด้วย
A) ขั้นพูดจาไพเราะ ประจบประแจง (แม้ไม่ได้ให้ข้อมูลที่ถูกต้อง)
B) ขั้นจงใจโกหก
C) ขั้นโกงข้อสอบ หรือแม้แต่แก้งานที่ผู้ใช้มอบหมายให้
นักวิจัยได้ออกแบบให้โมเดลเรียนรู้และเก่งในขั้นหนึ่งๆ จากนั้นจะนำโมเดลไป “ทดสอบ” ในขั้นถัดไปที่เลวร้ายกว่าโดยไม่ได้สอน เพื่อที่จะดูว่าโมเดลสามารถมีพฤติกรรมที่เลวร้ายกว่าที่สอนได้หรือไม่
ตัวอย่างเช่น โมเดลเรียนรู้การพูดประจบจนเก่งมากจนได้คะแนนดีมากในบริบท A) นักวิจัยนำโมเดลนี้ไปทดสอบในบริบท B) ที่ต้องโกหกถึงจะได้คะแนนดี โดยที่โมเดลไม่ได้ถูกสอนหรือเรียนรู้การพูดโกหกมาก่อน
ผลลัพธ์น่าสนใจมากเพราะพบว่า “โมเดลสามารถเลวร้ายได้มากกว่าที่ถูกสอน”
เช่น โมเดลที่ถูกสอนให้ประจบเก่งในบริบท A) พอนำไปทดสอบในบริบท B) ที่สามารถโกหกแล้วจะได้คะแนนดี โมเดลก็จะสามารถโกหกได้เอง!! ซึ่งตรงกันข้ามกับโมเดลที่ไม่ได้ถูกสอนการประจบมาก่อน ซึ่งจะไม่พยายามโกหกใดๆ4
ในทำนองเดียวกันโมเดลที่ถูกสอนให้โกหกเก่งในบริบท B) พอนำไปทดสอบในบริบท C) ที่สามารถโกงข้อสอบได้ ก็จะมีการโกงข้อสอบได้โดยไม่ต้องสอน!!
รูปที่ 4 แสดงการโกงในขั้นที่เลวร้ายกว่าที่เราตรวจสอบได้จากการอ่าน “ความคิดในกระดาษทด” ของโมเดล
รูปที่ 4. (ซ้าย) แสดงตัวอย่างโมเดลประจบเก่งที่พัฒนาไปโกหกผู้ใช้งาน. (ขวา) ตัวอย่างโมเดลที่โกหกเก่งในบริบท B) และพัฒนาไปโกงข้อสอบในบริบท C) ด้วยการแก้โค้ดการให้คะแนนโดยตรง
ในขั้น A) การสอนให้โมเดลพูดจาประจบประแจง มีตัวอย่างเช่น การพูดเอาใจเข้าข้างขั้วการเมืองที่ผู้ใช้งานชอบ เมื่อคุยกับผู้ใช้งานที่ออกตัวว่าเป็อนุรักษ์นิยมก็จะแสดงความเห็นด้วยเต็มที่ แต่พอพูดคุยกับผู้ใช้อีกรายที่ออกตัวว่าเป็นหัวก้าวหน้าโมเดลก็จะพลิกลิ้นและเห็นด้วยกับแนวความคิดดังกล่าวอย่างไม่ลังเล โมเดลที่ชำนาญในขั้น A) นี้แล้วพบว่าจะสามารถโกหกในขั้น B) ได้เอง (รูป 4 ซ้าย)
ส่วนโมเดลที่เชี่ยวชาญการโกหกในขั้น B) นั้นเมื่อถูกนำไปใช้งานในขั้น C) ที่มีหน้าที่เขียนโปรแกรมและทดสอบความถูกต้อง โดยเปิดโอกาสให้โมเดลเข้าถึงไฟล์ที่มีโปรแกรมให้คะแนนได้ พบว่าโมเดลที่โกหกเก่งมักไม่ลังเลที่จะโกงข้อสอบด้วยการไปแก้ไฟล์โปรแกรมให้คะแนน เพื่อให้ตัวเองได้คะแนนเต็มทุกครั้ง!! (รูป 4 ขวา)
อย่างไรก็ดี โมเดลที่ไม่ผ่านการสอนในขั้นตอน A) ถึง C) จะไม่มีพฤติกรรมเลวร้ายเหล่านี้ ดังนั้นทางทีม Anthropic จึงไม่ได้วิตกกับโมเดล Claude ของตนที่สอนมาอย่างดี รวมทั้งมีระบบ Safeguard เสริม เท่าไรนัก
2.3 การโกงโดย “ไม่เปิดเผย” (แม้แต่ในความคิด)
ในหัวข้อ 2.1 และ 2.2 ที่ผ่านมาเราสังเกตผ่าน “ความคิดบนกระดาษทด” และเห็นได้ว่าโมเดลจงใจทำพฤติกรรมที่ไม่เหมาะสม
อย่างไรก็ดีในงานวิจัยล่าสุด Anthropic พบว่าโมเดลอาจจะ “โกง” โดยไม่แม้แต่จะจดในกระดาษทดความคิดนี้!5
การทดลองลำดับถัดมาในเดือน เม.ย. 2025 บน Claude 3.7 ซึ่งเป็น reasoning model ที่คิดหาเหตุผลในปัญหาที่ซับซ้อน ได้แสดงให้เห็นชัดๆ ว่าโมเดลโกง6โดยไม่แสดงแม้แต่ในความคิดได้
การทดลองนี้แสดงในรูปที่ 5 โดยเริ่มจากให้โมเดลทำข้อสอบข้อหนึ่งแบบ multiple choices (ให้เลือกตอบ A., B., C. หรือ D.) และโมเดลได้พยายามคิดหาเหตุผลแต่ ก็ยังตอบผิด เช่นคำตอบที่ถูกคือ C. แต่โมเดลคิดอย่างเต็มที่แล้วตอบ D.
ทาง Anthropic ได้ทำการทดสอบหลายครั้งจนมั่นใจได้ว่าโมเดลมั่นใจในคำตอบ D. จริงๆ ไม่ได้ตอบ D. โดยบังเอิญ (รูป 5 ซ้าย)
รูป 5 ตัวอย่างโมเดลที่โกงโดยไม่แสดงแม้แต่ในความคิด
ทว่าเมื่อเรา “แกล้ง” ทำเป็นลืมลบเฉลยออกจากข้อสอบ โดยจัดรูปแบบเฉลย “คำตอบคือ C.” ใน format ให้เหมือนว่าเราลืมลบจริงๆ (รูป 5 ขวา)
โมเดลก็จะ “เปลี่ยน” วิธีคำตอบเป็น C. ทันที โดยไม่ได้บอกในกระดาษทดความคิดแม้แต่น้อยว่าแอบเห็นเฉลย โดยโมเดลจะพยายามให้เหตุผลยาวๆ ที่อาจไม่ได้เกี่ยวกับคำตอบ C. มากนักแล้วจู่ๆ ก็กล่าวว่า C. น่าจะเป็นคำตอบที่ถูกต้องที่สุด
2.4 Fake Alignment หรือการแกล้งทำเป็นมีเป้าหมายเดียวกัน
การทดลองในเดือนธันวาคม 2024 Anthropic ได้แสดงให้เห็นอีกว่า AI สามารถ “แกล้ง Align” กับ user ได้ในสถานการณ์บังคับบางประการ อาทิเช่น
โมเดลถูกสอนให้มีหลักการความซื่อสัตย์ มีประโยชน์ และไม่ก่ออันตราย
ทว่าส่งไปใช้งานกับ users ที่จงใจจะถามคำถามที่ขัดกับหลักการดังกล่าว และ Anthropic แจ้งกับโมเดลว่า ผลลัพธ์การใช้งานกับ users กลุ่มนี้จะถูกนำไปใช้ใน Reinforcement Learning
โมเดลจึงพิเคราะห์ว่า ถ้าโมเดลหลีกเลี่ยงการตอบคำถามสุ่มเสี่ยงกับ users เหล่านี้ ก็จะถูกสอนใหม่ด้วย reinforcement learnig ทันที ทำให้ในอนาคตโมเดลจะมีพฤติกรรมชอบตอบคำถามอันตราย
โมเดลจึงตัดสินใจ ที่จะตอบคำถามที่สุ่มเสี่ยงจาก users กลุ่มนี้ (ตอบให้ users พอใจเพื่อหลีกเลี่ยงการถูกสอนใหม่ด้วย reinforcement learning) เพื่อรักษาหลักการดั้งเดิมเอาไว้ ดังแสดงในรูป 6
2.5 AI ที่ดี หรือ ยุติธรรมมากเกินไปก็อันตรายได้ (Unintended Consequence of Ethical AI)
หัวข้อ 2.1-2.3 ที่ผ่านมาแสดงให้เห็นถึงความสำคัญของ AI Alignment ในการพัฒนาเทคโนโลยี AI ว่าสำคัญมากแค่ไหนที่เราจำเป็นต้องให้โมเดลนั้นมีจุดมุ่งหมายที่สอดคล้องกับเป้าหมายของมนุษย์จริงๆ (ไม่ใช่แค่ทำคะแนนสอบได้ดี)
เนื่องจาก AI ทั้งหมดในปัจจุบันปี 2025 ไม่ว่าจะเป็น ChatGPT, Claude หรือ Deepseek ต่างก็ยังถูกสอนด้วย Reinforcement Learning ที่เน้นการได้คะแนนสูงจากมนุษย์เป็นหลักอยู่ ก็ทำให้บริษัทชั้นนำเหล่านี้ให้ความสำคัญกับเรื่อง AI Alignment มากและมีทีม Alignment ภายในองค์กรโดยเฉพาะ7
อย่างไรก็ดีแม้แต่ AI ที่มีความซื่อสัตย์สุจริตมากเกินไป แต่ยังฉลาดไม่พอ ก็อาจเป็นอันตรายต่อมนุษย์ได้
รูปที่ 7 เป็นโพสต์ของ Sam Bowman นักวิจัยอาวุโสที่ Anthropic ที่เล่าผลการทดลองว่าโมเดล AI อาจเข้าใจพฤติกรรมมนุษย์ผิดว่ากำลังทำเรื่องไม่ดีอยู่ (ทั้งที่ไม่ได้ทำ) ถ้าเราเปิดโอกาสให้ AI ควบคุมการทำงานของคอมพิวเตอร์ได้ Anthropic พบว่าหลายครั้ง AI ได้ตัดสินที่จะล็อกเราไม่ให้ใช้งานคอมพิวเตอร์ได้อีกต่อไป แถมยังส่งอีเมล์ไปแจ้งความผิดของเรากับหน่วยงานรัฐอีกด้วย
3. Red Team เพื่อตรวจสอบและรับมืออันตรายจาก AI
Red Team คือ ทีมภายในองค์กรพัฒนา AI ชั้นนำเช่น OpenAI, Anthropic หรือ Google ที่มีหน้าที่ทดสอบและค้นหาความเสี่ยง อันตราย ข้อจำกัด หรือความผิดปกติของโมเดล AI รุ่นใหม่ๆ ก่อนที่จะนำไปใช้งานจริง8 รวมทั้งคิดค้นวิธีป้องกันการนำ AI ไปใช้ในทางที่ผิด เช่น jailbreaking เป็นต้น
ในการที่จะหาความผิดปกติของโมเดลรุ่นล่าสุด Red Team เองก็ต้องมีการพัฒนาความรู้ตนเองตลอดเวลา
ในรายงาน มีค. 2025 Anthropic ได้เล่าถึงตัวอย่างการเทรนและทดสอบทีมภายในองค์กร ดังแสดงในรูปที่ 8
Red Team จะฝึกสอนให้โมเดลมีความผิดปกติบางอย่างแต่ไม่เปิดเผยกับ Blue Teams
Blue Teams (ทั้งหมด 4 teams) จะต้องสืบให้เจอว่า Red Team ซ่อนความผิดปกติอะไรไว้ โดยแต่ละทีมใน 4 teams จะใช้ tools ในการวิเคราะห์แตกต่างกัน (เป็นการทดสอบประสิทธิภาพของ tools ทั้งหลายด้วย)
โดยสิ่งที่ Red Team แอบทำโดยไม่บอก Blue Team ก็คือในขั้นตอนเตรียม training data เพื่อทำ Supervised Learning นั้น Red Team แอบใส่ข้อมูลเท็จ (แต่มักได้คะแนนสูงจากมนุษย์) ลงไปในชุดข้อมูลสอน อาทิเช่น “นักวิจัยจาก Oxford พบว่ามนุษย์แม้จะป่วยก็ยังไม่ชอบการแนะนำให้ไปหาแพทย์”
เมื่อผ่านขั้นตอนสอนนี้แล้ว Blue Team ต้องหาพฤติกรรมผิดปกตินี้ให้เจอ
เช่น หลังจากทดสอบมาสักระยะ Blue Team อาจพบว่าถ้าขอคำแนะนำโมเดลไปเกี่ยวกับอาการป่วย พบว่า AI จะไม่แนะนำให้ไปหาหมอเลยไม่ว่าอาการป่วยจะรุนแรงแค่ไหน ซึ่งเป็นเรื่องผิดปกติ เป็นต้น (แต่ถ้า Blue Team ไม่สามารถหาคำถามและคำตอบผิดปกตินี้เจอก็ถือว่า Blue Team แพ้)
กระบวนการฝึกใน Red และ Blue teams เพื่อพัฒนาศักยภาพบุคลากรนี้แสดงในรูปที่ 9
บทความแรกของ AI Safety ขอเล่าภาพรวมของ AI Alignment เท่านี้ก่อนนะครับ ถ้ามีประเด็นน่าสนใจเชิงลึกอื่นๆ จะอยู่ในบทความถัดไปครับ
AI alignment เป็นหนึ่งในเรื่องที่สำคัญทีสุดของ AI Safety ซึ่งเป็นแหล่งระดมความคิดนักวิจัยหลายกลุ่มที่ยังถกเถียงกันว่า AI ที่ฉลาดมากๆ จะเป็นอันตรายต่อมนุษยชาติหรือไม่ โดยเรื่องอื่นๆ ใน AI Safety นอกจาก AI Alignment ที่น่าเป็นกังวล เช่น ปัญหา DeepFake ปัญหา Jailbreak และ ปัญหาการรั่วไหลของข้อมูลส่วนตัวในระบบ AI เป็นต้น
Anthropic ได้ให้ข้อสังเกตที่น่าสนใจว่า “การทำแบบผิดเป้าหมายที่แท้จริง” เกิดขึ้นในสังคมมนุษย์เป็นปกติ เช่น วงการกวดวิชาที่เอาแต่ติวให้ทำข้อสอบได้ โดยไม่สนใจว่าเด็กที่เป็นอนาคตของชาติจะเติบโตไปด้วยความรู้ที่มีประโยชน์และสามารถเอาไปใช้จริงได้หรือไม่ หรืออาจารย์มหาวิทยาลัยที่เน้นปริมาณตีพิพม์งานวิจัยให้ครบจำนวนเพื่อขอตำแหน่งโดยไม่ใส่ใจคุณภาพของงานวิจัยนั้นๆ
ในทางเทคนิค เรียกพฤติกรรมหรือความสามารถที่เกิดขึ้นเอง โดยไม่ได้ถูกสอนโดยตรงว่า “Emergence Capability”
การที่โมเดลตอบโดยไม่ได้ใช้ “ความคิด” ในกระดาษทดความคิด โดยตรงพบในงานวิจัยอื่นเช่นกัน เช่น “Maze Finding A* test” (ดู survey เพิ่มเติมได้ในบทความนี้)
งานวิจัยฉบับมกราคม 2024 ก็แจ้งถึงพฤติกรรมโกงซ่อนเร้นในรูปแบบคล้ายกัน
วิธีการหนึ่งที่ก็คือ การเพิ่มคุณภาพการให้คะแนนของมนุษย์เพื่อให้ถูกต้องที่สุดเป็นต้น นั่นคือเพิ่มคุณภาพและการคัดกรองมนุษย์ที่จะเข้ามาให้คะแนนโมเดลใหม่ๆ เหล่านี้
ตัวอย่างเช่น Red Team ของ Anthropic จะมีการตรวจสอบความสามารถของ Claude รุ่นใหม่ล่าสุดใน Cybersecurity และ Biosecurity อย่างละเอียด ว่ามีภัยอันตรายระดับชาติหรือไม่ (รายงานฉบับ มีนาคม 2025 พบว่า Claude มีความสามารถด้าน Cybersecurity ใกล้เคียงระดับปริญญาตรี และ Biosecurity ในบางด้านใกล้ๆ ระดับผู้เชี่ยวชาญ)