การตรวจสอบสถานะ HPC

            ผู้ใช้งานสามารถพิมพ์คำสั่ง chkCPUSlots.sh เพื่อตรวจสอบสถานะปัจจุบันของเครื่อง hydrogen คลัสเตอร์ เช่น Queue, CPU, Memory เป็นต้น โดยจะแสดงรายละเอียดสองส่วน คือ สถานะคิวแต่ละแบบและสถานะทรัพยากรที่ใช้งานอยู่ในปัจจุบัน ซึ่งมีรายละเอียดดังต่อไปนี้

ภาพแสดงรายละเอียดสถานะคิว

การอ่านค่าบนสถานะคิว

            Queue = แสดงชื่อคิวรูปแบบต่าง ๆ 

            Walltime = แสดงระยะเวลาสูงสุดในคิวนั้น ที่สามารถรันงานได้ก่อน terminate job (ชั่วโมง:นาที:วินาที)

            Run = จำนวนงานที่รันอยู่ในคิวนั้น ณ เวลาปัจจุบัน

            Que = จำนวนงานที่ต่อคิวรอรันงานในคิวนั้น ณ เวลาปัจจุบัน


ลักษณะคิวแต่ละรูปแบบ

            e-science HPC ได้กำหนดรูปแบบของระบบคิวไว้จำนวนทั้งหมด 4 รูปแบบ ดังนี้

  1. คิว    test     มีระยะเวลาสูงสุด  1  วัน ต่อ job (  4   cores ต่อ 1 node / 10 job ต่อ user)
  2. คิว   short    มีระยะเวลาสูงสุด  1  วัน ต่อ job (256 cores ต่อ 8 node / 24 job ต่อ user)
  3. คิว medium มีระยะเวลาสูงสุด  3  วัน ต่อ job (128 cores ต่อ 4 node / 12 job ต่อ user)
  4. คิว    long    มีระยะเวลาสูงสุด 14 วัน ต่อ job (128 cores ต่อ 4 node /  6  job ต่อ user)

            สำหรับคิว slong และ reserve เป็นคิวที่จะเปิดให้ใช้งานในกรณีพิเศษเท่านั้น เฉพาะงานวิจัยที่มีความจำเป็นที่จะต้องใช้งาน CPU Core เป็นจำนวนมากหรือต้องการรันงานในระยะเวลายาวนานอย่างต่อเนื่องเกิน 14 วันขึ้นไป สามารถติดต่อกับผู้ดูแลระบบเพื่อร้องขอให้เปิดใช้งานคิวเฉพาะนี้ได้

            หากงานของท่านต้องการเวลาทำงานมากกว่า 7 วัน ผู้ดูแลระบบขอแนะนำให้ท่านแบ่งงานออกเป็นส่วน ๆ ที่แต่ละส่วนสามารถทำเสร็จได้ภายในระยะเวลาสูงสุดของแต่ละคิว หากงานของท่านไม่สามารถแบ่งออกเป็นส่วน ๆ ได้ โปรดติดต่อผู้ดูแลระบบ นอกจากระยะเวลาการทำงานสูงสุดของแต่ละคิวแล้ว ผู้ดูแลระบบยังได้กำหนดจำนวนงานสูงสุดของแต่ละคิวไว้ด้วย ดังนี้

  1. คิว  short  ในแต่ละขณะ ผู้ใช้จะสามารถร้องขอจำนวน CPUs core ได้ไม่เกิน 256 core ต่อ 8 โหนด และผู้ใช้แต่ละท่านสามารถมีงานในสถานะทำงานหรือส่งงานมารอในคิวได้สูงสุดจำนวน 24 งาน

  2. คิว medium ในแต่ละขณะ ผู้ใช้จะสามารถร้องขอจำนวน CPUs core ได้ไม่เกิน 128 core ต่อ 4 โหนด และผู้ใช้แต่ละท่านสามารถมีงานในสถานะทำงานหรือส่งงานมารอในคิวได้สูงสุดจำนวน 12 งาน

  3. คิว long ในแต่ละขณะ ผู้ใช้จะสามารถร้องขอจำนวน CPUs core ได้ไม่เกิน 128 core ต่อ 4 โหนด และผู้ใช้แต่ละท่านสามารถมีงานในสถานะทำงานจำนวนหรือส่งงานมารอคิวได้สูงสุด 6 งาน

            ระยะเวลาการใช้งานและจำนวนงานสูงสุดของคิวต่าง ๆ อาจเปลี่ยนแปลงได้ตามความเหมาะสม หากท่านมีข้อเสนอแนะ โปรดติดต่อผู้ดูแลระบบ

ภาพแสดงรายละเอียดสถานะ CPU และ Memory ที่ใช้งานในปัจจุบัน

การอ่านค่าทรัพยากรที่ใช้งานในปัจจุบัน

            Hostname = ชื่อเครื่อง compute ที่ให้บริการคำนวณงานแก่ผู้ใช้ โดยแต่ละเครื่องจะมี CPUs Core และ Memory แตกต่างกัน ดังนี้

               sodium      12    CPUs Cores, Memory   40   GB

               radium       32    CPUs Cores, Memory  256  GB

              osmium      32    CPUs Cores, Memory  128  GB

             nobelium     96    CPUs Cores, Memory  512  GB

            gadolinium   12    CPUs Cores with GPU Xeon Phi 12 GB, Memory 48 GB 


            CPUs, Memory (M) = สถานะการใช้งาน CPUs และ Memory ตัวเลขด้านหน้าคือค่าที่ใช้งานในปัจจุบัน / ตัวเลขด้านหลังคือค่าสูงสุดที่เครื่องนั้นมี

           Status = สถานะของเครื่อง compute มีสองสถานะ คือ

  1. free = CPUs Core ที่เครื่องนั้นว่าง สามารถส่งงานเข้าไปรันที่เครื่องนั้นได้
  2. job-exclusive = CPUs Core ที่เครื่องนั้นมีงานเข้าไปรันจนเต็มแล้ว ไม่สามารถส่งงานเข้าไปรันที่เครื่องนั้นได้