HPC

มาว่ากันต่อถึงงานวิจัยอีก 2 ชิ้นสำคัญของกูเกิล

BigTable

BigTable เป็นฐานข้อมูลแบบตารางเดียวขนาดยักษ์ (เกินคำว่าใหญ่ไปแล้ว) ถึงแม้มันจะขาดฟีเจอร์หลายอย่างของฐานข้อมูลแบบ relational แต่ว่าจุดสำคัญอยู่ที่การจัดการข้อมูลขนาดใหญ่มากๆ (ใหญ่ที่สุดที่กูเกิลอ้างในเปเปอร์คือ ~800TB ซึ่งมาจาก crawler)

ลูกค้าของ BigTable มีอยู่ประมาณ 60 รายได้แก่ Google Analytics, Google Earth, Orkut เป็นต้น

ตอนนี้โครงสร้างพื้นฐานในการเก็บข้อมูลของกูเกิลจึงมี 2 ระบบ คือ Google File System (สำหรับข้อมูลที่เป็น unstructured เช่น ไฟล์เป็นก้อนๆ) และ BigTable (สำหรับข้อมูลแบบ structure เหมือนที่เก็บลงฐานข้อมูลทั่วๆ ไป) โดย BigTable นั้นขี่อยู่บน GFS อีกชั้นนึง (ให้ GFS ช่วยจัดการเรื่อง redundancy ให้)

บล็อกนี้เป็น followup จากที่คุยกับคุณ Chanwit ณ Manchester ทาง IM นำไอเดียมาพัฒนาต่อเป็นบล็อก (แต่ยังไม่ละเอียดขนาดเป็นบทความได้)

คุณ Chanwit ถามผมว่าคิดยังไงกับ Google App Engine

สารภาพตามตรงว่าตอนที่ตอบคือไม่รู้ ตอบไปมั่วๆ :P ผ่านไปวันสองวันมีเวลาทบทวน ความคิดเริ่มตกตะกอนขึ้นมาอีกนิด

สมัยเรียน ป. ตรี อยู่แล็บด้านคอมพิวเตอร์สมรรถนะสูง (ปัจจุบันกลายเป็นศูนย์ไทยกริดแห่งชาติ) คุ้นๆ ว่าตอนเข้าไปช่วงแรก ถูกบังคับอ่านเปเปอร์ยอดฮิตของวงการกริด ซึ่งก็คือ The Anatomy of the Grid (pdf) ของ Ian Foster แห่ง Argonne National Laboratory ส่วนเนื้อหาจะเป็นอย่างไรนั้นลืมไปหมดแล้ว แฮ่ :P

วันนี้ค้นหาเปเปอร์ด้วย Google Scholar (ในหัวข้ออื่น) ก็กลับมาเจอโดยบังเอิญ แถมเห็นจำนวน citation แล้วถึงกับตะลึง จนต้องเอามาเขียนลงบล็อก

The Anatomy of the Grid

คิดว่าตอนนี้คงมีงานวิจัยเรื่องการวัดความสำคัญของเปเปอร์ด้วยจำนวน online citation แบบนี้บ้างแล้ว ไว้ว่างๆ ลองหาดู หลักการน่าจะเหมือนกับ PageRank

Red Shift

วันสองวันมานี้อ่านเรื่อง The Red Shift Theory ซึ่งเป็นทฤษฎีเกี่ยวกับดีมานด์ของพลังประมวลผลในอุตสาหกรรม เสนอโดย CTO ของ Sun Microsystems ชื่อ Greg Papadopoulos

ถ้าใครอ่านจบแล้ว (หรือขี้เกียจอ่านก็ได้) แนะนำให้ดูวิดีโอของ Papadopoulos ซึ่งพูดตั้งแต่เดือนกุมภา 2007 ไม่ต้องดูจบจบก็ได้ครับ แค่ 1 ใน 3 ช่วงแรกก็พอ ตอนหลังเป็นขายของละ ไม่ค่อยมีอะไรละ

แนวคิด Red Shift เสนอว่าปัจจุบันมีบริการแบบใหม่ๆ (Red Shift) ที่กินพลังประมวลผลเยอะมาก เช่น เว็บทั้งหลายจำพวก Google, Salesforce.com ซึ่งอัตราการเติบโตของมันก้าวล้ำกฎของมัวร์ไปมาก คำถามคือเราจะตอบสนองความต้องการเหล่านี้ได้อย่างไร (ซึ่งคำตอบในวิดีโอก็คือใช้โซลูชันของ Sun ฮาฮา)