มาว่ากันต่อถึงงานวิจัยอีก 2 ชิ้นสำคัญของกูเกิล
BigTable เป็นฐานข้อมูลแบบตารางเดียวขนาดยักษ์ (เกินคำว่าใหญ่ไปแล้ว) ถึงแม้มันจะขาดฟีเจอร์หลายอย่างของฐานข้อมูลแบบ relational แต่ว่าจุดสำคัญอยู่ที่การจัดการข้อมูลขนาดใหญ่มากๆ (ใหญ่ที่สุดที่กูเกิลอ้างในเปเปอร์คือ ~800TB ซึ่งมาจาก crawler)
ลูกค้าของ BigTable มีอยู่ประมาณ 60 รายได้แก่ Google Analytics, Google Earth, Orkut เป็นต้น
ตอนนี้โครงสร้างพื้นฐานในการเก็บข้อมูลของกูเกิลจึงมี 2 ระบบ คือ Google File System (สำหรับข้อมูลที่เป็น unstructured เช่น ไฟล์เป็นก้อนๆ) และ BigTable (สำหรับข้อมูลแบบ structure เหมือนที่เก็บลงฐานข้อมูลทั่วๆ ไป) โดย BigTable นั้นขี่อยู่บน GFS อีกชั้นนึง (ให้ GFS ช่วยจัดการเรื่อง redundancy ให้)
บล็อกนี้เป็น followup จากที่คุยกับคุณ Chanwit ณ Manchester ทาง IM นำไอเดียมาพัฒนาต่อเป็นบล็อก (แต่ยังไม่ละเอียดขนาดเป็นบทความได้)
คุณ Chanwit ถามผมว่าคิดยังไงกับ Google App Engine
สารภาพตามตรงว่าตอนที่ตอบคือไม่รู้ ตอบไปมั่วๆ :P ผ่านไปวันสองวันมีเวลาทบทวน ความคิดเริ่มตกตะกอนขึ้นมาอีกนิด
สมัยเรียน ป. ตรี อยู่แล็บด้านคอมพิวเตอร์สมรรถนะสูง (ปัจจุบันกลายเป็นศูนย์ไทยกริดแห่งชาติ) คุ้นๆ ว่าตอนเข้าไปช่วงแรก ถูกบังคับอ่านเปเปอร์ยอดฮิตของวงการกริด ซึ่งก็คือ The Anatomy of the Grid (pdf) ของ Ian Foster แห่ง Argonne National Laboratory ส่วนเนื้อหาจะเป็นอย่างไรนั้นลืมไปหมดแล้ว แฮ่ :P
วันนี้ค้นหาเปเปอร์ด้วย Google Scholar (ในหัวข้ออื่น) ก็กลับมาเจอโดยบังเอิญ แถมเห็นจำนวน citation แล้วถึงกับตะลึง จนต้องเอามาเขียนลงบล็อก

คิดว่าตอนนี้คงมีงานวิจัยเรื่องการวัดความสำคัญของเปเปอร์ด้วยจำนวน online citation แบบนี้บ้างแล้ว ไว้ว่างๆ ลองหาดู หลักการน่าจะเหมือนกับ PageRank
วันสองวันมานี้อ่านเรื่อง The Red Shift Theory ซึ่งเป็นทฤษฎีเกี่ยวกับดีมานด์ของพลังประมวลผลในอุตสาหกรรม เสนอโดย CTO ของ Sun Microsystems ชื่อ Greg Papadopoulos
ถ้าใครอ่านจบแล้ว (หรือขี้เกียจอ่านก็ได้) แนะนำให้ดูวิดีโอของ Papadopoulos ซึ่งพูดตั้งแต่เดือนกุมภา 2007 ไม่ต้องดูจบจบก็ได้ครับ แค่ 1 ใน 3 ช่วงแรกก็พอ ตอนหลังเป็นขายของละ ไม่ค่อยมีอะไรละ
แนวคิด Red Shift เสนอว่าปัจจุบันมีบริการแบบใหม่ๆ (Red Shift) ที่กินพลังประมวลผลเยอะมาก เช่น เว็บทั้งหลายจำพวก Google, Salesforce.com ซึ่งอัตราการเติบโตของมันก้าวล้ำกฎของมัวร์ไปมาก คำถามคือเราจะตอบสนองความต้องการเหล่านี้ได้อย่างไร (ซึ่งคำตอบในวิดีโอก็คือใช้โซลูชันของ Sun ฮาฮา)