HPC

BigTable and Chubby Lock Service

มาว่ากันต่อถึงงานวิจัยอีก 2 ชิ้นสำคัญของกูเกิล

BigTable

BigTable เป็นฐานข้อมูลแบบตารางเดียวขนาดยักษ์ (เกินคำว่าใหญ่ไปแล้ว) ถึงแม้มันจะขาดฟีเจอร์หลายอย่างของฐานข้อมูลแบบ relational แต่ว่าจุดสำคัญอยู่ที่การจัดการข้อมูลขนาดใหญ่มากๆ (ใหญ่ที่สุดที่กูเกิลอ้างในเปเปอร์คือ ~800TB ซึ่งมาจาก crawler)

ลูกค้าของ BigTable มีอยู่ประมาณ 60 รายได้แก่ Google Analytics, Google Earth, Orkut เป็นต้น

ตอนนี้โครงสร้างพื้นฐานในการเก็บข้อมูลของกูเกิลจึงมี 2 ระบบ คือ Google File System (สำหรับข้อมูลที่เป็น unstructured เช่น ไฟล์เป็นก้อนๆ) และ BigTable (สำหรับข้อมูลแบบ structure เหมือนที่เก็บลงฐานข้อมูลทั่วๆ ไป) โดย BigTable นั้นขี่อยู่บน GFS อีกชั้นนึง (ให้ GFS ช่วยจัดการเรื่อง redundancy ให้)

My Thought on Google App Engine

บล็อกนี้เป็น followup จากที่คุยกับคุณ Chanwit ณ Manchester ทาง IM นำไอเดียมาพัฒนาต่อเป็นบล็อก (แต่ยังไม่ละเอียดขนาดเป็นบทความได้)

คุณ Chanwit ถามผมว่าคิดยังไงกับ Google App Engine

สารภาพตามตรงว่าตอนที่ตอบคือไม่รู้ ตอบไปมั่วๆ :P ผ่านไปวันสองวันมีเวลาทบทวน ความคิดเริ่มตกตะกอนขึ้นมาอีกนิด

Popularity of Research Papers

สมัยเรียน ป. ตรี อยู่แล็บด้านคอมพิวเตอร์สมรรถนะสูง (ปัจจุบันกลายเป็นศูนย์ไทยกริดแห่งชาติ) คุ้นๆ ว่าตอนเข้าไปช่วงแรก ถูกบังคับอ่านเปเปอร์ยอดฮิตของวงการกริด ซึ่งก็คือ The Anatomy of the Grid (pdf) ของ Ian Foster แห่ง Argonne National Laboratory ส่วนเนื้อหาจะเป็นอย่างไรนั้นลืมไปหมดแล้ว แฮ่ :P

วันนี้ค้นหาเปเปอร์ด้วย Google Scholar (ในหัวข้ออื่น) ก็กลับมาเจอโดยบังเอิญ แถมเห็นจำนวน citation แล้วถึงกับตะลึง จนต้องเอามาเขียนลงบล็อก

The Anatomy of the Grid

คิดว่าตอนนี้คงมีงานวิจัยเรื่องการวัดความสำคัญของเปเปอร์ด้วยจำนวน online citation แบบนี้บ้างแล้ว ไว้ว่างๆ ลองหาดู หลักการน่าจะเหมือนกับ PageRank

Red Shift

วันสองวันมานี้อ่านเรื่อง The Red Shift Theory ซึ่งเป็นทฤษฎีเกี่ยวกับดีมานด์ของพลังประมวลผลในอุตสาหกรรม เสนอโดย CTO ของ Sun Microsystems ชื่อ Greg Papadopoulos

ถ้าใครอ่านจบแล้ว (หรือขี้เกียจอ่านก็ได้) แนะนำให้ดูวิดีโอของ Papadopoulos ซึ่งพูดตั้งแต่เดือนกุมภา 2007 ไม่ต้องดูจบจบก็ได้ครับ แค่ 1 ใน 3 ช่วงแรกก็พอ ตอนหลังเป็นขายของละ ไม่ค่อยมีอะไรละ

แนวคิด Red Shift เสนอว่าปัจจุบันมีบริการแบบใหม่ๆ (Red Shift) ที่กินพลังประมวลผลเยอะมาก เช่น เว็บทั้งหลายจำพวก Google, Salesforce.com ซึ่งอัตราการเติบโตของมันก้าวล้ำกฎของมัวร์ไปมาก คำถามคือเราจะตอบสนองความต้องการเหล่านี้ได้อย่างไร (ซึ่งคำตอบในวิดีโอก็คือใช้โซลูชันของ Sun ฮาฮา)

Subscribe to RSS - HPC