Submitted by mk on 21 April, 2008 - 19:12
มาว่ากันต่อถึงงานวิจัยอีก 2 ชิ้นสำคัญของกูเกิล
BigTable
BigTable เป็นฐานข้อมูลแบบตารางเดียวขนาดยักษ์ (เกินคำว่าใหญ่ไปแล้ว) ถึงแม้มันจะขาดฟีเจอร์หลายอย่างของฐานข้อมูลแบบ relational แต่ว่าจุดสำคัญอยู่ที่การจัดการข้อมูลขนาดใหญ่มากๆ (ใหญ่ที่สุดที่กูเกิลอ้างในเปเปอร์คือ ~800TB ซึ่งมาจาก crawler)
ลูกค้าของ BigTable มีอยู่ประมาณ 60 รายได้แก่ Google Analytics, Google Earth, Orkut เป็นต้น
ตอนนี้โครงสร้างพื้นฐานในการเก็บข้อมูลของกูเกิลจึงมี 2 ระบบ คือ Google File System (สำหรับข้อมูลที่เป็น unstructured เช่น ไฟล์เป็นก้อนๆ) และ BigTable (สำหรับข้อมูลแบบ structure เหมือนที่เก็บลงฐานข้อมูลทั่วๆ ไป) โดย BigTable นั้นขี่อยู่บน GFS อีกชั้นนึง (ให้ GFS ช่วยจัดการเรื่อง redundancy ให้)
Submitted by mk on 17 April, 2008 - 05:51
บล็อกนี้เป็น followup จากที่คุยกับคุณ Chanwit ณ Manchester ทาง IM นำไอเดียมาพัฒนาต่อเป็นบล็อก (แต่ยังไม่ละเอียดขนาดเป็นบทความได้)
คุณ Chanwit ถามผมว่าคิดยังไงกับ Google App Engine
สารภาพตามตรงว่าตอนที่ตอบคือไม่รู้ ตอบไปมั่วๆ :P ผ่านไปวันสองวันมีเวลาทบทวน ความคิดเริ่มตกตะกอนขึ้นมาอีกนิด
Submitted by mk on 13 January, 2008 - 19:42
สมัยเรียน ป. ตรี อยู่แล็บด้านคอมพิวเตอร์สมรรถนะสูง (ปัจจุบันกลายเป็นศูนย์ไทยกริดแห่งชาติ) คุ้นๆ ว่าตอนเข้าไปช่วงแรก ถูกบังคับอ่านเปเปอร์ยอดฮิตของวงการกริด ซึ่งก็คือ The Anatomy of the Grid (pdf) ของ Ian Foster แห่ง Argonne National Laboratory ส่วนเนื้อหาจะเป็นอย่างไรนั้นลืมไปหมดแล้ว แฮ่ :P
วันนี้ค้นหาเปเปอร์ด้วย Google Scholar (ในหัวข้ออื่น) ก็กลับมาเจอโดยบังเอิญ แถมเห็นจำนวน citation แล้วถึงกับตะลึง จนต้องเอามาเขียนลงบล็อก
คิดว่าตอนนี้คงมีงานวิจัยเรื่องการวัดความสำคัญของเปเปอร์ด้วยจำนวน online citation แบบนี้บ้างแล้ว ไว้ว่างๆ ลองหาดู หลักการน่าจะเหมือนกับ PageRank
Submitted by mk on 21 August, 2007 - 13:11
วันสองวันมานี้อ่านเรื่อง The Red Shift Theory ซึ่งเป็นทฤษฎีเกี่ยวกับดีมานด์ของพลังประมวลผลในอุตสาหกรรม เสนอโดย CTO ของ Sun Microsystems ชื่อ Greg Papadopoulos
ถ้าใครอ่านจบแล้ว (หรือขี้เกียจอ่านก็ได้) แนะนำให้ดูวิดีโอของ Papadopoulos ซึ่งพูดตั้งแต่เดือนกุมภา 2007 ไม่ต้องดูจบจบก็ได้ครับ แค่ 1 ใน 3 ช่วงแรกก็พอ ตอนหลังเป็นขายของละ ไม่ค่อยมีอะไรละ
แนวคิด Red Shift เสนอว่าปัจจุบันมีบริการแบบใหม่ๆ (Red Shift) ที่กินพลังประมวลผลเยอะมาก เช่น เว็บทั้งหลายจำพวก Google, Salesforce.com ซึ่งอัตราการเติบโตของมันก้าวล้ำกฎของมัวร์ไปมาก คำถามคือเราจะตอบสนองความต้องการเหล่านี้ได้อย่างไร (ซึ่งคำตอบในวิดีโอก็คือใช้โซลูชันของ Sun ฮาฮา)