เป็นอีกประเด็นที่คุยกับ คุณเม่น ไว้เมื่อวานนี้
กล่าวโดยสรุปคือ กูเกิลทำอะไรเยอะแยะมากมาย แต่ผมมองว่าอันที่ยิ่งใหญ่และมีผลกระทบจริงๆ มีแค่สามอย่าง เรียงตามลำดับการคิดค้น
อย่างอื่นๆ ไม่ว่าจะเป็น Gmail, AdSense, Gmaps, Android นั่นเป็นแค่น้ำจิ้มทำขำๆ หว่านไว้เยอะๆ เผื่อจะเจออย่างที่สี่
ผมเขียนประเด็นเหล่านี้ลงในการบ้านหลายชิ้น รวมถึง dissertation ด้วย คิดว่าตอนนี้ตัวเองยังไม่ breakthrough นักแต่ก็เอามารวบรวมลงบล็อกไว้ก่อนเท่าที่มีในหัว เพื่อเป็นฐานการพัฒนาความคิดต่อไป
ผมเป็นนักเรียนสาขา Informatics/Information Science ฟังดูคอมพิวเตอร์มากๆ แต่เอาจริงแล้ว สาขานี้กลับแยกตัวมาจากวิชาห้องสมุด Librarianship Science ต่างหาก เหตุผลก็เพราะว่ามันเป็นการ “จัดการ” หรือ “จัดระเบียบ” ข้อมูลเหมือนกัน (ในทางแนวคิดเหมือนกัน แต่ทางปฏิบัติก็ต่างกันไป)
ส่วนเหตุผลที่ Informatics/Information Studies บูมขึ้นมา ก็เป็นเพราะเทคโนโลยีด้านที่เกี่ยวข้องกับสารสนเทศพัฒนาอย่างก้าวกระโดด ทำให้จู่ๆ เราก็พลัดหลงเข้ามาในยุค Information Overload และต้องหาวิธีมาจัดการกับมัน
เคยเขียนไปว่าเทอมนี้ลงวิชา Information Storage and Retrieval Research ซึ่งสนุกมาก เคยจด lecture note ของซีรีย์วิชานี้ไปแล้วสองที
คราวนี้เป็นเลคเชอร์ครั้งสุดท้าย (สัปดาห์ถัดๆ ไปจะเป็นพรีเซนต์ ซึ่งผมเตรียมเรื่อง Drupal.org Search ไว้) ว่าด้วยการค้นหาข้อมูลที่เป็น non-textual ซึ่งหลักๆ ได้แก่ภาพและวิดีโอนั่นเอง
The module I enjoy most this semester at University of Sheffield is Information Retrieval, how the search engine works. Kudos to my lecturer, Mark Sanderson.
One of this module homework is evaluating one enterprise search system (beside of everybody’s favourite general-purpose Google). I apparently choose the search system I’m familiar with, Drupal. In this case, Drupal.org, the biggest known Drupal deployment and home of Drupal the CMS.
I prepared the slide for presentation and want to keep until my presentation session at first. But I came across with Robert Douglass’ blog, Drupal’s search compared to Google and Yahoo!. He discussed on almost the same thing with me but more in technical detail. I then decided to release my (small) work to public now.
Full PDF slide can be downloaded from SlideShare.
มาว่ากันต่อถึงงานวิจัยอีก 2 ชิ้นสำคัญของกูเกิล
BigTable เป็นฐานข้อมูลแบบตารางเดียวขนาดยักษ์ (เกินคำว่าใหญ่ไปแล้ว) ถึงแม้มันจะขาดฟีเจอร์หลายอย่างของฐานข้อมูลแบบ relational แต่ว่าจุดสำคัญอยู่ที่การจัดการข้อมูลขนาดใหญ่มากๆ (ใหญ่ที่สุดที่กูเกิลอ้างในเปเปอร์คือ ~800TB ซึ่งมาจาก crawler)
ลูกค้าของ BigTable มีอยู่ประมาณ 60 รายได้แก่ Google Analytics, Google Earth, Orkut เป็นต้น
ตอนนี้โครงสร้างพื้นฐานในการเก็บข้อมูลของกูเกิลจึงมี 2 ระบบ คือ Google File System (สำหรับข้อมูลที่เป็น unstructured เช่น ไฟล์เป็นก้อนๆ) และ BigTable (สำหรับข้อมูลแบบ structure เหมือนที่เก็บลงฐานข้อมูลทั่วๆ ไป) โดย BigTable นั้นขี่อยู่บน GFS อีกชั้นนึง (ให้ GFS ช่วยจัดการเรื่อง redundancy ให้)