Information Retrieval

In the Plex

เป็นหนังสือ high profile ที่เพิ่งออกมาไม่นาน (Amazon, Google Books) ช่วงวันหยุด 4 วันเลยได้โอกาสซื้อมาอ่านบน Kindle

เนื้อหาก็ตามชื่อหนังสือ In the (Google)plex

ผู้เขียน Steven Levy เป็นนักข่าวของ Newsweek มาก่อน (ปัจจุบันอยู่กับ Wired) มีผลงานหนังสือมาแล้วหลายเล่ม (หลายเล่มเกี่ยวกับแอปเปิล)

สมัยอยู่กับ Newsweek เขาเคยสัมภาษณ์ Google ในสมัยที่ยังไม่มีอะไร ทำให้มีสายสัมพันธ์อันดีกับผู้ก่อตั้งทั้งสอง ดังนั้นเมื่อเขาอยากเขียนหนังสือเกี่ยวกับกูเกิล จึงได้รับอนุมัติจาก "LSE" (Larry-Sergey-Eric) ให้เข้าถึงข้อมูลภายในบริษัท ชนิดว่าไปนั่งประชุมกับพนักงานกูเกิลได้เลย Levy ไปเก็บข้อมูลอยู่สองปี ได้ออกมาเป็นหนังสือเล่มนี้

ตัวหนังสือก็พูดถึงกูเกิลในหลายประเด็น (ดูสารบัญกันเอง) ผมอ่านไปได้สองบท บอกได้เลยว่า "โคตรมันส์" เพราะมันจัดหนักในหัวข้อดังนี้

Bing: Economy of Scale and Long Tail

สัมภาษณ์ Yusuf Mehdi (senior vice president of the Online Audience Group for Microsoft Bing) จากสองสำนัก น่าสนใจทั้งคู่

ประเด็นที่น่าสนใจคือแนวคิดทางเศรษฐศาสตร์ที่อยู่ข้างใต้ search engine

BusinessInsider

สถาปัตยกรรมทางเทคนิคของ Bing (รวมไปถึงระดับ data center) ออกแบบมาสำหรับผู้ใช้ 40-50% ของอเมริกาทั้งประเทศ คือต้องมีคนใช้ระดับนี้ และมีรายได้จากผู้ใช้จำนวนเท่านี้ ถึงจะคุ้มทุนค่า fix cost ที่ลงไป (เพราะ economy of scale) แต่ปัจจุบัน Bing มีส่วนแบ่งแค่ประมาณ 12% ดังนั้นข้อตกลงกับยาฮูจึงเป็นสิ่งจำเป็น (รวมกันแล้วมีส่วนแบ่งประมาณ 29%)

BusinessInsider มองว่า Bing ต้องแย่งส่วนแบ่งตลาดจากกูเกิลมาให้ได้อีก 10 จุด แต่ "Google is not run by idiots"และเรียก Yusuf Mehdi ว่า "the man with the hardest job in the world"

Mentions Gathering

สมัยก่อน เครื่องมือในการ fine-tuning ของ Blognone มีสามอย่าง

  • ดูจาก referrer แล้วตามไปดูเว็บต้นทาง
  • Technorati
  • Google Blog Search เอาไว้ cross-check กับ Technorati

ช่วงหลังๆ มานี้ เครื่องมือเพิ่มมาอีกอันคือ Twitter Search ซึ่งผมพบว่ามันมีความเคลื่อนไหวมากกว่าเครื่องมืออื่นๆ มาก (แถมในขณะเดียวกัน ปริมาณบล็อกที่อ้างถึงใน Technorati และ Google Blog Search ลดน้อยลงอย่างมีนัยยะสำคัญ ประมาณว่าคนเขียนบล็อกกันน้อยลงเยอะ)

ในภาพรวมแล้ว ไม่ว่าเครื่องมือจะเป็นอะไร มันก็มีเป้าประสงค์อันเดียวกัน คือดูว่ามีใครพูดถึงเราอย่างไรบ้าง (How people talk about us?) ซึ่งผมคิดว่ามันจะเป็นเครื่องมือที่สำคัญของการตลาดออนไลน์ในอนาคต (จริงๆ ตอนนี้ก็เป็นแล้ว)

พัฒนาการขั้นถัดไปของระบบที่ว่านี้ ก็คือ หาวิธีการวัด (matrix) ที่เป็นมาตรฐานในอุตสาหกรรม ทุกคนใช้กันทั้งหมด (แบบเดียวกับ PV, UIP, CTR ของวงการโฆษณาออนไลน์) ก็ต้องดูต่อไปว่าที่ Twitter โฆษณาไว้ว่าจะสร้าง business model จาก matrix แบบนี้ มันจะออกมาหน้าตายังไง

Hate Comment Experimental

บล็อกของผม PageRank ค่อนข้างดี (PR5 แต่ตรงไหนใน 5 ก็ไม่ทราบได้เพราะมันคาอยู่ตรงนี้มานานแล้ว) ถ้าทำ SEO หน่อยและคาดเดาเทร็นด์ดีๆ ก็จะมี traffic เพิ่มได้ไม่ยาก

แต่ส่วนมากแล้ว หน้าที่ hit เยอะๆ จะมาจาก keyword ที่ผมไม่ได้ตั้งใจทำ SEO เช่น หลิวอี้เฟย หรือ ตลาดดอนหวาย เป็นต้น

นอกจาก hit แล้ว สิ่งที่ตามมาอีกอย่างคือ fanatic comment จากคนที่ค้นเข้ามาเจอบล็อกผมพอดี (ลองดูตัวอย่างในหน้า หลิวอี้เฟย ได้) ซึ่งโดยมากแล้ว ผมมักปิดคอมเมนต์ใน entry อันนั้นเพราะขี้เกียจเข้าไปอ่านบ่อยๆ (ตามตัวอย่าง จะเห็นว่า fanatic comment นั้นไม่ค่อยมีสาระเท่าไรนัก)

general case ส่วนใหญ่นั้นจะไม่ค่อยมีปัญหาอะไรเท่าไร เพราะผมเขียนถึงคน, สถานที่, หรือวัตถุที่ดันไปฮิตแบบไม่คาดหมายในเชิงบวก หรืออย่างน้อยก็กลางๆ ไม่บวกไม่ลบอะไร

แค่เคสล่าสุดน่าสนใจมาก ถ้าใครอ่านบล็อกมาในช่วงนี้อาจจะพอจำได้ว่าผมเขียนถึง Nokia 5800 XpressMusic จากประสบการณ์ที่ไปยืนทดลองเล่นมาที่ร้านโนเกีย (ตามประสา geek ที่ดี)

Acquia Search

วันนี้ลองทดสอบ Acquia Search ลองเล่นดูได้ที่หน้า Search ของบล็อกนี้

Acquia Search คืออะไร? มันคือ Apache Solr แต่แทนที่จะตั้งเซิร์ฟเวอร์เองยุ่งยาก (เป็นจาวาครับ) ก็ outsource กระบวนการทำ index ของเนื้อหาไปยังเซิร์ฟเวอร์ของ Acquia แทน

ในแง่การใช้งานก็คงไม่ต่างอะไรกับตั้ง Solr ใช้เอง (แต่ถ้าเทียบกับ search.module ที่มากับ Drupal ก็ถือว่ามีฟีเจอร์ต่างกันอยู่พอสมควร เช่น Facet Search, สามารถตั้งค่า weight ของ search result ได้ละเอียดกว่ามาก) แต่ในแง่นวัตกรรมแล้ว ผมว่าเจ๋งทีเดียว

ตอนนี้บริการ subscription service ของ Acquia ก็ได้แก่

  • ตรวจจับสแปม - Mollom
  • ตรวจเช็คว่าเว็บไซต์ยังทำงานอยู่ปกติดี - Acquia ใช้คำว่า heartbeating
  • เก็บสถิติของเว็บไซต์
  • ค้นหา - Acquia Search

สังเกตว่าทุกอันมันจะมีลักษณะร่วมกันคือ จะเอาบริการที่สามารถทำเองได้ (แต่ลำบาก) มารันไว้บน cloud server ของ Acquia แล้วหารายได้จาก "การลดทอนความยุ่งยาก" โดยใช้โมเดลขาย subscription (แน่นอนว่าในแพกเกจไม่ได้มีเฉพาะบริการพวกนี้เพียงลำพัง แต่มี support ด้วย)

Pages

Subscribe to RSS - Information Retrieval