Information Retrieval

สัมภาษณ์ Yusuf Mehdi (senior vice president of the Online Audience Group for Microsoft Bing) จากสองสำนัก น่าสนใจทั้งคู่

ประเด็นที่น่าสนใจคือแนวคิดทางเศรษฐศาสตร์ที่อยู่ข้างใต้ search engine

BusinessInsider

สถาปัตยกรรมทางเทคนิคของ Bing (รวมไปถึงระดับ data center) ออกแบบมาสำหรับผู้ใช้ 40-50% ของอเมริกาทั้งประเทศ คือต้องมีคนใช้ระดับนี้ และมีรายได้จากผู้ใช้จำนวนเท่านี้ ถึงจะคุ้มทุนค่า fix cost ที่ลงไป (เพราะ economy of scale) แต่ปัจจุบัน Bing มีส่วนแบ่งแค่ประมาณ 12% ดังนั้นข้อตกลงกับยาฮูจึงเป็นสิ่งจำเป็น (รวมกันแล้วมีส่วนแบ่งประมาณ 29%)

BusinessInsider มองว่า Bing ต้องแย่งส่วนแบ่งตลาดจากกูเกิลมาให้ได้อีก 10 จุด แต่ "Google is not run by idiots"และเรียก Yusuf Mehdi ว่า "the man with the hardest job in the world"

eWeek

ยกคำพูดของ Mehdi ว่า Bing แพ้กูเกิลเพราะมัวแต่ไปสนใจเอาชนะกูเกิลใน query ยอดนิยม ("head") ในขณะที่กูเกิลสนใจ query ทุกรูปแบบ ("long tail") ซึ่งรวมปริมาณแล้วเยอะกว่า "head" ที่ Bing สนใจ

อย่างไรก็ตาม Mehdi ให้ความเห็นว่า โลกกำลังกลับมาเริ่มสนใจ "head query" ที่ได้รับความนิยมสูง เช่น ข้อความใน Twitter, Foursquare หรือ Wolfram Alpha ซึ่งไมโครซอฟท์ไปทำข้อตกลงไว้หมดแล้ว

สมัยก่อน เครื่องมือในการ fine-tuning ของ Blognone มีสามอย่าง

  • ดูจาก referrer แล้วตามไปดูเว็บต้นทาง
  • Technorati
  • Google Blog Search เอาไว้ cross-check กับ Technorati

ช่วงหลังๆ มานี้ เครื่องมือเพิ่มมาอีกอันคือ Twitter Search ซึ่งผมพบว่ามันมีความเคลื่อนไหวมากกว่าเครื่องมืออื่นๆ มาก (แถมในขณะเดียวกัน ปริมาณบล็อกที่อ้างถึงใน Technorati และ Google Blog Search ลดน้อยลงอย่างมีนัยยะสำคัญ ประมาณว่าคนเขียนบล็อกกันน้อยลงเยอะ)

ในภาพรวมแล้ว ไม่ว่าเครื่องมือจะเป็นอะไร มันก็มีเป้าประสงค์อันเดียวกัน คือดูว่ามีใครพูดถึงเราอย่างไรบ้าง (How people talk about us?) ซึ่งผมคิดว่ามันจะเป็นเครื่องมือที่สำคัญของการตลาดออนไลน์ในอนาคต (จริงๆ ตอนนี้ก็เป็นแล้ว)

พัฒนาการขั้นถัดไปของระบบที่ว่านี้ ก็คือ หาวิธีการวัด (matrix) ที่เป็นมาตรฐานในอุตสาหกรรม ทุกคนใช้กันทั้งหมด (แบบเดียวกับ PV, UIP, CTR ของวงการโฆษณาออนไลน์) ก็ต้องดูต่อไปว่าที่ Twitter โฆษณาไว้ว่าจะสร้าง business model จาก matrix แบบนี้ มันจะออกมาหน้าตายังไง

บล็อกของผม PageRank ค่อนข้างดี (PR5 แต่ตรงไหนใน 5 ก็ไม่ทราบได้เพราะมันคาอยู่ตรงนี้มานานแล้ว) ถ้าทำ SEO หน่อยและคาดเดาเทร็นด์ดีๆ ก็จะมี traffic เพิ่มได้ไม่ยาก

แต่ส่วนมากแล้ว หน้าที่ hit เยอะๆ จะมาจาก keyword ที่ผมไม่ได้ตั้งใจทำ SEO เช่น หลิวอี้เฟย หรือ ตลาดดอนหวาย เป็นต้น

นอกจาก hit แล้ว สิ่งที่ตามมาอีกอย่างคือ fanatic comment จากคนที่ค้นเข้ามาเจอบล็อกผมพอดี (ลองดูตัวอย่างในหน้า หลิวอี้เฟย ได้) ซึ่งโดยมากแล้ว ผมมักปิดคอมเมนต์ใน entry อันนั้นเพราะขี้เกียจเข้าไปอ่านบ่อยๆ (ตามตัวอย่าง จะเห็นว่า fanatic comment นั้นไม่ค่อยมีสาระเท่าไรนัก)

general case ส่วนใหญ่นั้นจะไม่ค่อยมีปัญหาอะไรเท่าไร เพราะผมเขียนถึงคน, สถานที่, หรือวัตถุที่ดันไปฮิตแบบไม่คาดหมายในเชิงบวก หรืออย่างน้อยก็กลางๆ ไม่บวกไม่ลบอะไร

แค่เคสล่าสุดน่าสนใจมาก ถ้าใครอ่านบล็อกมาในช่วงนี้อาจจะพอจำได้ว่าผมเขียนถึง Nokia 5800 XpressMusic จากประสบการณ์ที่ไปยืนทดลองเล่นมาที่ร้านโนเกีย (ตามประสา geek ที่ดี)

เนื่องจากว่าผมไม่ประทับใจ 5800 เท่าไร ความเห็นเลยออกมาในเชิงลบเสียมาก บวกกับกระแส 5800 fever เกินคาดในเมืองไทย (ระดับขั้นสูง ถึงขนาดที่สาวกแอปเปิลใน Blognone ทนไม่ไหวเลยเชียว) และ PR ที่ค่อนข้างดี (ผมเช็คล่าสุดอยู่อันดับ 14 ของ Google.co.th) ทำให้เกิด "ปรากฎการณ์แปลกใหม่" ขึ้นมา นั่นคือ hate comment ที่สะท้อนกลับจากการวิจารณ์ 5800 ของผมนั่นเอง

ผมสนุกกับปรากฎการณ์แปลกใหม่อันนี้มาก เลยตัดสินใจไม่ปิดคอมเมนต์อย่างที่เคย แถมตอบคอมเมนต์แบบกวนตีนๆ อีกต่างหาก (แถวบ้านเรียก "ดัก" ครับ สาวกมักจะดักง่ายเสมอ) และนั่งศึกษาแง่มุมต่างๆ ของ hate comment แบบนี้ไปเรื่อยๆ

คำถามและประเด็นที่ผมสนใจ (แต่ยังไม่ได้คำตอบเท่าไรนัก)

  • referrer และแน่นอน keyword
  • ความถี่
  • วิธีการลงชื่อ
  • วิธีการตอบ: ความสัมพันธ์ของ thread comment ว่าตอบกันยังไง
  • วิธีการตอบ: เราสามารถกำหนดทิศทางของ comment ด้วยตัว content ใน entry ได้หรือไม่
  • อัตราการตอบคอมเมนต์/hit

ตอนนี้ได้ข้อสรุปเพียงอย่างเดียวว่า สาวกโนเกียอ่อนด้อยกว่าสาวกแอปเปิลมาก

วันนี้ลองทดสอบ Acquia Search ลองเล่นดูได้ที่หน้า Search ของบล็อกนี้

Acquia Search คืออะไร? มันคือ Apache Solr แต่แทนที่จะตั้งเซิร์ฟเวอร์เองยุ่งยาก (เป็นจาวาครับ) ก็ outsource กระบวนการทำ index ของเนื้อหาไปยังเซิร์ฟเวอร์ของ Acquia แทน

ในแง่การใช้งานก็คงไม่ต่างอะไรกับตั้ง Solr ใช้เอง (แต่ถ้าเทียบกับ search.module ที่มากับ Drupal ก็ถือว่ามีฟีเจอร์ต่างกันอยู่พอสมควร เช่น Facet Search, สามารถตั้งค่า weight ของ search result ได้ละเอียดกว่ามาก) แต่ในแง่นวัตกรรมแล้ว ผมว่าเจ๋งทีเดียว

ตอนนี้บริการ subscription service ของ Acquia ก็ได้แก่

  • ตรวจจับสแปม - Mollom
  • ตรวจเช็คว่าเว็บไซต์ยังทำงานอยู่ปกติดี - Acquia ใช้คำว่า heartbeating
  • เก็บสถิติของเว็บไซต์
  • ค้นหา - Acquia Search

สังเกตว่าทุกอันมันจะมีลักษณะร่วมกันคือ จะเอาบริการที่สามารถทำเองได้ (แต่ลำบาก) มารันไว้บน cloud server ของ Acquia แล้วหารายได้จาก "การลดทอนความยุ่งยาก" โดยใช้โมเดลขาย subscription (แน่นอนว่าในแพกเกจไม่ได้มีเฉพาะบริการพวกนี้เพียงลำพัง แต่มี support ด้วย)

ผมว่ามันเป็น business model ที่แหลมคมทีเดียว เพราะคนที่ขี้เกียจหรือไม่มีแรงพอจะมาเซ็ตระบบเหล่านี้เอง ก็มีอยู่ไม่น้อย (อย่างน้อยผมคงไม่ขยันมาเซ็ต Solr ใช้เองแน่ๆ)

ถ้าพิจารณาอย่างละเอียดแล้ว จะเห็นว่าบริการเก็บสถิติก็จะไปซ้อนกับ Google Analytics และ Acquia Search ก็คล้ายๆ กับ Google Enterprise Search นั่นเอง สุดท้ายแล้วมันคือรูปแบบหนึ่งของ web service (ในความหมายคนละอย่างกับพวก SOAP) นั่นเอง

สำหรับ Acquia Search นั้นการติดตั้งบน Drupal 6 รุ่นธรรมดาจะยุ่งยากพอสมควร ต้องใช้โมดูลรวมกันถึง 5 ตัวคือ Acquia agent, Acquia search, Acquia site information, Apache Solr framework, Apache Solr search ขนาดผมคุ้นเคยกับ Drupal อยู่บ้างยังต้องเปิดคู่มือประกอบตอนติดตั้ง

ปัญหาการติดตั้งโมดูลเพื่อเชื่อมประสานกับบริการของ Acquia นั้นมีทางออกตั้งแต่แรก นั่นคือ Acquia Drupal นั่นเอง สุดท้ายแล้ว เงื่อนไขทั้งด้านความเข้ากันได้, การเชื่อมประสาน, support ต่างๆ เหล่านี้จะบีบให้เราต้องใช้ Acquia Drupal แทนที่จะเป็น Drupal.org Drupal ในกรณีที่ต้องการใช้บริการของ Acquia (ซึ่งบริการบางอย่างก็ไม่มีคู่แข่งเลย) นั่นหมายถึงเงินที่ Acquia จะได้รับจาก subscription service นั่นเอง

อัพเดต ดูสไลด์ของ Acquia Search ประกอบ

จาก It’s Time To Start Thinking Of Twitter As A Search Engine อ่านไปอ่านมาก็เห็นจะจริง โดยเฉพาะคอมเมนต์แรก

เพราะตอนนี้เว็บที่ผมเข้าทุกวัน เพิ่มมาอีก 2 หน้า #1, #2