เคยเขียนไปว่าเทอมนี้ลงวิชา Information Storage and Retrieval Research ซึ่งสนุกมาก เคยจด lecture note ของซีรีย์วิชานี้ไปแล้วสองที
คราวนี้เป็นเลคเชอร์ครั้งสุดท้าย (สัปดาห์ถัดๆ ไปจะเป็นพรีเซนต์ ซึ่งผมเตรียมเรื่อง Drupal.org Search ไว้) ว่าด้วยการค้นหาข้อมูลที่เป็น non-textual ซึ่งหลักๆ ได้แก่ภาพและวิดีโอนั่นเอง
Image Search
การค้นหาภาพนั้นซับซ้อนกว่าข้อความเยอะ เพราะว่าคนเรามีคำอธิบายภาพที่ไม่เหมือนกัน เช่น ให้ดูรูปภูเขา บางคนอาจบอกเป็นชื่อสถานที่ บางคนอาจบอกว่าเป็น mountain ในขณะที่บางคนอาจมาแนวว่า นี่เป็นรูป "ความสงบสุข" ก็เป็นได้
เปเปอร์ที่ศึกษาว่าคนเราค้นหาภาพอะไรบ้าง คือ Armitage L.H., Enser P.G.B. (1998) Analysis of user need in image archives, Journal of Information Science, 23(4), pp. 287-299 ซึ่งเค้าแบ่งได้เป็นแผนภาพตามนี้

ตามตาราง คนจะนิยมค้นหาช่อง S1 มุมซ้ายบนมากที่สุด ส่วนน้อยที่สุดคือ A4 มุมขวาล่าง ไล่กันไปตามลำดับเป็นแนวทแยง
การค้นหารูปภาพด้วยคอมพิวเตอร์จะทำงานได้ดีถ้าเป็นงานเฉพาะทาง (specific domain) เช่น
- การค้นหาใบหน้าของคน (face spotting) - หมวด S1
- เช่นในกล้องดิจิทัลสมัยใหม่ๆ ใช้เทคโนโลยีของ pattern recognition คือบอกได้ว่าเป็นใบหน้า
- แต่ถ้าจะเอาถึงระดับ face recognition (บอกได้ว่าเป็นหน้าของใคร) จะยากกว่ามากมายหลาย Big O เพราะมีปัจจัยอื่นเสริมเยอะ เช่น แสง มุมกล้อง ฯลฯ
- การค้นหาตึก-สิ่งปลูกสร้าง - หมวด S3
- MIT มี MIT building spotter - อาจารย์ผมแซวว่าทำได้เพราะ MIT รวยขนาดสร้างตึกที่หน้าตาดูแตกต่างกันชัดเจนได้ ส่วนมหาลัยเราตึกเหมือนๆ กันจะยากกว่าหลายเท่า
- Cambridge ก็มีโปรแกรมแบบนี้
- พิจารณาว่าภาพนี้ถ่ายในร่ม/กลางแจ้ง - หมวด G3
- ใช้หลักการแบ่งภาพเป็นส่วนๆ แล้วพิจารณาว่า สี/แพทเทิร์นของแต่ละช่อง ควรเป็นในร่มหรือกลางแจ้ง จากนั้นค่อยคำนวณภาพทุกช่องรวมกัน ว่าทั้งภาพควรถ่ายที่ไหน
- ตัวอย่าง: retrievr จะมีช่องให้วาดรูป แล้วโปรแกรมจะหาภาพที่มีลักษณะใกล้เคียงกันบน Flickr (ลองเล่นดูเองเห็นภาพกว่า)
- บอกลักษณะของภาพวาด เช่น ภาพนี้เป็น impressionism
- บอกอายุของภาพถ่ายที่สแกนมา
- ค้นหาภาพที่ถูกละเมิดลิขสิทธิ์, ค้นหาโลโก้-เครื่องหมายการค้าว่าซ้ำหรือไม่
- เป็น exact match จึงมีประสิทธิภาพสูงถ้าค้นด้วยคอมพิวเตอร์
- เปรียบเทียบลายมือ
ปัญหาของการค้นหาภาพด้วยคอมพิวเตอร์
- อัลกอริธึมยังมีข้อจำกัด ส่วนใหญ่เป็นอัลกอริธึมทางคณิตศาสตร์ เช่น color histogram และมีวิธีประมวลผลต่างจากสมองของมนุษย์ เช่น ภาพต้นไม้ในเงา ถึงแม้ใบไม้จะสีดำ แต่คนยังแยกได้ว่าเป็นใบไม้
- การแยกแยะวัตถุต่างๆ ของคนนั้น ต้องใช้ความรู้และประสบการณ์ (real world knowledge) ประกอบสูงมาก
- เช่น คนสามารถบอกได้ว่าตึกที่สูง 20 ชั้น กับกระป๋องโค้กที่มีขนาด (dimension) บนภาพเท่ากันนั้นสูงไม่เท่ากัน เพราะเราใช้ความรู้ประกอบเช่นว่า ตึกมีหน้าต่าง, ระหว่างชั้นจะมีเส้นนอนคั่นให้เห็น, ความถี่ของแต่ละชั้นมีมาก ฯลฯ
การแก้ปัญหา-การประยุกต์ใช้
- ปัญหาของคอมพิวเตอร์ในการค้นหารูปภาพ สามารถนำไปประยุกต์ใช้กับ CAPTCHA ได้
- ถ้าคอมพิวเตอร์มันแย่ ก็ใช้คนทำแทนสิ
(ผมเพิ่มเอง) ล่าสุดเพิ่งมีข่าววิธีการค้นหารูปภาพแบบใหม่ของ Google Image Search แต่ผมยังไม่มีเวลาอ่านเปเปอร์ว่าทำงานยังไง
Video Search
ใกล้เคียงกับการค้นหารูปภาพ แต่ซับซ้อนขึ้น
- ผู้ค้นหาวิดีโอ มักต้องการดูวิดีโอแค่บางช่วงเท่านั้น
- เราจึงต้องหาวิธีแบ่งช่วงวิดีโอ (scene segmentation)
- short boundary segmentation - ระบบแบ่งซีนอัตโนมัติ ใช้เทคนิคอย่างการเปลี่ยนของแสงหรือองค์ประกอบในภาพอย่างฉับพลันเป็นหลัก
- อย่างไรก็ตาม อาจใช้ไม่ได้กับวิดีโอบางแบบ เช่น คอนเสิร์ต ที่เพลงเดียวมีแสงหลายแบบ
- ปัจจุบัน YouTube มีระบบตรวจหาวิดีโอที่ละเมิดลิขสิทธิ์
- TiVo มีระบบหาวิดีโอตามชื่อนักแสดง-ทีมงาน (หาจาก metadata)
Others
นอกจากภาพและวิดีโอ ยังมี
- ค้นหาโมเดลของโมเลกุล
- ค้นหาลายนิ้วมือ
- ค้นหาวัตถุ 3 มิติ (VRML) เช่น วาดรูป 2 มิติ แล้วไปค้นหาวัตถุ 3 มิติที่มีลักษณะใกล้เคียงกัน
Comments
bact'
3 May, 2008 - 19:25
Permalink
ของวิดีโอ
ของวิดีโอนี่ พวกที่ทำวิดีโอกีฬา เขาจะใช้เสียงช่วยด้วย
คือตอนทำประตู/แต้มได้ หรือฉากตื่นเต้น (ที่คนมักจะหา) มันจะมีเสียงเฉพาะอย่างดังขึ้นมา (คนเฮ เสียงพากษ์)
bact'
3 May, 2008 - 19:31
Permalink
การหาช็อต
การหาช็อตภาพเคลื่อนไหวโดยใช้เสียง (หา x โดยใช้ non-x) นี่ ที่ใช้กันทั่วไปทุกวันนี้คือ หาภาพโดยข้อความ อย่างที่ Google Image Search ปัจจุบันใช้ (หาจากข้อความที่อยู่รอบ ๆ ภาพ ไม่ได้หาที่ตัวภาพโดยตรง) ก็พอจะกล้อมแกล้มไปได้
Add new comment