วันพฤหัสบดีที่ 27 มกราคม พ.ศ. 2554

เว็บไซต์ที่ให้บริการค้นหาข้อมูลที่ได้รับความนิยม

เว็บไซต์ที่ให้บริการค้นหาข้อมูลที่ได้รับความนิยม

เว็บไซต์ที่ให้บริการค้นหาข้อมูลที่ได้รับความนิยม
ที่มา:http://www.ku.ac.th/magazine_online/search_engine.html
        การพิมพ์ข้อมูลอิเล็กทรอนิกส์มีอัตราที่เพิ่มขึ้นอย่างรวดเร็ว เชื่อกันว่าข้อมูลข่าวสารที่จัดพิมพ์ในรูป Web หรือโฮมเพ็จเพื่อเผยแพร่บนอินเทอร์เน็ต มีมากกว่า 1000 ล้านหน้า (1000 หน้า URL reference)
เมื่อข้อมูลข่าวสารบนอินเทอร์เน็ตมีมากมายเช่นนี้ ทำให้ระบบการค้นหาเป็นเรื่องที่สำคัญมากยิ่งขึ้น เมื่อผู้ใช้อินเทอร์เน็ตต้องการเครื่องมือในการค้นหา จึงมีผู้พัฒนาระบบค้นหาข้อมูลบนอินเทอร์เน็ตที่เรียกว่า Search Engine และสร้างสถานีบริการไว้บนอินเทอร์เน็ต
สถานีบริการที่ใช้ในการค้นหาข้อมูลบนอินเทอร์เน็ตที่รู้จักกันดีมีหลายแห่ง เช่น yahoo.com, altavista.com excite.com, webcrawler.com เป็นต้น สถานีบริการเหล่านี้จึงเป็นที่รู้จักและใช้ประโยชน์กันอย่างกว้างขวาง โดยผู้ใช้อินเทอร์เน็ตทุกคนรู้จักกันดี
แต่หากพิจารณาข้อมูลที่อยู่บนอินเทอร์เน็ตกว่าหนึ่งพันล้านหน้า ระบบการค้นหาที่ให้บริการอยู่นี้ยังไม่สามารถเก็บดัชนีค้นหาและให้การค้นหาได้ครบทุกแห่ง จากการประมาณการของสถานีค้นหาที่ใหญ่ที่สุด เช่น yahoo.com หรือ altavista.com จะค้นหาข้อมูลได้ไม่ถึงครึ่งของเอกสารที่มีอยู่ในอินเทอร์เน็ต
         หากนำข้อมูลของหนังสือทุกเล่มจากห้องสมุดรัฐสภาอเมริกันมาเก็บรวมกันในรูปดิจิตอล มีผู้คำนวณดูว่าถ้าจะเก็บในรูป ASCII จะได้ประมาณ 20 เทราไบต์ (โดยมีหนังสือในห้องสมุดประมาณ 20 ล้านเล่ม) และข้อมูลในอินเทอร์เน็ตที่เรียกดูได้ทั้งหมดจะรวมกัน น่าจะอยู่ที่ประมาณ 14 เทราไบต์ อัตราการเพิ่มของข้อมูลที่มีมากกว่า 20 เปอร์เซนต์ต่อปี ดังนั้นในอีกไม่กี่ปีข้างหน้า ข้อมูลที่เก็บในอินเทอร์เน็ตที่เรียกดูได้แบบสาธารณะน่าจะมีมากกว่า 100 เทราไบต์
หลักการของเครื่องค้นหาที่สำคัญคือโปรแกรมหุ่นยนต์ ที่จะทำงานอัตโนมัติ และวิ่งเข้าไปซอกแซกในอินเทอร์เน็ต พร้อมคัดลอกข้อมูลมาจัดทำดัชนี และจัดโครงสร้างไว้ในฐานข้อมูลเพื่อจะเอื้อประโยชน์ให้ผู้เรียกค้นดูได้ โปรแกรมหุ่นยนต์นี้จะต้องทำงานเป็นระยะและวนกลับมาปรังปรุงข้อมูลใหม่ เพราะข้อมูลบนอินเทอร์เน็ตมีการเปลี่ยนแปลงเร็วมาก
ที่สำคัญคือข้อมูลบนอินเทอร์เน็ตมีหลากหลายภาษา จีน ไทย ฝรั่ง พม่า ลาว โปรแกรมค้นหาจะชาญฉลาดจัดทำดัชนีเหล่านี้ได้หมดหรือ? เรื่องนี้เป็นเรื่องที่น่าคิด
       โดยเฉพาะเรื่องภาษาไทย ที่เอกสารเขียนติดกัน คำหลักที่ใช้ค้นหาเป็นเรื่องใหญ่ที่จะต้องศึกษาวิจัย เชื่อแน่ว่าโปรแกรมหุ่นยนต์ของฝรั่งที่พัฒนาขึ้นก็ยากที่จะเข้าใจภาษาไทยได้ดี
เมื่อเป็นเช่นนี้ทีมงานภาควิชาวิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ จึงได้ดำเนินการทำการวิจัยและพัฒนาสร้าง Nontri Search ซึ่งเป็นโปรแกรมค้นหาข้อมูลที่เอื้อประโยชน์ต่อคนไทยและจะทำให้รู้ใจคนไทยได้มากยิ่งขึ้น
การทำงานของโปรแกรมที่พัฒนาขึ้นประกอบด้วยตัวโปรแกรมหุ่นยนต์ ที่จะเสาะแสวงหาที่อยู่ของเว็บเพ็จต่าง ๆ ปัจจุบันเน้นเฉพาะเว็บเพ็จที่ตั้งอยู่ในประเทศไทยเป็นหลัก โดยศึกษาวิเคราะห์จากโครงสร้างไอพีแอดเดรสและข้อมูลจากเนมเซิร์ฟเวอร์ ที่มีการจดทะเบียนใช้งานในเมืองไทย หุ่นยนต์จะลองทำการวิ่งเข้าหาเครื่องแต่ละเครื่องเพื่อคัดลอกข้อมูลมา จากนั้นวิเคราะห์ข้อมูลและจัดทำดัชนีค้นหาไว้
สิ่งที่ Nontri Search ทำได้ในขณะนี้คือ จะวิ่งค้นหาเป็นรอบ ๆ เพื่อปรับปรุงข้อมูลและดูว่าข้อมูลมีการเปลี่ยนแปลงหรือไม่ เพื่อปรับปรุงดัชนีให้ทันสมัย แทบไม่น่าเชื่อว่า ปัจจุบันภายในประเทศไทย มีข้อมูลเกือบหกแสนหน้า (ยูอาร์แอล) การจัดทำดัชนีจะเก็บไว้ในเซิร์ฟเวอร์ ซึ่งปัจจุบันในเซิร์ฟเวอร์ขนาดใหญ่เครื่องหนึ่งรองรับฐานข้อมูลนี้
การจัดทำดัชนีและจุดอ้างอิงยูอาร์แอล เมื่อผู้ใช้เรียกถาม Nontri Search ก็จะเรียกค้นจากฐานข้อมูลแล้วนำมาแสดงให้ การจัดทำดัชนีนี้เป็นเรื่องที่น่าสนใจมาก เพราะมีเรื่องราวที่จะต้องปรับแต่งและวิจัยหาความเหมาะสมได้อีกมาก
การพัฒนาระบบค้นหาข้อมูลจึงเป็นศาสตร์ที่สำคัญยิ่งสำหรับอนาคต เพราะลองนึกดูว่า ถ้าเราต้องการให้ค้นหาข้อมูลทั้งหมดในอินเทอร์เน็ต ซึ่งมีกว่าพันล้านยูอาร์แอล มีความจุกว่า 14 เทราไบต์ ระบบการค้นหาและทำดัชนีจะเป็นระบบที่ซับซ้อนพอดู เพราะต้องให้บริการได้เร็ว
งานวิจัย Nontri Search จึงเป็นผลงานที่ชาวมหาวิทยาลัยเกษตรศาสตร์ ได้จัดทำขึ้นเพื่อประชาคมอินเทอร์เน็ตที่เป็นคนไทย งานพัฒนานี้จะต้องกระทำต่อไป

ไม่มีความคิดเห็น:

แสดงความคิดเห็น