サイト内・サイト間の全文検索構築方法

 

小川 誠(徳島県立博物館)

 

1.サイト内・サイト間の検索とはどんなもの?

 

 サイト内・サイト間の検索といってもよくわからないかもしれません.まず,実例を紹介してみましょう.サイト内の検索と はあるサイトのHTMLやテキストファイルの内容を検索するものです.たとえば下記のようなサイト内検索のページがあったとします.

サイト内検索の例

探したい言葉(例:ヨモギ)をいれて 検索 を押してください.

AND OR

 複数の単語を入力するときにはスペースで区切ってく ださい.

検索文字列に"ヨモギ"と入力して検索ボタンを押すと下のようになり,"ヨモギ"という言葉が含まれているページのリスト が表示されています.全文検索というのは,このようにページの中に含まれているすべての言葉を検索する方法です.この検索結果一覧のそれぞれのタイトルの 部分をマウスでクリックすると目的のページにジャンプできます.

検索結果一覧

1  植物写真50音順 ( http://www.asahi-net.or.jp/~HI1M-OGW/shoku.html )
植物写真:暫定版(音順)植物写真の一覧です。ただし、間違いなども含まれています。現在、植物の形か ら検索できたり、分布図を......
 
2  エゾノユキヨモギ ( http://www.asahi-net.or.jp/~HI1M-OGW/shu/eznykymg.html )
エゾノユキヨモギ科名:キク学名:Artemisia montana Nakai Pampan var shiretoko......
 
3  エゾヨモギギク ( http://www.asahi-net.or.jp/~HI1M-OGW/shu/ezymggk.html )
エゾヨモギギク科名:キク学名:Tanacetum vulgare Linn......
 
4  フクド ( http://www.asahi-net.or.jp/~HI1M-OGW/shu/fkd.html )
フクド(ハマヨモギ)科名:キク学名:Artemisia fukudo Makino......
 
5  ヒメヨモギ ( http://www.asahi-net.or.jp/~HI1M-OGW/shu/hmymg.html )
ヒメヨモギ科名:キク学名:Artemisia feddei Lev et Van.....
 
6  ヒロハウラジロヨモギ ( http://www.asahi-net.or.jp/~HI1M-OGW/shu/hrhurjrymg.html )
ヒロハウラジロヨモギ(オオワタヨモギ)科名:キク学名:Artemisia koidzumii NakaiCopyrigh......
 
7  ヒトツバヨモギ ( http://www.asahi-net.or.jp/~HI1M-OGW/shu/httbymg.html )
ヒトツバヨモギ(ヤナギヨモギ)科名:キク学名:Artemisia monophylla Kitam......

 サイト間検索というのはいくつかの博物館サイトをまたいで検索するものです.サイト間検索の例は 博 物館関連サイトの検索 (http://www2.spmoa.shizuoka.shizuoka.jp/exp/search/mus_search.html) で体験できます.
 いろいろな分野でこうしたサービスが行われていますのでその一部紹介しておきます.ぜひ,実際に検索し体験してみてください.

 
図書館情報学のための検索サービス
  http://piano.p.u-tokyo.ac.jp/fukuda/
 
地域発見:地方公共団体のページを検索できるサービス
  http://search.nippon-net.ne.jp/search_mha.html
 
こねっとgoo:社会教育施設や研究機関などのカテゴリごとに検索できる
  http://www.goo.wnn.or.jp/
 
検索省:日本の省庁のページを全文検索できる
  http://st.jr.chiba-u.ac.jp/mos/
 
学校検索:全国の学校のホームページが検索できる
  http://sagasu.jr.chiba-u.ac.jp/

 

2.サイト内・サイト間の検索はなぜ必要なの?

 

 たとえば,1000ページもある厚い本があったとします.その中にはたくさんの情報がつまっていますので,あなたが欲し がっている情報もあるかもしれません.しかし,もし,その本に索引がついていなければ,最初に目次を眺め,関連しそうなところのページを全部めくっていか なければなりません.運が良ければ,すぐに目的のものが見つかるかもしれませんし,最後までページをめくってもそれが見つからない場合もあるでしょう.索 引さえ用意されていればそのような手間をかけることもなく,目的のものを探すことができます.いくら書かれている内容が良くても索引が整備されていない本 は,読者に内容が十分伝わっていないことが考えられます.
 目を転じてWEBサイトを見てみても,同じことが言えるでしょう.ホームページのカウンタの記録などから,トップのページの来訪者の割に,下部のページ は来訪者が少なくなっていることがわかります.たいてい,トップページに各ページのリンクがあり,目次のような役目を果たしています.私は何度も経験があ りますが,ここには情報があるだろうと立ち寄ってみても,その情報がどこにあるのかわからないケースもあるのではないでしょうか.ページの作りにもよりま すが,目次だけではせっかく作ったページが見られていない可能性があります.本の索引に相当する全文検索をつければ,より簡単に目的のページに来訪者を導 くことができます.
 インターネットではサーチエンジンサービスというのがあって,公開されているホームページの検索ができます.しかし,goo (http://www.goo.ne.jp/) やinfoseek (http://japan.infoseek.com/) といった一般の全文検索サービスを使うとかなりの件数はヒットするのですが,情報源が雑多過ぎて目的の情報になかなか行きつかないことが多くあります.ま た,消えてしまったリンクがかなり残っている,登録されているサイト内が必ずしも全部検索できるわけではないなどの問題もかかえています.自前で検索サー ビスを用意できれば,そのような問題は解消します.
 ところで,1冊の本の中に総てのことが掲載されているというのは極めて希なことです.普通はいくつかの似たテーマの本を探して,目的の情報をにたどりつ くのでしょう.WEBサイトでも同様で,似通ったテーマのサイトの検索が一度にできれば,それだけ目的の情報にはやくたどり着くことができます.そうした 検索がサイト間検索で,複数のサイトがそれぞれの足りない情報を補完することが可能になります.
 インターネット上のサイトは本当に増えて,それぞれに有用な情報を持っています.その情報が増えれば増えるほど,それにたどり着きにくくなっているので す.その有用な情報をいかに効率的に活用するかが課題で,その一つの方法として全文検索の利用が考えられます.

3.どうやって全文検索を実現するの?

 

 有料でサーチエンジンを組み込むサービスもありますが,ここではできるだけコストをかけずに全文検索を実現する方法を紹 介します.これらの他にWEBサーバが全文検索の機能を持っているものやプラグインで機能を追加するものもあります.

(A)一般の全文検索サービスを使う方法
gooinfoseekなどの全文検索サービスでは,サイトの URLやキーワードを検索フォームの中に埋め込むことが可能です.それを使うと限界はありますが,手間をかけずに検索が可能です.サーチ・エンジン を取り付けてみる (http://www.reis.co.jp/webdiary/9808.html) という記事があり,AltaVista などのサーチエンジンを利用する話が載っています.
 
(B)Perlで組んだCGIを使う
Perlというものを使えばCGIを組むことができます.サイト内の HTML ファイルを覗いて検索するスクリプトは検索フォーム設置法 (http://www2e.biglobe.ne.jp/~s-hasei/wwwsrch.htm) で紹介されています.
  
(C)フリーの全文検索ツールを使う
Unixにはフリーの全文検索ツールがたくさんあります.それを使って検索サービスを行います.全文検索ツールの情 報は日本語全文検索エンジンソフトウェアのリスト (http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html) で詳しく紹介されています.無料の検索エンジンのひとつである namazu (http://www.ring.gr.jp/openlab/namazu/index-j.html) を使った全文検索構築の方法については図 書館Webページの検索システムの構築と提供 (http://www.affrc.go.jp/Cinfo/staff/ric/gis/doc/seek4lib.html) のページで詳しく説明されています.
  
(D)OSに付属のツールを使う
Machintosh で動作する MacOS8.5に付属のツールの一つに,Sherlockというのがあります.これは,ディスク内の検索やインターネットのサーチエンジンを利用する機 能を持っていまが,その機能を利用して,MacPerlやAppleScriptでCGIを作ることにより,全文検索が可能になります.

 

(E)WEBデ−タベ−スを使う
パソコンのデ−タベ−スソフトであるファイルメーカproはWEBデ−タベ −スとしても間単に使えます.HTMLファイルのテキストを取り込んで,WEBデ−タベ−スとして公開します.

4.サイト間の検索はどのように実現するの?

 全文検索は上記の方法で構築できました.サイト間の検索は,まず,検索対象となるデ−タを一旦集めてくる作 業が必要になります.デ−タを収集するツールは「ロボット」とか「WWW オートパイロットソフト」と呼ばれます.UNIXで良く知られたフリーのものは,wgethttpdown (http://www.mechatronics.mech.tohoku.ac.jp/%7Ekumagai/bins/kuma/) などがあります.そうやって集めたファイルをディスクに保存し,上記の全文検索をかけ,URLをオリジナルにあったものに書き換えて表示させます.

5.全文検索を有効活用するために

 namazu のようなフリーの全文検索エンジンが広く使われるようになったのを機に,自前や共同で全文検索サービスを行うサイトがたくさん現れるようになりました.索 引を作る方法や検索速度を上げる方法などの技術的な進歩がこれからも進むと思われます.こうした全文検索は,情報が蓄積されていてはじめて有効に活用され るものです.情報の蓄積のないところではいくら良い検索エンジンがあっても宝の持ち腐れです.
 日常の作業の中で作られる情報はどのような形で蓄積されているのか十分見極める必要があるのでしょう.たとえば,fml (http://www.sapporo.iij.ad.jp/staff/fukachan/href/fml/index.html) というプログラムでメーリングリストを運用していれば,ログを自動的にhtml形式に保存し,webで公開することがfmlの標準の機能で可能です.それ に全文検索をつけると,有用な情報源になります.そうして蓄積された情報のうちweb上で公開できるものは何なのかをきちんと判断し,できるものは公開す るというスタンスが必要です.

6.全文検索・横断検索の課題

 最後に全文検索や横断検索のこれからの課題をまとめてみる.

(1)辞書をどうきたえるのか
 namazuのような索引を作る全文検索では,辞書の作成方法によってはヒット率がかなり変わってくる.そのために専門辞書が用意されているが,博物館 全体を網羅した専門辞書は見当たらない.したがって,いくつかの専門辞書を組み合わせ足りない部分を補う可能性がある.

(2)テーマが同じサイトの集結
全文検索では,ヒット数が多い場合,目的のページにたどり着きにくくなる.したがって,できるだけ同じテーマのページをまとめた方がよい.博物館といって もそれが扱う分野は,植物・動物・考古・民俗など幅広い.植物だけの横断検索のページを作ってみても面白いのかもしれない.

(3)デ−タベ−スの横断検索は可能か?
最近ではWEB上でのデ−タベ−ス検索サービスを行っているサイトも少なくない.静的なページは,ロボットなどを用いてあらかじ め収集することができるが,そうしたデ−タベ−スの検索ページはそういうわけにはいかない.MacOS8.5に付属する Sherlockは,複数の検索サイトを登録することによりあたかも一度の検索で複数の検索サイトの結果が表示される.WEBクライアントにより,同時に 複数のページにリクエストを送り,帰ってきた結果を一つにまとめて表示しているだけであるが,そうした方法によって,デ−タベ− スの横断検索は可能である.そうしたサービスを行う方が,全国科学博物館協議会で行われている標本資料データ ベースの標準化や文化財情報システムフォーラムの共通索引よ り,現実的であるかもしれない.

6.参考文献

馬場 肇 1998. 日本語全文検索システムの構築と活用. ソフトバンク,東京.


WEBサイト構築術に戻る

このページに関するお問い合わせは作成者:小川 誠(徳島県立博物館)