優先ホストと禁止ホスト



優先ホストと禁止ホスト

解説

 WiseWebHunterは巡回するホストに優先度の概念を持ち込み、 必要最小限の努力で、欲しいファイルを一気にダウンロードできる性質を備えています。

 この方法は、実は人工知能におけるビーム探索に近い考え方をしています。 ビーム探索とは、欲しい解に早く到達するために、探索範囲を評価値に基づいて絞る探索方法です。 この方法は、実際の人間の思考方法とある程度似ているため、 評価基準をうまく定めさえすれば、とても効率良く解を得ることができます。

 WiseWebHunterには、巡回の結果、自動的にホストの優先度を上げ下げする動的優先度と タスク登録の時点で、優先的に巡回するホストを決めてしまう静的優先度の両方があります。 動的優先度には中・低1・低0の3種類があり、静的優先度には禁止があります。 この章では、静的優先度の禁止の設定方法を解説します。

 静的優先度を持つホストを以下、優先ホストと呼びます。 また、静的優先度禁止を持つホストを禁止ホストと呼ぶことにします。 これらのいずれのホストにも指定されなかったホストは、動的優先度を持つホストに分類されます。

 なお、ホストの優先度は、実行の仕組みに密接に関る概念なため、 技術文書タスク実行器でも解説しています。


優先ホストの指定

 タスクの編集画面のホスト優先度設定の項目で、優先ホストを指定することができます(図1)。

ホスト優先度設定
(図1)ホスト優先度設定

優先ホストの追加・編集・削除

 優先ホストのリストボックス上で右クリックをします。 すると、図2のようにポップアップメニューが表示されるので、 これを通して優先ホストを追加したり編集したりできます。

優先ホストのポップアップメニュー
(図2)優先ホストのポップアップメニュー


優先ホストのみ巡回する場合

 優先ホストのみ巡回にチェックをつけると、 優先ホストに登録されていないホストはすべて禁止ホストとして処理されます。

 この場合、巡回すべきホストは非常に少数に抑えられるため、 WiseWebHunterコアに与える負担は極端に小さくなります。 また、巡回効率も95%並みになりますし、タスクの実行時間もかなり短くなります。 そこで、このモードで実行されるタスクには、 特典機能として自動実行機能連番保存機能を提供することになりました。

 これらの機能については、自動実行設定保存方法の指定をご覧ください。

 なお、優先ホストのみ巡回する場合、少々のテクニックが必要となります。 というのは、タスクを登録する前に、あらかじめ巡回したいホストを調査しなければならないからです。

サイトの調査が必要

 巡回するホストを調べるには、まず実際にブラウザを用いて、 スタートページからダウンロードしたいファイルのあるページまで移動してみます。 そして、この一連の操作の中で、「http://○○○/xxx...」の○○○の部分がどう変化するか観察します。 最後に、遷移した「○○○」すべてを優先ホストに登録すればOKです。

 例えば、www.multisoft-lab.comからたどったページが、www003.multisoft-lab.comを経て、203.178.135.25に変化したとしましょう。 このとき、優先ホストに登録する内容は、「www.multisoft-lab.com」、「www003.multisoft-lab.com」、「203.178.135.25」となります。


禁止ホストの指定

 Webを巡回していると、巡回したくないホストまでも巡回してしまう場合があります。 この場合、巡回機能に無駄が生じてしまうため、 あらかじめわかっている巡回不要ホストは禁止ホストのリストに登録しておくことをおすすめします。

 登録方法は、優先ホストを登録した場合と同様です。 なお、優先ホストのみ巡回の場合は、禁止ホストを指定する必要はありません。


WiseWebHunter Ver.1.xとの関係

 旧バージョンのWiseWebHunterは、開始URLとダウンロードホスト、 そして巡回ホストを指定するだけでした。 開始URLのホストおよびダウンロードホストは実行時に巡回ホストに追加登録され、実行されていました。

 この方式は、Ver.2.0での優先ホストのみ巡回に近いものがあります。 もちろん、Ver.2.0では、開始URLのホストは必ずしも優先ホストである必要はないし、 ダウンロードは任意のホストから可能という違いはあります。 しかし、これらの違いを除けば、ほぼ同じ動作をします。

 一方で、Ver.2.0では「優先ホストのみ巡回」のチェックをつけなければ、 誰でも簡単に巡回機能を利用できるようになりました。 ところが通常は、このような方式で巡回する場合、巡回効率は非常に低下してしまいます。 しかし、WiseWebHunter Ver.2.0は巡回効率の低下を防ぐため、ホストに優先度の概念を導入したのです。 この結果、巡回効率は実用に耐えうるまでになっています。

 とはいえ、この方法でも、旧バージョンですでに達成していた巡回効率95%には及びません。 どうしても巡回効率を95%にまで上げたい場合は、優先ホストのみを巡回させることが必要です。



Copyright © 2004-2006 Multisoft-lab   All rights reserved.