Heritrixアーキテクチャ学習ノート(一)

2556 ワード

1、始点をつかむCrawlOrder


heritrix-1.12.1/docs/apidocsディレクトリの下でAPIを表示できます.

org.archive.crawler.datamodel Class CrawlOrder

java.lang.Object
        
  
       
         
       
       
         
          
       javax.management.Attribute
        
      
       
         
          
       org.archive.crawler.settings.Type
       
          
       
         
          
       org.archive.crawler.settings.ComplexType
       
              
       
         
          
       org.archive.crawler.settings.ModuleType
       
                  
       
         
          
       org.archive.crawler.datamodel.CrawlOrder

上の図から、CrawlOrderは、属性設定に関連する一連のベースクラスから継承されていることがわかります.CrawlOrderのプロパティは、いつでも読み取りと監視が必要です.
説明:一度にタスクをキャプチャするには多くの属性が含まれており、1つのタスクを提案する方法は多くの種類があり、最も簡単なのはデフォルトのorder.に基づいていることです.xmlで構成します.
1)order.の読み込み方法xmlファイルのプロパティを作成し、CrawlOrderオブジェクトを作成しますか?

org.archive.crawler.settings Class XMLSettingsHandler

java.lang.Object
        
  
       
         
          
       org.archive.crawler.settings.SettingsHandler
       
      
       
         
          
       org.archive.crawler.settings.XMLSettingsHandler
       

Heritrix APIは、以下に示すように、XMLSettingsHandlerのクラスを提供する.
public XMLSettingsHandler(java.io.File orderFile)                    throws javax.management.InvalidAttributeValueException
XMLSettingsHandlerクラスの親SettingsHandlerは、次の方法を定義します.
public CrawlOrder getOrder() {         return order;     }
CrawlOrderのインスタンスを返します.