Iam能够设置Apache Nutch并在Solr中获得数据索引。在编制索引时,我试图确保只对修改过的页面进行索引。下面是我们对此有的两个问题。
>
有没有可能告诉Nutch在抓取站点时发送“if-modified-since”头,并且只有在页面自上次抓取以来发生了更改时才下载该页面。
我可以看到Nutch正在从检索到的页面内容中形成MD5摘要,但是即使摘要没有改变(与以前的版本相比),它仍然在Solr中索引页面。在Nutch中是否有任何设置来确保内容没有改变,在Solr中没有索引?
在这里回答我自己的问题,希望当我设置adaptivefetchschedule时,它能帮助别人看到Nutch没有拉出未更改的页面。它很荣幸的if-modified-since头。