我正在使用与MySQL集成的Nutch 2.1。我已经抓取了2个站点,Nutch成功地抓取了它们,并将数据存储到MySQL中。我正在使用Solr4.0.0进行搜索。
现在我的问题是,当我尝试重新抓取像trailer.apple.com这样的站点或任何其他站点时,它总是抓取上次抓取的URL。甚至我已经从seeds.txt文件中删除了上次爬网的URL并输入了新的URL。但Nutch没有爬取新的URL。
谁能告诉我,我到底做错了什么。
另外,请建议我的任何Nutch插件,可以帮助爬行的视频和电影网站。
任何帮助都是值得的。
我也有同样的问题。Nutch只重新抓取旧的URL,即使它们不存在于seed.txt中。
当我第一次开始nutch时,我会做以下操作:
>
在/root/desktop/apache-nutch 2.1/runtime/local/urls/seed.txt中添加域“www.domain01.com”(无引号)
在/root/desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txt中,添加新行:
#接受任何其他内容
^http://([a-z0-9]*.)*www.domain01.com/sport/
在/root/desktop/apache-nutch-2.1/conf/regex-urlfilter.txt中,添加新行:
#接受任何其他内容
^http://([a-z0-9]*.)*www.domain01.com/sport/
…一切都很好。
接下来我做了以下更改:
>
从/root/desktop/apache-nutch-2.1/runtime/local/urls/seed.txt中删除www.domain01.com,并添加两个新域:www.domain02.com和www.domain03.com
从/root/desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txt中删除www.domain01.com,并添加两行新行:
#接受任何其他东西
· · ^http://([a-z0-9]*.)www.domain02.com/sport/
· · ^http://([a-z0-9].)*www.domain03.com/sport/
从/root/desktop/apache-nutch-2.1/conf/regex-urlfilter.txt中删除www.domain01.com,并添加两行新行:
#接受任何其他东西
· · ^http://([a-z0-9]*.)www.domain02.com/sport/
· · ^http://([a-z0-9].)*www.domain03.com/sport/
接下来,我执行以下命令:
updatedb
bin/nutch inject urls
bin/nutch generate urls
bin/nutch updatedb
bin/nutch crawl urls -depth 3
nutch仍然在爬网www.domain01.com
我不知道为什么?
我在Linux Debian 6.0.5(x64)上使用Nutch 2.1。并且linux是在Windows7(x64)的虚拟机上启动的。