如何重新缝合纽扣

提问者：小点点

我正在使用与MySQL集成的Nutch 2.1。我已经抓取了2个站点，Nutch成功地抓取了它们，并将数据存储到MySQL中。我正在使用Solr4.0.0进行搜索。

现在我的问题是，当我尝试重新抓取像trailer.apple.com这样的站点或任何其他站点时，它总是抓取上次抓取的URL。甚至我已经从seeds.txt文件中删除了上次爬网的URL并输入了新的URL。但Nutch没有爬取新的URL。

谁能告诉我，我到底做错了什么。

另外，请建议我的任何Nutch插件，可以帮助爬行的视频和电影网站。

任何帮助都是值得的。

共1个答案

匿名用户

我也有同样的问题。Nutch只重新抓取旧的URL，即使它们不存在于seed.txt中。

当我第一次开始nutch时，我会做以下操作：

在/root/desktop/apache-nutch 2.1/runtime/local/urls/seed.txt中添加域“www.domain01.com”（无引号）

在/root/desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txt中，添加新行：

#接受任何其他内容
^http://([a-z0-9]*.)*www.domain01.com/sport/

在/root/desktop/apache-nutch-2.1/conf/regex-urlfilter.txt中，添加新行：

#接受任何其他内容
^http://([a-z0-9]*.)*www.domain01.com/sport/

…一切都很好。

接下来我做了以下更改：

从/root/desktop/apache-nutch-2.1/runtime/local/urls/seed.txt中删除www.domain01.com，并添加两个新域:www.domain02.com和www.domain03.com

从/root/desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txt中删除www.domain01.com，并添加两行新行：

#接受任何其他东西
· · ^http://([a-z0-9]*.)www.domain02.com/sport/
· · ^http://([a-z0-9].)*www.domain03.com/sport/

从/root/desktop/apache-nutch-2.1/conf/regex-urlfilter.txt中删除www.domain01.com，并添加两行新行：

#接受任何其他东西
· · ^http://([a-z0-9]*.)www.domain02.com/sport/
· · ^http://([a-z0-9].)*www.domain03.com/sport/

接下来，我执行以下命令：

updatedb
bin/nutch inject urls
bin/nutch generate urls
bin/nutch updatedb
bin/nutch crawl urls -depth 3

nutch仍然在爬网www.domain01.com

我不知道为什么？

我在Linux Debian 6.0.5(x64)上使用Nutch 2.1。并且linux是在Windows7(x64)的虚拟机上启动的。