使用Solr Nutch对特定数据进行Web爬网

提问者：小点点

我看到了一些像http://homes.mitula.ph/homes/makati这样的搜索网站，我想知道他们是如何抓取其他网站（如price、image和description）中的数据并将其显示到他们的站点上的。

我正在考虑使用Solr索引数据，使用Nutch抓取数据。我是一个新的网页抓取和索引，目前为止，我只能抓取一个网页的内容。

Solr Nutch能做那种爬行吗？怎么做的？

共1个答案

匿名用户

根本就不存在“solr nutch”这回事。它们是单独的项目。

您可以在Nutch中编写HTMLParseFilters并实现提取逻辑，然后配置索引过滤器，以便将数据发送到Solr。

顺便说一句，您可能会发现StormCrawler更易于使用和扩展。它有一个ParseFilter实现，它采用XPath表达式从网页中提取信息。

当然，您可以在Nutch中的HTMLParseFilter中执行同样的操作，但这需要编写一些代码并将其放入自定义插件中。