提问者:小点点

使用Solr Nutch对特定数据进行Web爬网


我看到了一些像http://homes.mitula.ph/homes/makati这样的搜索网站,我想知道他们是如何抓取其他网站(如priceimagedescription)中的数据并将其显示到他们的站点上的。

我正在考虑使用Solr索引数据,使用Nutch抓取数据。我是一个新的网页抓取和索引,目前为止,我只能抓取一个网页的内容。

Solr Nutch能做那种爬行吗?怎么做的?


共1个答案

匿名用户

根本就不存在“solr nutch”这回事。它们是单独的项目。

您可以在Nutch中编写HTMLParseFilters并实现提取逻辑,然后配置索引过滤器,以便将数据发送到Solr。

顺便说一句,您可能会发现StormCrawler更易于使用和扩展。它有一个ParseFilter实现,它采用XPath表达式从网页中提取信息。

当然,您可以在Nutch中的HTMLParseFilter中执行同样的操作,但这需要编写一些代码并将其放入自定义插件中。