我看到了一些像http://homes.mitula.ph/homes/makati这样的搜索网站,我想知道他们是如何抓取其他网站(如price
、image
和description
)中的数据并将其显示到他们的站点上的。
我正在考虑使用Solr索引数据,使用Nutch抓取数据。我是一个新的网页抓取和索引,目前为止,我只能抓取一个网页的内容。
Solr Nutch能做那种爬行吗?怎么做的?
根本就不存在“solr nutch”这回事。它们是单独的项目。
您可以在Nutch中编写HTMLParseFilters并实现提取逻辑,然后配置索引过滤器,以便将数据发送到Solr。
顺便说一句,您可能会发现StormCrawler更易于使用和扩展。它有一个ParseFilter实现,它采用XPath表达式从网页中提取信息。
当然,您可以在Nutch中的HTMLParseFilter中执行同样的操作,但这需要编写一些代码并将其放入自定义插件中。