Nutch的插件开发

<p>在Nutch的维基上[说明如何构建Nutch的插件](http://wiki.apache.org/nutch/WritingPluginExample-0%2e9),但只如果你下载了整个Nutch的源代码树,并把它放在那里,低于$ NUTCH\_HOME / src目录/插件。我不希望我的源代码在他们的颠覆树混呢,我想在我的src / COM / xcski Git仓库。而且我...

10 浏览 1 回复   插件   nutch   一个   gt   源代码  

Nutch的与Solr的

<p>目前收集,我应该使用的Nutch / Solr的/ Nutch的使用Solr(域 - 垂直网络搜索)的信息。你可以建议我吗? P&gt; </p>

28 浏览 1 回复   solr   nutch   索引   数据   搜索  

拼写检查器在Nutch的1.0

<p>谁能告诉我如何实现Nutch的1.0拼写检查? P&gt; </p>

22 浏览 1 回复   nutch   检查   拼写   插件   gt  

RSS在Nutch的饲料

<p>其实我是个新手,Nutch的。我想khnow是存在的,我们爬那么RSS提要定制解析数据,使指数能够从RSS HV不同领域的任何方式。 喜欢 假设RSS提要甲肝在一个字段源。我想索引这个领域。 P&gt; </p><p> thanxx 的VIB P&gt; </p>

13 浏览 1 回复   nutch   gt   rss   饲料   数据  

在Nutch的RSS提要

<p>其实我是个新手Nutch的。我想khnow有我们抓取的RSS提要然后自定义解析数据,使指数能够从RSS HV不同领域的任何方式。 喜欢 假设RSS提要甲肝场源项。我想指数这一领域。 P&gt; </p><p> thanxx 的VIB P&gt; </p>

17 浏览 1 回复   nutch   gt   rss   数据   插件  

在Nutch的Lucene的剖析

<p>我试图来分析Nutch的使用VisualVM的。 Lucene是负责产生网址索引和由于某些查询搜索这些索引Nutch的芯的一部分。我通过Apache Tomcat上运行Nutch的,我想,以确定Nutch的各种函数调用(包括Lucene的调用),但是当我尝试使用个人资料的VisualVM我得到了一堆关于分析Tomcat和不Nutch的或Lucene的数据花多少时间。我在做什么错在...

25 浏览 1 回复   gt   nutch   li   lucene   分析  

使用Nutch的爬虫使用Solr

<p>我能够到Apa​​che Nutch的爬虫集成Solr的索引服务器? P&gt; </p><p> <strong>编辑: STRONG&gt; P&gt; <p>我们的一个开发者想出了这些职位的解决方案 P&gt; </p><ol> <li> [运行的Nutch和Solr...

79 浏览 1 回复   gt   nutch   solr   使用   运行  

怎么做或Nutch的搜索?

<p>说,搜索结果的油田是“A”或“B”? P&gt; </p><p>似乎默认为AND。 P&gt; </p>

23 浏览 1 回复   gt   查询   query   nutch   addshouldterm  

Apache的Nutch的在Windows

<p>有没有人tryed在Windows上安装Nutch的?我下面这个安装指南:[ http://zillionics.com/resources/articles/NutchGuideForDummies.htm ](http://zillionics.com/resources/articles/NutchGuideForDummies.htm) P&gt; </p>...

57 浏览 1 回复   gt   nutch   问题   安装   uname  

如何Nutch的插件工作?

<p>我是新来Nutch的,但我知道Nutch的使用Lucene的索引,它只能识别文本格式。 P&gt; </p><p> Nutch的有很多插件,可用于抓取该插件意味着特定的格式。 我的疑问是如何实际上是Nutch的插件作品? P&gt; </p><p>我见过的小组维客页面[ Nutch的](http://wiki.apache...

28 浏览 1 回复   nutch   gt   插件   解析   格式  

使用Nutch的爬虫使用Solr

<p>我是能够到Apa​​che Nutch的爬虫与Solr的索引服务器整合? P&gt; </p><p> <strong>编辑: STRONG&gt; P&gt; <p>我们的一个开发者的想出了这些职位 P&gt;解决方案 </p><ol> <li> [运行的Nutch...

31 浏览 1 回复   gt   nutch   solr   使用   运行  

Nutch的搜索总是返回0结果

<p>我已经建立了一个集群上的Nutch 1.0。它已经建立,并已成功抓取,我使用DFS -copyToLocal并设置searcher.dir的价值在位于tomcat目录指向该目录中的nutch-site.xml文件复制抓取目录。尽管如此,当我试图寻找我收到0的结果。 P&gt; </p><p>任何帮助将不胜感激。 P&gt; </p>

28 浏览 1 回复   目录   nutch   gt   文件   抓取  

Apache的Nutch的Windows上

<p>有没有人tryed在Windows上安装Nutch的?我下面这个安装指南:[ http://zillionics.com/resources/articles/NutchGuideForDummies.htm ](http://zillionics.com/resources/articles/NutchGuideForDummies.htm) p&gt; </p>...

35 浏览 1 回复   gt   nutch   问题   安装   uname  

Nutch的+ mysql的整合

<p>在Nutch的完成它的周期(即抓取 - fetch-解析 - 指数)在指数阶段,我不想给Nutch的指数(Lucene索引),但我想的Nutch把所有的检索的资料(我相信他不断他们作为NutchDocument对象)到MySQL使用我的代码。 p&gt; </p><p>有没有办法做到这一点? P&gt; </p><p>感谢 P&gt; </p>

46 浏览 1 回复   nutch   mysql   gt   调用   指数  

Nutch的搜索总是返回0结果

<p>我已经建立了一个集群上的Nutch 1.0。它已经建立,并已成功地爬,我使用DFS -copyToLocal并设置searcher.dir的值设在tomcat目录指向该目录中的nutch-site.xml文件复制抓取目录。不过,当我试图寻找我收到0的结果。 P&gt; </p><p>任何帮助将不胜感激。 P&gt; </p>

22 浏览 1 回复   目录   nutch   gt   文件   建立  

使用Nutch的或Heritrix的导演爬行

<p>我见过的Nutch和Heritrix的爬行方式。他们都有生成/读取/其中获取步骤后,用一些种子URL开始,遍历结果网址更新周期的概念。 P&gt; </p><p>作用域/过滤逻辑适用于适用于提取的URL的正则表达式。 P&gt; </p><p>我想要做的非常具体的东西。 我不想提取网页的所有URL,但基于一些XPath...

46 浏览 1 回复   url   gt   nutch   heritrix   连结  

Nutch的 - 如何以小补丁爬?

<p>我坚持!不能老是让Nutch的小补丁来抓取我。我带参数-depth 7 -topN 10000启动它的<strong>斌/ Nutch的抓取 STRONG&gt;命令它永远不会结束。结束只有当我的硬盘是空的。我需要做什么: P&gt; <ol> <li>开始抓取我的种子 可能去进一步上 对外连结。 li&gt; <...

60 浏览 1 回复   gt   抓取   em   nutch   脚本  

性能基准测试的Apache Nutch的

<p>我想知道是否有任何现有的基准和大小信息对于Apache Nutch的基于搜索引擎的部署。我想知道说了一个月应该是什么,需要进行部署。硬件选型千万搜索 P&gt; </p>

22 浏览 1 回复   nutch   部署   知道   搜索   基准  

给Nutch的VS Heritrix的的比较

<p>我要选择上述之一的建设特定网站爬行框架。这不是一个互联网范围的抓取。我不是建立一个搜索索引,并从网站刮特定页面,而感兴趣。 P&gt; </p><p>可能有人请有关上述利弊的细节? 谢谢 Nayn P&gt; </p>

23 浏览 1 回复   gt   一个   网站   特定   nutch  

性能基准测试的Apache的Nutch

<p>我想知道是否有任何现有的基准和一个Apache Nutch的基于搜索引擎的部署大小信息。我想知道说了一个月应该是什么硬件大小,需要部署10亿次的搜索 P&gt; </p>

45 浏览 1 回复   nutch   部署   知道   搜索   大小