Apache Nutch(Java搜索引擎框架)是一個開源的、基於Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
1、Nutch致力於讓每個人能很容易,同時花費很少就可以配置世界一流的Web搜索引擎
2、每個月取幾十億網頁
3、為這些網頁維護一個索引
4、對索引文件進行每秒上千次的搜索
5、提供高質量的搜索結果
1、支持將起始URL集合注入到Nutch係統之中
2、支持生成片段文件,其中包含了將要抓取的URL地址
3、根據URL地址在互聯網上抓取相應的內容
4、解析所抓取到的網頁,並分析其中的文本和數據
5、根據新抓取的網頁中的URL集合來更新起始URL集合,並再次進行抓取
6、同時,對抓取到的網頁內容建立索引,生成索引文件存放在係統之中
1、首先先運行軟件,選擇File -> Import Project ->選擇apache-nutch-1.9文件夾,確定後選擇Import project from external model(Eclipse)
2、一直點擊next到結束,成功將項目導入project中去
3、源碼導入工程後,並不能執行完整的爬取。Nutch將爬取的流程切分成很多階段,每個階段分別封裝在一個類的main函數中。在外麵通過Linux Shell調用這些main函數,來完整爬取的流程。下麵我們來運行Nutch中最簡單的流程:Inject。我們知道爬蟲在初始階段,是需要人工給出一個或多個url,作為起始點(廣度遍曆樹的樹根)。Inject的作用,就是把用戶寫在文件裏的種子(一行一個url,是TextInputFormat),插入到爬蟲的URL管理文件(crawldb,是SequenceFile)中。
4、接下來我們按照Nutch默認的配置,需要修改Nutch的配置文件,為插件文件夾指定一個絕對路徑,修改conf/nutch-default.xml文件內容,並且保存到工程中
5、接下來我們就可以開始對指定的網站的信息進行完整的爬取了
Apache Nutch v1.9更新:
1、增加了可爬取的數據類型
2、增加對Web爬蟲的管理功能
3、解決了一些格式上的已知問題
4、修複了一些bug,優化了軟件界麵
5、優化了軟件性能
76.4M / 03-25
55M / 06-05
237.9M / 04-13
140.5M / 03-06
900.9M / 03-02
96.2M / 07-06
311.2M / 07-06
335M / 07-06
200M / 07-06
413.8M / 07-06
353.9M / 06-05
131.8M / 04-13
230.8M / 03-03
195.6M / 03-03
165.4M / 03-03
45.6M / 09-08
665.2M / 07-06
2.84G / 07-06
93M / 07-06
338.3M / 07-06
1.38G / 07-26
488.3M / 07-16
109.8M / 06-03
142M / 01-08
1.2M / 11-23
548.8M / 04-13
1.6M / 04-13
1.48G / 03-18
646.6M / 03-03
133.7M / 03-03
325.8M / 06-07
60M / 04-29
254M / 04-25
659M / 04-23
1M / 12-26
253.4M / 12-08
253M / 12-08
1.19G / 11-16
110.5M / 04-23
26.7M / 03-16
488.3M / 07-16
248.9M / 12-08
248.9M / 12-08
201.2M / 04-13
100.6M / 03-06
148.9M / 03-06
1.12G / 07-06
1.25G / 07-06
9.48G / 07-06
50KB / 07-06
116.2M / 04-10
1.92G / 04-17
201.5M / 04-13
7.31G / 07-01
94.3M / 07-06
2.48G / 07-06
7.63G / 07-06
1M / 07-06
778.1M / 07-06
509.7M / 07-06
561.8M / 07-11
1.32G / 01-19
72M / 07-06
548.7M / 07-06
1.00G / 07-06
9.13G / 07-06
126.2M / 07-06
72M / 07-06
105.1M / 07-06
132M / 07-06