YouChuang||学习笔记
不断学习+不断尝试+不断思考+不断总结——》博客
(搜索引擎)Windows7下部署 Nutch-1.0
1.jdk安装和配置
安装:
下载后,jdk1.6安装到默认目录下(C:Program FilesJava)
配置:
JAVA_HOME变量配置
新建“系统变量”—》变量名—”JAVA_HOME”;变量值—“C:Program FilesJavajdk1.6.0_10”
说明:JAVA_HOME指向jdk的安装目录,Eclipse/NetBeans/Tomcat等软件就是通过搜索JAVA_HOME变量来找到并使用安装好的jdk。
方便引用,归一原则
PATH变量配置
编辑“系统变量”的变量“Path”,添加jdk的bin目录 “C:Program FilesJavajdk1.6.0_10bin”和“C:Program FilesJavajre6bin”
或者“%JAVA_HOME%bin”和“%JAVA_HOME%bin”
说明:在系统的任何地方都可以运行Java程序、执行Java、javac工具,指定命令搜索路径。建议把 JDK bin 的路径放在原有 path 的最前面,这样就会把默认的Windows系统自带的jre取代
CLASSPATH变量配置
新建“系统变量”—》变量名—“CLASSPATH”;变量值— “.;C:Program FilesJavajdk1.6.0_10libdt.jar;C:Program FilesJavajdk1.6.0_10libtools.jar;”
或者 “.;%JAVA_HOME%libdt.jar;%JAVA_HOME%libtools.jar;”
说明:第一个“.”代表当前目录下,剩下的变量为常用Java类库,要用分号隔开
CLASSPATH作用为指定类搜索路径,JVM就是通过CLASSPTH来寻找类,方便引用已有类包
2.tomcat安装和配置
tomcat5.5安装,安装到d:tomcat下完整路径为“D:tomcatTomcat5.5”
在5.5下有默认的启动工具,选择“start”即可
说明:目前部署Nutch最好是使用tomcat旧版本比如5.5等,6.x的tomcat在有些方面可能会出错。
在MyEclipse网络开发中,部署tomcat需要在”Windows“—》”Myeclipse“—》“Server”中选择“tomcat5.x”—》选择tomcat安装的根目录即可—》选择“Enable”。
另外,部署到tomcat上的工程放在webapps下
启动、关闭tomcat:
6.x版本的tomcat不再有Monitor tomcat,用户可以自己在tomcatbin目录下找到“startup.bat”和“shutdown.bat”,更改这两个文件,在第一行前面加入如下两行:
SET JAVA_HOME=JDK目录
SET CATALINA_HOME=前面解压后Tomcat的目录或者%cd%
这样就可以直接双击启动或者停止tomcat的服务
配置用户:
在tomcatconf目录下,找到tomcat-users.xml 在*加入如下语句:
3.Cygwin安装(最好本地安装—local install)
下载:
下载安装程序: http://www.cygwin.com/setup.exe
运行,选择下载方式:“下载并安装”、“下载不安装”、“从本地安装”—》选择“下载不安装”,这样免去断网就会中断的痛苦
国内选择这个地方下载就行 http://www.cygwin.cn/pub/ (推荐去网盘直接下载,这样网速比较稳定:Cygwin下载 : part1 +part2 +part3 +part4 )—我下载后分块传到115的。。。
安装:
选择“local install”—》选择安装路径—》选择本地文件路径—》
4.Nutch本地部署(爬取数据测试)
下载:
http://lucene.apache.org/nutch/
部署:
解压放到D盘根目录下,更改解压后的文件夹名nutch-1.0为nutch(方便使用),这样路径为“D:nutch”
新建URL:在nutch根目录下新建文件url_xx,比如url_taobao,不用加后缀,在文件中加入网站路径“http://www.taobao.com/”(记住不要忘掉后缀”/”)
新建淘宝数据文件夹:在nutch根目录下新建“taobao”文件夹,用于存放爬取的数据
说明:目录可以更改
存放logs:
配置文件:更改D:nutchconfcrawl-urlfilter.txt中“# accept hosts in MY.DOMAIN.NAME”下加入目标网址“http://www.taobao.com/”替换”MY.DOMAIN.NAME“
说明:
更改D:nutchconfnutch-site.xml,在之间加入以下内容:
http.agent.name
nutch-1.0
http.agent.description
my agent
http.agent.url
http://www.cn.com
http.agent.email
jiayouchuang@qq.com
说明:一些协议规定
进入到Cygwin的命令行界面,进入到D:nutch目录下,输入命令“bin/nutch crawl url_taobao -dir taobao -depth 2 -threads 4”,开始爬取
说明:命令也可以更改,根据需要
crawl:后面跟着搜索目标的网址,通知nutch.jar,执行crawl的main方法
depth:后面跟着的数字表示搜索的深度
threads:后面再跟着的数字表示并发的线程
5.Nutch部署到tomcat(网络数据获取)
部署到tomcat:
把nutch目录下nutch-1.0.war放到tomcatwebapps下,然后在浏览器中输入“http://localhost:8080/nutch-1.0”,这样webapps下的war会自动解压为nutch-1.0文件夹
更改配置:tomcat下webappsnutch-1.0WEB-INFclasses下的nutch-site.xml中中加入已搜索获取的数据文件夹目录:
searcher.dir
D:datataobao
支持中文搜索:更改tomcatconfserver.xml中端口号为8080的连接的属性为:
开始爬取数据:
在地址栏中输入:”http://localhost:8080/nutch-1.0“,就可以开始搜索数据了
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net
相关推荐: 软件测试目的是什么?软件测试公司可提供哪些测试服务类型?
随着科技的不断发展,软件行业的发展也越来越迅速。然而,随着软件的增多和复杂性的提高,开发者们需要更多的手段来确保软件质量。软件测试就是通过一系列的测试来发现软件的问题,从而提高软件的质量。 一、软件测试目的是什么? 1.提高软件质量,保障产品安全; 2.降低开…