1. 填写采集规则的基本信息
首先点击采集管理中的添加按钮来新建规则:
然后进入到信息页面填写,包括:
规则名称:一般以要采集的源站名命名。
网站编码:默认自动检测即可。
类型:根据网站类型来选择,一般选小说
网址服务器托管网补全:默认选是即可
倒叙采集:一般否即可
图片本地化:一般选否,如果原网站做了反爬虫机制,就要选是;另外根据自己服务器硬盘大小选择,不要因为图片占用太多内存。
重复数据处理:一般选择不处理,这样碰到重复小说时,你采集就会告诉你已存在,不会重复采集。但这个要看是否多次采集,如果一个站点之前有使用其它采集规则有了数据,那么再使用新的采集规则很有可能会采集到与之前重复的数据,所以这时候需要判断是否把重复的数据替换成当前采集规则采集的数据。
重复数据处理:若选择不处理,采集同本小说时则告知已存在
重复数据处理:若选择处理,采集同本小说时则告知替换成功
2. 填写列表网址
首先用浏览器访问要采集的网页,然后网页对应的网址就是采集网址,page后面对应的参数用通配符【内容】替换,总页数只需要点击网页中的last按钮就知道多少页。图片中的网址总页数是19.
根据上述网址信息来编辑列表网址信息:
3. 填写列表网址(小说列表网址)
接下来我们要获取所有小说名称及其对应的网址连接,首先我们把鼠标放到某个小说上,然后点击鼠标右键,点击检查:
这样就得到了网页源代码,然后我们把鼠标放到箭头位置,就可以看到左边蓝色部分框住的就是对应小说的网页位置。
但我们想要找到框住所有小说的源代码,很简单,用鼠标继续放到更大的div范围。可以看到,图片中的箭头位置就是框住所有小说服务器托管网的div。显然它是唯一的,所以需要填写的获取区间为:
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
数据结构(1) 数据结构在学什么? 数据结构的基本概念 基本概念 三要素 逻辑结构 集合 线性结构 树形结构 图结构 物理结构(存储结构) 顺序存储 链式存储 索引存储 散列存储 重点 数据的运算 算法的基本概念 什么是算法 算法的五个特性 有穷性 确定性 可…