爬虫学习笔记01-概念
网络爬虫:通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。
反爬机制:门户网站可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。
反反爬策略:爬虫程序也可以通过制定相关的策略或者技术手段,破解门户网站具备的反爬机制,从而获取门户网站的数据。
robots协议:君子协议。规定网站内容中哪些可以爬取,哪些不可以被爬取。
常用请求头信息
-user-agent:请求载体的身份标识
-connection:请求完毕后,是断开连接还是保持连接
爬虫的合法性
- 爬虫本身不被禁止
- 获取数据具有违法风险
- 善意爬虫和恶意爬虫
爬虫的风险
- 爬虫干扰了被访问网站的正常运营
- 爬虫抓取了收到法律保护的特定类型的数据或信息
如何避免风险
- 时常优化自己的程序,避免干扰被访问网站的正常运行
- 在使用/传播爬取到的数据时,审查抓取到的内容,发现涉及到用户隐私和商业机密等敏感内容,需要及时停止爬取/传播。
爬虫的分类
-
通用爬虫:搜索引擎抓取系统的重要组成部分。抓取的是一整张页面数据
-
聚焦爬虫:是建立在通用爬虫的基础之上。抓取去的是页面中特定的局部内容。
-
增量爬虫:检测网站中数据更新的情况。只会抓取网站中最新更新出来的内容。
加密方式
-
对称密钥加密:客户端加密->传输密钥和加密信息->服务端解密
-
非对称密钥加密:创建密钥对->将公钥发送给客户端->使用服务端发送的密钥对消息进行加密->将加密信息发送给服务端->使用私钥对信息进行解密
-
证书密钥加密:公开密钥->证书认证机构->给公钥签名->证书
UA:User-Agent(请求载体的身份标识)
-
UA检测
- 门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体为某一款浏览器,说明该请求是一个正常请求。
- 但是,如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求是基于爬虫的,服务器端很有可能拒绝该请求。
-
UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器。
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
实现效果 打开某个文件,后缀是自己想要的类型,在弹出的窗口(用其它应用打开)的列表中显示自己的应用图标 点击后可以获得文件信息以便于后续的操作 实现步骤 以注册.bin后缀为例,新建一个MAUI项目 调整启动模式 修改PlatformsAndroidMainA…