Python网络爬虫实战——实验8：Python爬虫项目部署与kafka消息队实战 - 服务器托管|北京服务器租用|机房托管租用|IDC托管租用|机房机柜带宽租用-价格及费用咨询

【实验内容】

本实验主要介绍关于在Linux云环境下部署和运行爬虫项目并使用kafka发送消息队列。

【实验目的】

1、学会在云环境中部署爬虫项目
2、掌握Kafka消息队列的基本使用
3、实现爬虫与消息队列的集成

【实验步骤】

步骤1 在Linux上部署爬虫项目
步骤2 Kafka消息队列的基本使用
步骤3 在python中向kafka推送消息

步骤1：在云环境中部署爬虫项目
(1) 使用pycharm部署爬虫项目
在pycharm中点击如上图所示的Configuration
-*******************************************************************************
-********************************************************************************
点击上图所示按钮进入云服务器的配置。
-***************************************************************************
输入域名、用户名、地址后点击Test Connection测试连接
-**********************************************************************************
连接成功后，点击Mappings配置路径映射，local path 表示window 上爬虫项目的路径，Deployment path 是Linux服务器上项目存放的路径。
-***************************************************************************************
右击项目根目录，选择将整个项目上传至你所连接的服务器。如下图所示
-*********************************************************************************

(2) 数据库迁移

使用navicat将本地数据库服务器托管网转存为sql文件，保存结构和数据。然后连接上我们的linux服务器，运行sql文件（如下图所示）即可完成数据表和数据内容的迁移。
-*********************************************************************

(3) python虚拟环境
(4) 项目运行
Python manage.py runserver
后台运行 nohup python manage.py runserver 2>&1 &
/================服务器托管网============================================
=========================================================================================================================/
2>&1: /============================================================
=========================================================================================================================/
–&: /===================================================================
==================/
-**********************************************************************************
项目运行成功如上图所示，当到达定时点时候，就会开始自动运行脚本程序进行数据采集。
步骤2 Kafka消息队列的基本使用
Kafka 是一个分布式流处理平台，通常被用于构建实时数据管道和流应用程序。它提供了高吞吐量、容错性和可伸缩性的特性。

创建一个主题（Topic）：在 Kafka 中，数据被组织成主题。主题是消息的分类，生产者将消息发送到主题，而消费者从主题订阅消息。
/*=============================================================================================================================================================*/
/*==============================================================================================================================================================*/
/*===============================================================================================================================================================================*/
消息的序列化和反序列化：默认情况下，Kafka 接收和发送的消息是字节数组。在实际应用中，你需要使用序列化器将消息转换为特定的格式。常见的选择包括 JSON、Avro 等。在生产者和消费者配置中，你可以指定相应的序列化和反序列化器。
Kafka 集群：在生产环境中，通常会运行多个 Kafka 服务器组成集群，以提高容错性和可伸缩性。确保生产者和消费者配置中指定了所有 Kafka 服务器的地址。

-***************************************************************************

步骤3 在python中向kafka推送消息
(1) 安装包
pip install confluent_kafka

(2) 发送消息
-****************************************************************************
-**********************************************************************
根据环境变量 ‘django_env’ 的值选择 Kafka 服务器地址，如果 ‘django_env’ 的值为’production’，则使用 192.168.0.151:9092否则，使用 192.168.0.228:9092
/============================================================
=========================================================================================================================/
-***************************************************************************
在数据采集时候，通过调用send_kafka_message方法，向yunnan_zhong这个主题推送消息

-*********************************************************************************
在服务器上可以接收到上图所示的消息示例。

服务器托管，北京服务器托管，服务器租用 http://www.fwqtg.net

相关推荐: 医院如何选择高效的内外网数据交换方案替代U盘进行跨网传输？

医院信息网络是所有网络中安全性要求较高的网络之一，因此很多医院基于信息安全相关要求，会使用防火墙将网络服务器托管网隔离成内网和外网。内网用于日常医疗信息交换，外网可以及时获取Internet信息资源。但是网络隔离后，医院仍存在将报告资料等文件从内网交换到外网的…

【实验内容】

【实验目的】

【实验步骤】

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用