吴守星 | 奈学教育
吴守星 | 奈学教育 - 奈学教育 | 讲师
实名认证 专业认证

性别: 注册于 2020-06-24

擅长:架构

前安顿医疗平台资深架构师、技术总监,前空中网手游支撑中心资深研发; 在游戏领域从无到有完整的落地了微服务架构体系,有效的支撑了复杂系统的架构设计与落地。在医疗领域,通过对边缘计算与大规模系统的架构设计,成功落地了智能IOT医疗应用。擅长大规模、复杂系统设计以及IOT领域应用,对新技术落地有着丰富经验。

向TA求助
7金币数
573 经验值
0个粉丝
主页被访问 356 次

最近动态

2020-08-14 19:04 回答问题

# 有些情况下,例如爬取大的站点,我们希望能暂停爬取,之后再恢复运行。 # Scrapy通过如下工具支持这个功能: 一个把调度请求保存在磁盘的调度器 一个把访问请求保存在磁盘的副本过滤器[duplicates filter] 一个能持续保持爬虫状态(键/值对)的扩展 Job 路径 要启用持久化支持,你只需要通过 JOBDIR 设置 job directory 选项。 这个路径将会存储所有的请求数据来保持一个单独任务的状态(例如:一次spider爬取(a spider run))。 必须要注意的是,这个目录不

2020-08-14 19:04 回答问题

from twisted.web.client import Agent, getPage, ResponseDone, PotentialDataLoss from twisted.internet import defer, reactor, protocol from twisted.web._newclient import Response from io import BytesIO class _ResponseReader(protocol.Protocol): def __ini

2020-08-14 19:03 回答问题

方式一:内置添加代理功能 # -*- coding: utf-8 -*- import os import scrapy from scrapy.http import Request class ChoutiSpider(scrapy.Spider): name = 'chouti' allowed_domains = ['chouti.com'] start_urls = ['https://dig.chouti.com/'] def start_requests(s

2020-08-14 19:03 回答问题

Scrapy 使用了 Twisted 异步非阻塞网络库来处理网络通讯,整体架构大致如下(绿线是数据流向): Scrapy主要包括了以下组件: 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心)调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址下载器(Downloader)用于下载网页内容, 并将网页内容返回给蜘蛛(

2020-08-14 19:00 回答问题

Selenium是一个用于Web应用程序测试的工具, 他的测试直接运行在浏览器上,模拟真实用户,按照代码做出点击、输入、打开等操作 爬虫中使用他是为了解决requests无法解决javascript动态问题

2020-08-14 19:00 回答问题

#BeautifulSoup 用于从HTML或XML文件中提取、过滤想要的数据形式 #常用方法 解析:html.parser 或者 lxml(需要下载安装) find、find_all、text、attrs、get

2020-08-14 19:00 回答问题

# 作用: 使用requests可以模拟浏览器的请求 # 常用参数: url、headers、cookies、data json、params、proxy # 常用返回值: content iter_content text encoding="utf-8" cookie.get_dict()

2020-08-14 19:00 回答问题

# 一般情况使用的是从celeryapp中引入的app作为的装饰器:@app.task # django那种在app中定义的task则需要使用@shared_task

2020-08-14 18:59 回答问题

pro_cel ├── celery_tasks # celery相关文件夹 │ ├── celery.py # celery连接和配置相关文件 │ └── tasks.py # 所有任务函数 ├── check_result.py # 检查结果 └── send_task.py # 触发任务

2020-08-14 18:59 回答问题

# celery实现定时任务 启用Celery的定时任务需要设置CELERYBEAT_SCHEDULE 。 CELERYBEAT_SCHEDULE='djcelery.schedulers.DatabaseScheduler'#定时任务 '创建定时任务' # 通过配置CELERYBEAT_SCHEDULE: #每30秒调用task.add from datetime import timedelta CELERYBEAT_SCHEDULE = { 'add-every-30-seconds': {