博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫神器xpath的用法(三)
阅读量:5134 次
发布时间:2019-06-13

本文共 682 字,大约阅读时间需要 2 分钟。

xpath的多线程爬虫

#encoding=utf-8'''pool = Pool(4) cpu的核数为4核results = pool.map(爬取函数,网址列表)'''from multiprocessing.dummy import Pool as ThreadPoolimport requestsimport timedef getsource(url):    html = requests.get(url)urls = []for i in range(1,21):    newpage = 'http://tieba.baidu.com/p/3522395718?pn=' + str(i)    urls.append(newpage)time1 = time.time()for i in urls:    print i    getsource(i)time2 = time.time()print u'单线程耗时:' + str(time2-time1)pool = ThreadPool(4)time3 = time.time()results = pool.map(getsource, urls)pool.close()pool.join()time4 = time.time()print u'并行耗时:' + str(time4-time3)

输出:

单线程耗时:12.0818030834

并行耗时:3.58480286598

转载于:https://www.cnblogs.com/gide/p/5246809.html

你可能感兴趣的文章
【转】现代浏览器的工作原理
查看>>
golang (3) 编译不同的平台文件
查看>>
Mybatis中的collection和association一关系
查看>>
动态绑定的开销
查看>>
EBS 常用 SQL
查看>>
04_过滤器Filter_04_Filter生命周期
查看>>
集合方法整理
查看>>
linux文件系统命令
查看>>
【Django】--Models 和ORM以及admin配置
查看>>
Exception Type: IntegrityError 数据完整性错误
查看>>
《浪潮之巅》十八十九章笔记
查看>>
Power Strings
查看>>
[转载]Hash
查看>>
Nuget:Newtonsoft.Json
查看>>
你是这样理解shell编程的嘛?
查看>>
前端性能优化之重排和重绘
查看>>
Assets和Raw区别
查看>>
【luogu4185】 [USACO18JAN]MooTube [并查集]
查看>>
手机号脱敏处理
查看>>
CI控制器调用内部方法并载入相应模板的做法
查看>>