学习极客学院多线程爬虫课程的收获-白红宇

学习极客学院多线程爬虫课程的收获

阅读量：7173 次

发布时间：2019-06-29

本文共 4133 字，大约阅读时间需要 13 分钟。

昨天开始了极客学院课程的学习，主要涉及到XPath和requests的使用，在测试过程中出现了很多问题，经过不断摸索以及前辈们的帮助，现将经验总结如下：

1. Python3下面文本编码问题

虽然Python3相对于2已经集成了很多编码方式，使我们不需要过多去关心和指定编码，但有时候在文本读取，写入的时候还是需要多小心，在测试过程中多次出现在写入文件时报告错误“UnicodeEncodeError: 'ascii' codec can't encode character '\u56de' in position 0: ordinal not in range(128)”，这是由于我们在抓取网页的时候采用的是UTF-8编码，而存储时没有指定编码，在存储到文件的过程中就会报错。

解决办法为：

在读取文件时加入指定UTF-8编码的选项

f = open('content.txt','a',encoding='UTF-8')

另外需要注意的是使用requests获取到网页之后同样要指定编码

html = requests.get(url)html = re.sub(r'charset=(/w*)', 'charset=UTF-8', html.text)

2. XPath的用法

XPath可以很方便的解析XML文件的节点和属性，使用也很简单，相比于正则表达式来说，XPath的查询方式更加高效准确，它来自于lxml包内的etree，在使用之前应该声明

from lxml import etree

在使用XPath应该遵循“先抓大，再抓小”的原则，现定位到大的节点，获取到所有字节点再一层一层往下寻找，直到获取所需要的信息

例如，我们想要抓取百度贴吧的网页每一个楼层的信息（包括作者，回帖时间，回帖内容等等），通过Chrome-Inspect element可以审查代码，得到某一个楼层的代码楼层最外层都有声明：

使用XPath先获取整个楼层的所有节点（Node）

content_field = selector.xpath('//div[@class="l_post j_l_post l_post_bright  "]')

再往下寻找，发现我们要提取的内容位于

这一个节点以内，再继续往下挖掘：

content =each.xpath('div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content  clearfix"]/text()')

这样一步步得到想要的内容

3.JSON格式

网页中很多内容使用JSON来传输，我们要把内容还原出来需要使用json模块

import jsonreply_info = json.loads(each.xpath('@data-field')[0].replace('"',''))

4.Python中的多线程

多线程可以很大幅度提高软件的处理速度，可以充分利用计算机性能，不同的核处理不同的任务，并行执行，提高处理速度，使用方法如下：

from multiprocessing.dummy import Pool as ThreadPoolpool = ThreadPool(8)results = pool.map(spider,page)pool.close()pool.join()

map 这一小巧精致的函数是简捷实现 Python 程序并行化的关键。map 源于 Lisp 这类函数式编程语言。它可以通过一个序列实现两个函数之间的映射。上面的这两行代码将 page这一序列中的每个元素作为参数传递到 spyder 方法中，并将所有结果保存到 results 这一列表中。其结果大致相当于：

results = []for page in pages:     results.append(spyder(page))

上述代码中调用join之前，先调用close函数，否则会出错。执行完close后不会有新的进程加入到pool,join函数等待所有子进程结束。

全部代码：

#-*-coding:utf8-*-from lxml import etreefrom multiprocessing.dummy import Pool as ThreadPoolimport requestsimport jsonimport reimport sys'''重新运行之前请删除content.txt，因为文件操作使用追加方式，会导致内容太多。'''def towrite(contentdict):    #f=open("content.txt",'wb')    f.writelines(u'回帖时间:' + str(contentdict['topic_reply_time']) + '\n')    f.writelines(u'回帖内容:' + str(contentdict['topic_reply_content']) + '\n')    f.writelines(u'回帖人:' + contentdict['user_name'] + '\n\n')    #f.close()def spider(url):    html = requests.get(url)    #print(html.text)    html = re.sub(r'charset=(/w*)', 'charset=UTF-8', html.text)    selector = etree.HTML(html)    # print(selector)    #content_field = selector.xpath('//div[starts-with(@class,"l_post l_post_bright")]')p_content p_content_nameplate    #content_field = selector.xpath('//*[@id="j_p_postlist"]')    content_field = selector.xpath('//div[@class="l_post j_l_post l_post_bright  "]')    item = {}    for each in content_field:        reply_info = json.loads(each.xpath('@data-field')[0].replace('"',''))        author = reply_info['author']['user_name']        # content1 = each.xpath('//div[@class="d_post_content_main"]')        content = each.xpath('div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content  clearfix"]/text()')        reply_time = reply_info['content']['date']        print("content:{0}".format(content))        print("Reply_time:{0}".format(reply_time))        print("Author:{0}".format(author))        item['user_name'] = author        item['topic_reply_content'] = content        item['topic_reply_time'] = reply_time        towrite(item)if __name__ == '__main__':    pool = ThreadPool(8)    f = open('content.txt','a',encoding='UTF-8')    # f = open('content.txt','a')    page = []    for i in range(1,21):        newpage = 'http://tieba.baidu.com/p/3522395718?pn=' + str(i)        page.append(newpage)    results = pool.map(spider,page)    pool.close()    pool.join()    f.close()

结果如下：

回帖时间:2015-01-11 16:52回帖内容:['            6和plus纠结买哪款。还有 买完新机可以让他上色吗']回帖人:斗已转0回帖时间:2015-01-11 16:53回帖内容:['            我现在是以贴吧高级会员的身份帮你顶贴，请注意你的态度']回帖人:暑假干啥回帖时间:2015-01-11 16:57回帖内容:['            我去']回帖人:qw518287200回帖时间:2015-01-11 16:57回帖内容:['            能教我怎么看序列号或imei号麽，大神\uf618']回帖人:花颜诱朕醉

需要注意的是，极客学院附带资料的源代码是无法使用的，以上说到的几点就是我在调试过程中淌过的坑，要注意使用Chrome对要抓取的网页进行细心分析，修改xpath参数并不断试验。

+++++++明日计划++++++++++++++++

加入计时功能，测试单线程与多线程的性能差别

尝试抓取网页中的图片并保存

转载地址：http://sudzm.baihongyu.com/

你可能感兴趣的文章