Python爬虫利用多线程爬取 LOL 高清壁纸

2023-05-28 原文

前言：

随着移动端的普及出现了很多的移动 APP，应用软件也随之流行起来。

最近又捡起来了英雄联盟手游，感觉还行，PC 端英雄联盟可谓是爆火的游戏，不知道移动端的英雄联盟前途如何，那今天我们使用到多线程的方式爬取 LOL 官网英雄高清壁纸。

页面分析

目标网站：英雄联盟

官网界面如图所示，显而易见，一个小图表示一个英雄，我们的目的是爬取每一个英雄的所有皮肤图片，全部下载下来并保存到本地。

次级页面

上面的页面我们称为主页面，次级页面也就是每一个英雄对应的页面，就以黑暗之女为例，它的次级页面如下所示：

我们可以看到有很多的小图，每一张小图对应一个皮肤，通过 network 查看皮肤数据接口，如下图所示：

我们知道了皮肤信息是一个 json 格式的字符串进行传输的，那么我们只要找到每个英雄对应的 id，找到对应的 json 文件，提取需要的数据就能得到高清皮肤壁纸。

然后这里黑暗之女的 json 的文件地址是：

hero_one = 'https://game.gtimg.cn/images/lol/act/img/js/hero/1.js'

这里其实规律也非常简单，每个英雄的皮肤数据的地址是这样的：

url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js'.format(id)

那么问题来了 id 的规律是怎么样的呢？这里英雄的 id 需要在首页查看，如下所示：

我们可以看到两个列表[0,99]，[100,156]，即 156 个英雄，但是 heroId 却一直到了 240….，由此可见，它是有一定的变化规律的，并不是依次加一，所以要爬取全部英雄皮肤图片，需要先拿到全部的heroId。

抓取思路

为什么使用多线程，这里解释一下，我们在爬取图片，视频这种数据的时候，因为需要保存到本地，所以会使用大量的文件的读取和写入操作，也就是 IO 操作，试想一下如果我们进行同步请求操作；

那么在第一次请求完成一直到文件保存到本地，才会进行第二次请求，那么这样效率非常低下，如果使用多线程进行异步操作，效率会大大提升。

所以必然要使用多线程或者是多进程，然后把这么多的数据队列丢给线程池或者进程池去处理；

在 Python 中，multiprocessing Pool 进程池，multiprocessing.dummy 非常好用。

multiprocessing.dummy模块：dummy模块是多线程；
multiprocessing模块：multiprocessing是多进程；

multiprocessing.dummy模块与multiprocessing模块两者的 api 都是通用的，代码的切换使用上比较灵活；

我们首先在一个测试的 demo.py 文件抓取英雄 id，这里的代码我已经写好了，得到一个储存英雄 id 的列表，直接在主文件里使用即可；

demo.py

url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js'
res = requests.get(url,headers=headers)
res = res.content.decode('utf-8')
res_dict = json.loads(res)
heros = res_dict["hero"] # 156个hero信息
idList = []
for hero in heros:
    hero_id = hero["heroId"]
    idList.append(hero_id)
print(idList)

得到 idList 如下所示：

idlist = [1,2,3,….,875,876,877] # 中间的英雄 id 这里不做展示

构建的 url：

page = 'http://www.bizhi88.com/s/470/{}.html'.format(i)

这里的 i 表示 id，进行 url 的动态构建；

那么我们定制两个函数一个用于爬取并且解析页面（spider），一个用于下载数据 (download)，开启线程池，使用 for 循环构建存储英雄皮肤 json 数据的 url，储存在列表中，作为 url 队列，使用 pool.map() 方法执行 spider (爬虫)函数；

def map(self, fn, *iterables, timeout=None, chunksize=1):
    """Returns an iterator equivalent to map(fn, iter)”“”
# 这里我们的使用是：pool.map(spider,page) # spider:爬虫函数；page:url队列

作用：将列表中的每个元素提取出来当作函数的参数，创建一个个进程，放进进程池中；

参数1：要执行的函数；

参数2：迭代器，将迭代器中的数字作为参数依次传入函数中；

json数据解析

这里我们就以黑暗之女的皮肤的 json 文件做展示进行解析，我们需要获取的内容有：

1.name
2.skin_name
3.mainImg

因为我们发现 heroName 是一样的，所以把英雄名作为该英雄的皮肤文件夹名，这样便于查看保存；

item = {}
item['name'] = hero["heroName"]
item['skin_name'] = hero["name"]
if hero["mainImg"] == '':
   continue
item['imgLink'] = hero["mainImg"]

有一个注意点:

有的 mainImg 标签是空的，所以我们需要跳过，否则如果是空的链接，请求时会报错；

数据采集

导入相关第三方库

import requests # 请求
from multiprocessing.dummy import Pool as ThreadPool # 并发
import time # 效率
import os # 文件操作
import json # 解析

页面数据解析

def spider(url):
    res = requests.get(url, headers=headers)
    result = res.content.decode('utf-8')
    res_dict = json.loads(result)
    skins = res_dict["skins"]  # 15个hero信息
    print(len(skins))
    for index,hero in enumerate(skins): # 这里使用到enumerate获取下标,以便文件图片命名;
        item = {} # 字典对象
        item['name'] = hero["heroName"]
        item['skin_name'] = hero["name"]

        if hero["mainImg"] == '':
            continue
        item['imgLink'] = hero["mainImg"]
        print(item)
        download(index 1,item)

download 下载图片

def download(index,contdict):
    name = contdict['name']
    path = "皮肤/"   name
    if not os.path.exists(path):
        os.makedirs(path)
    content = requests.get(contdict['imgLink'], headers=headers).content
    with open('./皮肤/'   name   '/'   contdict['skin_name']   str(index)   '.jpg', 'wb') as f:
        f.write(content)

这里我们使用 OS 模块创建文件夹，前面我们有说到，每个英雄的 heroName 的值是一样的，借此创建文件夹并命名，方便皮肤的保存（归类），然后就是这里图片文件的路径需要仔细，少一个斜杠就会报错。

main() 主函数

def main():
    pool = ThreadPool(6)
    page = []
    for i in range(1,21):
        newpage = 'https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js'.format(i)
        print(newpage)
        page.append(newpage)
    result = pool.map(spider, page)
    pool.close()
    pool.join()
    end = time.time()

说明：

在主函数里我们首选创建了六个线程池；
通过 for 循环动态构建 20 条 url,我们小试牛刀一下，20 个英雄皮肤，如果爬取全部可以对之前的 idList 遍历，再动态构建 url；
使用 map() 函数对线程池中的 url 进行数据解析存储操作；
当线程池 close 的时候并未关闭线程池，只是会把状态改为不可再插入元素的状态；

程序运行

if __name__ == '__main__':
    main()

结果如下：

当然了这里只是截取了部分图像，总共爬取了 200 张图片，总体来说还是可以。

总结

本次我们使用了多线程爬取了英雄联盟官网英雄皮肤高清壁纸，因为图片涉及到 IO 操作，我们使用并发方式进行，大大提高了程序的执行效率。

到此这篇关于Python爬虫利用多线程爬取 LOL 高清壁纸的文章就介绍到这了,更多相关Python 爬取壁纸内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

Python爬虫利用多线程爬取 LOL 高清壁纸的更多相关文章

XCode 3.2 Ruby和Python模板

在xcode3.2下,我的ObjectiveCPython/Ruby项目仍然可以打开更新和编译,但是你无法创建新项目.鉴于xcode3.2中缺少ruby和python的所有痕迹(即创建项目并添加新的ruby/python文件),是否有一种简单的方法可以再次安装模板？我发现了一些关于将它们复制到某个文件夹的信息,但我似乎无法让它工作,我怀疑文件夹的位置已经改变为3.2.解决方法3.2中的应用程序模板
Swift基本使用-函数和闭包(三)

声明函数和其他脚本语言有相似的地方，比较明显的地方是声明函数的关键字swift也出现了Python中的组元，可以通过一个组元返回多个值。传递可变参数，函数以数组的形式获取参数swift中函数可以嵌套，被嵌套的函数可以访问外部函数的变量。可以通过函数的潜逃来重构过长或者太复杂的函数。
10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
Swift、Go、Julia与R能否挑战 Python 的王者地位

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
红薯因 Swift 重写开源中国失败，貌似欲改用 Python

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
你没看错：Swift可以直接调用Python函数库

上周Perfect又推出了新一轮服务器端Swift增强函数库：Perfect-Python。对，你没看错，在服务器端Swift其实可以轻松从其他语种的函数库中直接拿来调用，不需要修改任何内容。以如下python脚本为例：Perfect-Python可以用下列方法封装并调用以上函数，您所需要注意的仅仅是其函数名称以及参数。
Swift中的列表解析

在Swift中完成这个的最简单的方法是什么？我在寻找类似的东西：从Swift2.x开始，有一些与你的Python样式列表解析相当的东西。(在这个意义上，它更像是Python的xrange。如果你想保持集合懒惰一路通过，只是这样说：与Python中的列表解析语法不同，Swift中的这些操作遵循与其他操作相同的语法。
swift抛出终端的python错误

每当我尝试启动与python相关的swift时,我都会收到错误.我该如何解决？
在Android上用Java嵌入Python

解决方法看看this,它适用于J2SE,你可以尝试在Android上运行.
在android studio中使用python代码构建android应用程序

我有一些python代码和它的机器人,我正在寻找一种方法来使用android项目中的那些python代码.有没有办法做到这一点！？解决方法有两种主要工具可供使用,它们彼此不同：>QPython>Kivy使用Kivy,大致相同的代码也可以部署到IOS.

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教