随着短视频的大火,不仅可以给人们带来娱乐,还有热点新闻时事以及各种知识,刷短视频也逐渐成为了日常生活的一部分。本文以一个简单的小例子,简述如何通过Pyhton依托Selenium来爬取短视频,仅供学习分享使用,如有不足之处,还请指正。

涉及知识点

1.selenium,作为浏览器端一个自动化测试工具,可以模拟用户操作浏览器的动作,就像是人自己操作浏览器一样。关于selenium的具体信息如下

  • Selenium进行元素定位,主要有ID,Name,ClassName,Css Selector,Partial LinkText,LinkText,XPath,TagName等8种方式。
  • Selenium获取单一元素(如:find_element)和获取元素数组(如:find_elements)两种方式。
  • Selenium元素定位后,可以给元素进行赋值和取值,或者进行相应的事件操作(如:click)。

2.requests,web请求对象,通过selenium获取到视频的url后,再通过requests库进行视频流的获取,然后保存成本地视频文件。

3.浏览器开发者工具,通过开发者工具可以查看页面上某一个按钮或链接等页面元素对应的html标识。

目标分析

在爬取视频之前,需要分析目标结构,本视频爬取分析可分为三步,具体如下所示:

1. 分析热榜目录

热榜目录是一个ul标签,每一个热榜对象一个li子标签,分别包含热度,标题等内容。点击标题链接可以进入具体视频播放页面,目标分析如下所示:

2.分析视频播放页面

视频在video标签中播放,短视频播放的真实地址,在video的source子标签中,且为了保证播放质量,video下有三个source,任取其一即可,如下所示:

3. 分析弹出框

在爬取过程中,经过弹出需要登录的窗口,需要及时关闭掉,否则可能会导致找不到页面元素,从而爬取不成功。如下所示:

核心代码

经过以上分析,就可以编写爬虫代码了,如下所示:

1. 遍历热点目录

通过获取页面上对应的信息,解析出热点视频的目录,如下所示:

self.__driver.get(self.__url)
self.close_popup_window()
# 4. 最大化窗口
self.__driver.maximize_window()
time.sleep(self.__wait_sec)
# 打开以后,根据class=BHgRhxNh获取ul下的li
if self.checkIsExistsByClass(cls='BHgRhxNh'):
    # 获取
    hots = self.__driver.find_elements(by=By.CLASS_NAME, value='BHgRhxNh')
    hot_infos = []
    index = 0
    for hot in hots:
        hot_info = {}
        a = hot.find_element(by=By.TAG_NAME, value='a')
        href = a.get_attribute("href")
        text = a.text
        hot_info['url'] = href
        hot_info['text'] = text
        if index > 0:
            div = hot.find_element(by=By.CLASS_NAME, value='GsuT_hjh')
            if div is not None:
                hot_value = div.find_element(by=By.TAG_NAME, value='span').text
                hot_info['value'] = hot_value
        hot_infos.append(hot_info)
        index = index   1
    print(hot_infos)

2. 获取真实短视频url

打开单个热点视频的url,并解析真实短视频播放url,如下所示:

def open_video_html(self, url):
    """打开具体视频的页面"""
    self.__driver.get(url=url)
    time.sleep(1)
    self.close_popup_window()  # 关闭弹窗
    video = self.__driver.find_element(by=By.TAG_NAME, value='video')
    source = video.find_element(by=By.TAG_NAME, value='source')
    src = source.get_attribute('src')
    return src

3. 下载视频

获取真实的url后,即可进行下载,如下所示:

def download_video(self, url, video_name):
    """根据视频源地址进行下载"""
    if os.path.exists(video_name):
        # 如果已重新下载过,则不需要再次下载
        return
    else:
        with open(video_name, 'wb') as fp:
            fp.write(requests.get(url).content)

4. 关闭弹出的登录窗口

在爬取过程中,经常弹出需要登录的遮罩窗口,需要进行关闭,如下所示:

def close_popup_window(self):
    try:
        login = self.__driver.find_element(by=By.ID, value='login-pannel')
        if login is not None:
            login.find_element(by=By.CLASS_NAME, value='dy-account-close').click()
    except BaseException as e:
        pass
    try:
        login = self.__driver.find_element(by=By.CLASS_NAME, value='GaDkStRD')
        if login is not None:
            btns = login.find_elements(by=By.TAG_NAME, value='button')
            for btn in btns:
                if btn.text == '取消':
                    btn.click()
                    break
    except BaseException as e:
        pass

5. 保存日志

在爬取成功后,对爬取的短视频的相关内容进行保存,如下所示:

def save_data(self, hot_infos):
    """
    保存数据
    :param res_list: 保存的内容文件
    :return:
    """
    t = time.strftime("%Y-%m-%d", time.localtime())
    with open(f'logs[{t}].json', 'a', encoding='utf-8') as f:
        res_list_json = json.dumps(hot_infos, ensure_ascii=False)
        f.write(res_list_json)

示例截图

程序开发完成后,运行示例如下所示:

爬取的视频保存在download目录下,如下所示:

总结

 为什么会采用selenium进行本次短视频的爬取,而不直接采用requests库,原因如下:

  • 在对目标网站进行分析的过程中,发现目标网站采用异步调用的方式数据获取,即网址请求获取的只是空壳,并没有真实的数据。
  • 在对异步接口调用的url进行分析时发现,很多接口的url都具有时效性及有效性验证,如token,时间戳等,构造起来相当麻烦。

由于以上两点原因,结合selenium的特点及优势,所以最终采用selenium进行此次爬虫的最佳选择。

以上就是Python Selenium实现短视频热点爬取的详细内容,更多关于Python Selenium热点爬取的资料请关注Devmax其它相关文章!

Python+Selenium实现短视频热点爬取的更多相关文章

  1. 适用于iOS和Android设备的自动验收测试

    我正在开展一个网络项目,很明显,进行一些Selenium类型的自动验收测试会非常有帮助.但该项目是移动/手持设备的网站,而非Selenium支持的桌面浏览器.谷歌搜索一下,发现iOS为Frank,Android为Robotium.这些是使用的两种工具吗?或者有什么好的或更好的东西可能允许我使用Android和iOS的一个工具?不确定这对于移动设备上的Web测试有何用处.

  2. XCode 3.2 Ruby和Python模板

    在xcode3.2下,我的ObjectiveCPython/Ruby项目仍然可以打开更新和编译,但是你无法创建新项目.鉴于xcode3.2中缺少ruby和python的所有痕迹(即创建项目并添加新的ruby/python文件),是否有一种简单的方法可以再次安装模板?我发现了一些关于将它们复制到某个文件夹的信息,但我似乎无法让它工作,我怀疑文件夹的位置已经改变为3.2.解决方法3.2中的应用程序模板

  3. 研究下淘宝的swift热点缓存迁移的事

    为了避免被喷激,提前先说下,这篇文章可能更多的是我自己的理解,勿当真.这两天重温了下淘宝叔度的文章,关于淘宝swift热点迁移的事…这时候,可以适当的用小盘的ssd,来充当二层热度的cache缓存层。最热的数据放在内容中,其次的数据是放在ssd闪存里面,最差的缓存cache是放在sata里面。mem,ssd,sata的本身性能,我向大家也都知道,memory>ssd>sata,价格方面是倒过来的…

  4. Swift基本使用-函数和闭包(三)

    声明函数和其他脚本语言有相似的地方,比较明显的地方是声明函数的关键字swift也出现了Python中的组元,可以通过一个组元返回多个值。传递可变参数,函数以数组的形式获取参数swift中函数可以嵌套,被嵌套的函数可以访问外部函数的变量。可以通过函数的潜逃来重构过长或者太复杂的函数。

  5. 10 个Python中Pip的使用技巧分享

    众所周知,pip 可以安装、更新、卸载 Python 的第三方库,非常方便。本文小编为大家总结了Python中Pip的使用技巧,需要的可以参考一下

  6. Swift、Go、Julia与R能否挑战 Python 的王者地位

    本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请发送邮件至dio@foxmail.com举报,一经查实,本站将立刻删除。

  7. 红薯因 Swift 重写开源中国失败,貌似欲改用 Python

    本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请发送邮件至dio@foxmail.com举报,一经查实,本站将立刻删除。

  8. 你没看错:Swift可以直接调用Python函数库

    上周Perfect又推出了新一轮服务器端Swift增强函数库:Perfect-Python。对,你没看错,在服务器端Swift其实可以轻松从其他语种的函数库中直接拿来调用,不需要修改任何内容。以如下python脚本为例:Perfect-Python可以用下列方法封装并调用以上函数,您所需要注意的仅仅是其函数名称以及参数。

  9. Swift中的列表解析

    在Swift中完成这个的最简单的方法是什么?我在寻找类似的东西:从Swift2.x开始,有一些与你的Python样式列表解析相当的东西。(在这个意义上,它更像是Python的xrange。如果你想保持集合懒惰一路通过,只是这样说:与Python中的列表解析语法不同,Swift中的这些操作遵循与其他操作相同的语法。

  10. swift抛出终端的python错误

    每当我尝试启动与python相关的swift时,我都会收到错误.我该如何解决?

随机推荐

  1. 10 个Python中Pip的使用技巧分享

    众所周知,pip 可以安装、更新、卸载 Python 的第三方库,非常方便。本文小编为大家总结了Python中Pip的使用技巧,需要的可以参考一下

  2. python数学建模之三大模型与十大常用算法详情

    这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情,文章围绕主题展开详细的内容介绍,具有一定的参考价值,感想取得小伙伴可以参考一下

  3. Python爬取奶茶店数据分析哪家最好喝以及性价比

    这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习吧

  4. 使用pyinstaller打包.exe文件的详细教程

    PyInstaller是一个跨平台的Python应用打包工具,能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下

  5. 基于Python实现射击小游戏的制作

    这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起动手试一试

  6. Python list append方法之给列表追加元素

    这篇文章主要介绍了Python list append方法如何给列表追加元素,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

  7. Pytest+Request+Allure+Jenkins实现接口自动化

    这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

  8. 利用python实现简单的情感分析实例教程

    商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下

  9. 利用Python上传日志并监控告警的方法详解

    这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务,感兴趣的小伙伴可以了解一下

  10. Pycharm中运行程序在Python console中执行,不是直接Run问题

    这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

返回
顶部