写在前面:

新型冠状病毒有多么可怕,我想大家都已经知道了。湖北爆发了新型冠状病毒,湖南前几天爆发了禽流感,四川发生地震,中国加油!昨天晚上我突发奇想地打算把疫情实时动态展示在自建站上,于是说干就干(先附上昨晚用puppeteer截的图片)。 

安装node_modules:

所需的node_modules:①puppeteer;②cheerio;③fs;④cron。

需要注意的是安装puppeteer的时候很容易安装失败,这里有俩个解决方法,都是用淘宝源(马云爸爸不是白叫的😄)。

一、先将npm换成淘宝源再安装:

npm config set registry http://registry.npm.taobao.org/
npm install -g cheerio
npm i -g puppeteer
npm i -g fs
npm i -g cron

二、用cnpm进行安装:

npm install cnpm -g --registry=https://registry.npm.taobao.org/
cnpm install -g cheerio
cnpm i -g puppeteer
cnpm i -g fs
cnpm i -g cron

具体操作:

用puppeteer爬取:

puppeteer本质上是一个chrome浏览器,网页很难分清这是人类用户还是爬虫,我们可以用它来加载动态网页。

先来一个简单的例子,用puppeteer截图:

const puppeteer = require('puppeteer');
 
(async () => {
 const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']});  //启动浏览器实例
  /* puppeteer.launch()的可选参数如下:
  headless: 是否打开浏览器,默认为true
  ignoreHTTPSErrors: 是否忽略https错误,默认为true
  executablePath: 配置要调用浏览器的可执行路径,默认是同Puppeteer一起安装的Chromeium
  slowMo:指定的毫秒延缓Puppeteer的操作
  args:设置浏览器的相关参数,比如是否启动沙箱模式“--no-sandbox”,是否更换代理“--proxy-server”,
  */
 const page = await browser.newPage();  //新建页面
 await page.goto('https://ncov.dxy.cn/');  //访问目标网页:丁香医生
 await page.screenshot({  //进行截图
  path: 'p1.png',
  type: 'png',
  // quality: 100, 只对jpg有效
  // 指定区域截图,clip和fullPage两者只能设置一个
  // fullPage: true,
  clip: {
   x: 0,
   y: 0,
   width: 1000,
   height: 1000
  }
 });
 browser.close();  //关闭浏览器
})();

用puppeteer获取网页源代码:

const puppeteer = require('puppeteer');
 
(async () => {
 const browser = await puppeteer.launch();
 const page = await browser.newPage();
 await page.goto('https://ncov.dxy.cn/');
 //page.frames() 获取当前页面所有的 iframe,然后根据 iframe 的名字精确获取某个想要的 iframe
 const frame = await page.mainFrame();
 const bodyHandle = await frame.$('html');  //获取所有的html
 //frame.evaluate()在浏览器中执行函数,相当于在控制台中执行函数,返回一个Promise
 const html = await frame.evaluate(body=>body.innerHTML,bodyHandle);
 await bodyHandle.dispose();
 browser.close();
 console.log(html);
})();

用cheerio解析html:

// 使用cheerio模块装载我们得到的页面源代码,返回的是一个类似于jquery中的$对象
// 使用这个$对象就像操作jquery对象一般去操作我们获取得到的页面的源代码
var $ = cheerio.load(html);
var $menu_box = $(".statistics___1cFUQ");
console.log($menu_box.html());

用fs写入到文件中:

/* fs.wirteFile有三个参数
  * 1,第一个参数是要写入的文件路径
  * 2,第二个参数是要写入得内容
  * 3,第三个参数是可选参数,表示要写入的文件编码格式,一般就不写,默认就行
  * 4,第四个参数是个回调函数 只有一个参数error,来判断是否写入成功
  */
fs.writeFile("./coronavirus.php",$menu_box.html(),error=>{
  if(error) return console.log("写入文件失败,原因是:" error.message);
  console.log('写入成功');
});

引入到网站中:

我是直接把它放在头部,局部代码如下:

<div id="header-bg">
  <style type="text/css">
    .title___2d1_B img {
      width: 18px;
      height: 18px;
      cursor:pointer;
    }
    #novel_coronavirus {
      text-align: center;
      position:relative;
      top:50px;
      background-color:rgba(255,255,255,0.7);
    }
    #novel_coronavirus li {
      margin: 10px;
      padding:2px;
      border:1px slide #000;
    }
    #novel_coronavirus ul li { 
      list-style:none;
      display: inline-block;
    }
    .count___3GCdh p{
      font-size:12px;
    }
    .count___3GCdh span{
      font-size:20px;
    }
  </style>
  <div id="novel_coronavirus" > 
    <strong><p style="font-size:23px">新型冠状病毒疫情实时动态</p></strong>
    <?php require("./test/coronavirus.php");?>
  </div>
</div>

服务器上运行的完整代码:

CronJob的定时参数是 秒 分钟 小时 天 月份 星期。这里我设置成了每分钟爬取一次。(我是用mstsc远程连接后运行node coronavirus.js的,这样关闭远程桌面连接后,服务器依然会每分钟爬取一次丁香医生上的新型冠状病毒的全国疫情实时动态。 

const cheerio = require('cheerio');
const puppeteer = require('puppeteer');
const fs = require('fs');
var cronJob = require('cron').CronJob;
new cronJob('0 */1 * * * *',function(){
 update();
},null,true);  //每分钟执行一次
//爬取全国新型肺炎疫情实时动态并写入到指定的.php文件
function update() {
 (async () => {
  const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']});
  const page = await browser.newPage();
  await page.goto('https://ncov.dxy.cn/');
  const frame = await page.mainFrame();
  const bodyHandle = await frame.$('html');
  const html = await frame.evaluate(body=>body.innerHTML,bodyHandle);
  await bodyHandle.dispose();
  browser.close();
  var $ = cheerio.load(html);
  var $menu_box = $(".statistics___1cFUQ");
  fs.writeFile("coronavirus.php",$menu_box.html(),error=>{
   if(error) {
    console.log("写入文件失败,原因是:" error.message);
   } else { 
    console.log('更新成功');
   }
  });
 })();
}

查看我的网站 

总结

以上所述是小编给大家介绍的node爬取新型冠状病毒的疫情实时动态,希望对大家有所帮助!

node爬取新型冠状病毒的疫情实时动态的更多相关文章

  1. 利用Node实现HTML5离线存储的方法

    这篇文章主要介绍了利用Node实现HTML5离线存储的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

  2. Html5实现首页动态视频背景的示例代码

    这篇文章主要介绍了Html5实现首页动态视频背景的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

  3. ios – 在Swift中动态创建uiviewcontroller

    我想动态创建UIViewController而不创建类或使用Mainstoryboard.我希望它以编程方式发生.这可能吗?

  4. ios – 使用带有NodeJs HTTPS的certificates.cer

    我为IOS推送通知生成了一个.cer文件,我希望将它与NodeJSHTTPS模块一起使用.我发现HTTPS模块的唯一例子是使用.pem和.sfx文件,而不是.cer:有解决方案吗解决方法.cer文件可以使用两种不同的格式进行编码:PEM和DER.如果您的文件使用PEM格式编码,您可以像使用任何其他.pem文件一样使用它(有关详细信息,请参见Node.jsdocumentation):如果您的文件使

  5. 使用iOS故事板动态调整UILabel的高度

    我有一个标签,它是使用iOSStoryboard布局创建的.但是,标签的内容是动态的,可以在运行时更改.如何确保根据标签中的内容调整标签的高度.我试过了:将行数设置为0设置编辑器–>适合内容的大小.但它们不起作用.标签中的文本仅以单行打印,因此某些文本不会出现在屏幕上.任何帮助将受到高度赞赏.解决方法试试这种方式你的标签应该是0的行数给标签赋予高度约束并选择高度约束然后设置大于等于,它将根据内容自动调整高度

  6. ios – 如何以编程方式动态地对UIButton的背景图像进行着色?

    我正在开发一个应用程序–或者更确切地说是一些可重用的“框架”,我很乐意在它工作时分享它.在此应用程序中,用户应该能够从颜色主题列表中进行选择.因此,应用程序必须能够以某种相当动态的方式对其UI元素进行着色.对于按钮,所有着色都不起作用.必须在此处提供正确着色的背景图像.但是为每个人准备一套背景图像只是第二好的.它不够动态和灵活.最后,解决方案可能归结为为所选和正常状态提供一个单色(灰色)梯度图像,

  7. ios – Firebase动态链接中的customURLScheme是什么?

    在documentation中它说要将以下行添加到我的AppDelegate.swift:根据我的理解,这应该是您在info.plist中添加的相同链接.但是,我很困惑为什么在quickstart-iosrepo他们决定将其等同于“dlscheme”.任何人都可以帮我理解这个方案究竟是什么?

  8. ios – 在动态构建的分段控件的导航栏中自动调整大小

    控制器将UISegmentedControl添加到导航栏.分段控件添加到控制器的viewDidLoad方法的导航栏中,但实际的段是在调用viewDidLoad后动态创建的.显示视图时,我无法自动调整分段大小.他们都被挤压,likeinthispost,虽然这里的决议不适用.如果在将分段控件添加到导航栏的右侧项目之前添加了段,则会自动调整它们的大小并在显示视图时看起来很好.这是我的代码的精简版本,如下所示.我错过了什么?

  9. Autolayout iOS 6动态表格单元格高度

    我有UITableviewCell子类.在这个单元格中,我有2个标签和一个显示评级星的视图.我想要lbl评论的动态高度来适应所有的文本.它应该扩大&根据评论的长度收缩高度.我已经实现了这一点,但没有AutoLayout如下现在我使用AutoLayout功能.如何使用Autolayout实现这一点?

  10. 动态模拟iOS动态类型系统文字大小(UIContentSizeCategory)

    解决方法多么尴尬!

随机推荐

  1. Error: Cannot find module ‘node:util‘问题解决

    控制台 安装 Vue-Cli 最后一步出现 Error: Cannot find module 'node:util' 问题解决方案1.问题C:\Windows\System32>cnpm install -g @vue/cli@4.0.3internal/modules/cjs/loader.js:638 throw err; &nbs

  2. yarn的安装和使用(全网最详细)

    一、yarn的简介:Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点:速度超快。Yarn 缓存了每个下载过的包,所以再次使用时无需重复下载。 同时利用并行下载以最大化资源利用率,因此安装速度更快。超级安全。在执行代码之前,Yarn 会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法,Yarn 能够保证在不同系统上无差异的工作。三、y

  3. 前端环境 本机可切换node多版本 问题源头是node使用的高版本

    前言投降投降 重头再来 重装环境 也就分分钟的事 偏要折腾 这下好了1天了 还没折腾出来问题的源头是node 使用的高版本 方案那就用 本机可切换多版本最终问题是因为nodejs的版本太高,导致的node-sass不兼容问题,我的node是v16.14.0的版本,项目中用了"node-sass": "^4.7.2"版本,无法匹配当前的node版本根据文章的提

  4. nodejs模块学习之connect解析

    这篇文章主要介绍了nodejs模块学习之connect解析,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  5. nodejs npm package.json中文文档

    这篇文章主要介绍了nodejs npm package.json中文文档,本文档中描述的很多行为都受npm-config(7)的影响,需要的朋友可以参考下

  6. 详解koa2学习中使用 async 、await、promise解决异步的问题

    这篇文章主要介绍了详解koa2学习中使用 async 、await、promise解决异步的问题,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  7. Node.js编写爬虫的基本思路及抓取百度图片的实例分享

    这篇文章主要介绍了Node.js编写爬虫的基本思路及抓取百度图片的实例分享,其中作者提到了需要特别注意GBK转码的转码问题,需要的朋友可以参考下

  8. CentOS 8.2服务器上安装最新版Node.js的方法

    这篇文章主要介绍了CentOS 8.2服务器上安装最新版Node.js的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

  9. node.js三个步骤实现一个服务器及Express包使用

    这篇文章主要介绍了node.js三个步骤实现一个服务器及Express包使用,文章通过新建一个文件展开全文内容,具有一定的参考价值,需要的小伙伴可以参考一下

  10. node下使用UglifyJS压缩合并JS文件的方法

    下面小编就为大家分享一篇node下使用UglifyJS压缩合并JS文件的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

返回
顶部