深入解析Nodejs中的大文件读写

2023-05-22 原文

前言

最近在做一些node端的文件读写和分片上传工作，在这个过程中，发现node读取的文件如果超过2G，超过了读取Blob最大值，会出现读取异常，此外在node中读写文件也受服务器RAM的限制等，需要分片读取，本人记录一下遇到的问题以及解决问题的经过。

node中的文件读写

node文件读写RAM和Blob大小的限制

其他

官网

一、node中的文件读写

1.1 常规文件读写

常规的，如果我们要读取一个比较小的文件，可以直接通过：

const fs = require('fs')
let data = fs.readFileSync("./test.png")
console.log(data,123)
//输出data = <Buffer 89 50 4e ...>

一般而言，同步的方法不是很推荐，因为js/nodejs是单线程的，同步的方法会阻塞主线程。最新版的node直接提供了fs.promise，可以结合async/await直接使用：

const fs = require('fs')
const readFileSync = async () => {
    let data = await fs.promises.readFile("./test.png")
    console.log(data,123)
}
readFileSync()
//输出data = <Buffer 89 50 4e ...>

这里通过异步的方法调用不会阻塞主线程，多个文件读取的IO也可以并行进行等。

1.2 Stream文件读写

常规的文件读写，我们会把文件一次性的读取到内存中，这种方法时间效率和内存效率都很低，时间效率低是指必须要一次性读取完毕后才能执行后续才做，内存效率低是指必须把这个文件都一次性读取放入内存中，很占用内存。

因此这种情况下，我们一般使用Stream来进行文件的读取：

const fs = require('fs')
const readFileTest = () => {
    var data = ''
    var rs = fs.createReadStream('./test.png');
    rs.on('data', function(chunk) {
        data  = chunk;
        console.log(chunk)
     });
    rs.on('end',function(){
        console.log(data);
    });
    rs.on('error', function(err){
        console.log(err.stack);
     });
}
readFileTest()
// data = <Buffer 89 50 64 ...>

通过Steam来进行文件读写，可以提高内存效率和时间效率。

内存效率：在处理数据之前，不需要在内存中加载大量（或整个）数据
时间效率：一旦有了数据，就可以开始处理，这大大减少开始处理数据的时间，而不必等到整个数据加载完毕再进行处理。

Stream的文件还支持第二种写法：

const fs = require('fs')
const readFileTest = () => {
    var data = ''
    var chunk;
    var rs = fs.createReadStream('./test.png');
    rs.on('readable', function() {
    while ((chunk=rs.read()) != null) {
        data  = chunk;
    }});
    rs.on('end', function() {
        console.log(data)
    });
};
readFileTest()

二、node文件读写RAM和Blob大小的限制

2.1 基础问题

在读取大文件时，会有读取文件大小的限制，比如我们现在在读取一个2.5G的视频文件：

const fs = require('fs')
const readFileTest = async () => {
    let data = await fs.promises.readFile("./video.mp4")
    console.log(data)
}
readFileTest()

执行上述的代码会报错：

RangeError [ERR_FS_FILE_TOO_LARGE]: File size (2246121911) is greater than 2 GB

我们可能会想到，通过设置option，NODE_OPTIONS='--max-old-space-size=5000'，此时5000M>2.5G,但是报错还是没有消失，也就是说通过Options无法改变node读取文件的大小限制。

上述是常规的方式读取大文件，如果通过Steam的方式读取还会有文件大小的限制嘛？比如：

const fs = require('fs')
const readFileTest = () => {
    var data = ''
    var rs = fs.createReadStream('./video.mp4');
    rs.on('data', function(chunk) {
        data  = chunk;
     });
    rs.on('end',function(){
        console.log(data);
    });
    rs.on('error', function(err){
        console.log(err.stack);
     });
}
readFileTest()

如上方式读取一个2.5G的文件不会有异常，不过要注意的是这边有一个报错：

data = chunk;
^
RangeError: Invalid string length

此时是因为data的长度超过了最大限制，比如2048M等。因此在用Steam处理的时候，在对读取结果的保存时，要注意文件的大小，千万不能超过默认的Buffer的最大值。上述这种情况，我们不用data = chunk将数据全部保存在一个大的data中，我们可以边读取边处理。

2.2 分片读取

createReadStream在读取文件的过程中，其实也可以分段读取，这种分段读取的方法也可以做为大文件读取的备选项。特别是在并发读取的时候有一定的优点，可以提升文件读取和处理的速度。

createReadStream接受第二个参数{start,end}。我们可以通过fs.promises.stat来获取文件的大小，然后确定分片，最后分片一次读取，比如：

获取文件大小

const info = await fs.promises.stat(filepath)
   const size = info.size

按照指定的SIZE分片(比如128M一个分片)

  const SIZE = 128 * 1024 * 1024
  let sizeLen = Math.floor(size/SIZE)
    let total = sizeLen  1 ;
    for(let i=0;i<=sizeLen;i  ){
      if(sizeLen ===i){
        console.log(i*SIZE,size,total,123)
        readStremfunc(i*SIZE,size,total)
      }else{
        console.log(i*SIZE,(i 1)*SIZE,total,456)
        readStremfunc(i*SIZE,(i 1)*SIZE-1,total)
      }
    }
  //分片后【0,128M】,【128M, 256M】...

3.实现读取函数

const readStremfunc = () => {
    const readStream =  fs.createReadStream(filepath,{start:start,end:end})
    readStream.setEncoding('binary')
    let data = ''
    readStream.on('data', chunk => {
        data = data   chunk
    })
    readStream.end('data', () => {
      ...
    })
}

值得注意的是fs.createReadStream(filepath,{start,end})，start和end是前闭后闭的，比如fs.createReadSteam(filepath,{start:0,end:1023})读取的是[0,1023]一共1024个bit。

三、其他

3.1 扩展浏览器端的大文件读写、

前面将了大文件在nodejs中的读取，那么在浏览器端会读取大文件会有什么问题吗？

浏览器在本地读取大文件时，之前有类似FileSaver、StreamSaver等方案，不过在浏览器本身添加了File的规范，使得浏览器本身就默认和优化了Stream的读取。我们不需要做额外的工作，不过不同的版本会有兼容性的问题，我们还是可以通过FileSaver等进行兼容。

3.2 请求静态资源大文件

如果是在浏览器中获取静态资源大文件，一般情况下只需要通过range分配请求即可，一般的CDN加速域名，不管是阿里云还是腾讯云，对于分片请求都支持的很好，我们可以将资源通过cdn加速，然后在浏览器端直接请求cdn加速有的资源。

分片获取cdn静态资源大文件的步骤为，首先通过head请求获取文件大小：

const getHeaderInfo = async (url: string) => {
  const res: any = await axios.head(url   `?${Math.random()}`);
  return res?.headers;
};
const header = getHeaderInfo(source_url)
const size = header['content-length']

我们可以从header中的content-length属性中，获取文件的大小。

然后进行分片和分段，最后发起range请求：

const getRangeInfo = async (url: string, start: number, end: number) => {
    const data = await axios({
      method: 'get',
      url,
      headers: {
        range: `bytes=${start}-${end}`,
      },
      responseType: 'blob',
    });
    return data?.data;
  };

在headers中指定 range: bytes=${start}-${end},就可以发起分片请求去获取分段资源，这里的start和end也是前闭后闭的。

到此这篇关于深入解析Nodejs中的大文件读写的文章就介绍到这了,更多相关Nodejs大文件读写内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

深入解析Nodejs中的大文件读写的更多相关文章

nodejs npm package.json中文文档

这篇文章主要介绍了nodejs npm package.json中文文档,本文档中描述的很多行为都受npm-config(7)的影响,需要的朋友可以参考下
浅析Nodejs npm常用命令

这篇文章主要介绍了浅析Nodejs npm常用命令的相关资料,非常不错，具有参考借鉴价值，需要的朋友可以参考下
nodejs 使用nodejs-websocket模块实现点对点实时通讯

这篇文章主要介绍了nodejs 使用nodejs-websocket模块实现点对点实时通讯的实例代码，代码简单易懂，非常不错，具有一定的参考借鉴价值,需要的朋友可以参考下
nodeJs链接Mysql做增删改查的简单操作

本篇文章主要介绍了nodeJs链接Mysql做增删改查的简单操作，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
Nodejs中使用captchapng模块生成图片验证码

本篇文章主要介绍了Nodejs中使用captchapng模块实现图片验证码，非常具有实用价值，需要的朋友可以参考下
nodejs 图片预览和上传的示例代码

本篇文章主要介绍了nodejs 图片预览和上传的示例代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
nodejs中函数的调用实例详解

本文通过实例代码给大家介绍了nodejs函数的调用,代码简单易懂，非常不错，具有一定的参考借鉴价值，需要的朋友可以参考下
NodeJS使用formidable实现文件上传

这篇文章主要为大家详细介绍了NodeJS使用formidable实现文件上传的相关方法,具有一定的参考价值，感兴趣的小伙伴们可以参考一下
Nodejs获取网络数据并生成Excel表格

这篇文章主要为大家详细介绍了Nodejs获取网络数据并生成Excel表格的具体实现方法，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
NodeJS实现不可逆加密与密码密文保存的方法

这篇文章主要介绍了NodeJS实现不可逆加密与密码密文保存的方法,简单讲述了不可逆加密与密码密文保存的原理并结合实例形式分析了nodejs相关加密操作实现技巧,需要的朋友可以参考下

随机推荐

Error: Cannot find module ‘node:util‘问题解决

控制台安装 Vue-Cli 最后一步出现 Error: Cannot find module 'node:util' 问题解决方案1.问题C:\Windows\System32>cnpm install -g @vue/cli@4.0.3internal/modules/cjs/loader.js:638 throw err; &nbs
yarn的安装和使用(全网最详细)

一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn 缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn 会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn 能够保证在不同系统上无差异的工作。三、y
前端环境本机可切换node多版本问题源头是node使用的高版本

前言投降投降重头再来重装环境也就分分钟的事偏要折腾这下好了1天了还没折腾出来问题的源头是node 使用的高版本方案那就用本机可切换多版本最终问题是因为nodejs的版本太高，导致的node-sass不兼容问题，我的node是v16.14.0的版本，项目中用了"node-sass": "^4.7.2"版本，无法匹配当前的node版本根据文章的提
nodejs模块学习之connect解析

这篇文章主要介绍了nodejs模块学习之connect解析,小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
nodejs npm package.json中文文档

这篇文章主要介绍了nodejs npm package.json中文文档,本文档中描述的很多行为都受npm-config(7)的影响,需要的朋友可以参考下
详解koa2学习中使用 async 、await、promise解决异步的问题

这篇文章主要介绍了详解koa2学习中使用 async 、await、promise解决异步的问题，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
Node.js编写爬虫的基本思路及抓取百度图片的实例分享

这篇文章主要介绍了Node.js编写爬虫的基本思路及抓取百度图片的实例分享,其中作者提到了需要特别注意GBK转码的转码问题,需要的朋友可以参考下
CentOS 8.2服务器上安装最新版Node.js的方法

这篇文章主要介绍了CentOS 8.2服务器上安装最新版Node.js的方法，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
node.js三个步骤实现一个服务器及Express包使用

这篇文章主要介绍了node.js三个步骤实现一个服务器及Express包使用，文章通过新建一个文件展开全文内容，具有一定的参考价值，需要的小伙伴可以参考一下
node下使用UglifyJS压缩合并JS文件的方法

下面小编就为大家分享一篇node下使用UglifyJS压缩合并JS文件的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧