nodejs爬虫遇到的乱码问题汇总

2023-02-20 原文

上一篇文章中使用nodejs程序解析了网页编码为gbk,gb2312,以及utf-8的情况，这里面有三种特殊的乱码情况需要单独的说明一下.

1，网页编码为utf-8,但是解析为乱码，代表网站为www.guoguo-app.com。

这个问题真是个逗逼问题，查看网页源码中给出的编码方式为utf8，如下：

<meta charset="UTF-8">
<title>查快递</title>

由于解析出来的始终是乱码，我就抓包看了下，报文中的编码方式为gbk，果然我使用gbk的方式之后，得到的不再是乱码了。淘宝为了反爬虫也是操碎了新，但是我也很好奇这种方式是怎么实现的，知道的告诉我。

GET / HTTP/1.1
Host: www.guoguo-app.com
Connection: close

HTTP/1.1 200 OK
Date: Thu, 06 Apr 2017 01:56:23 GMT
Content-Type: text/html;charset=GBK
Transfer-Encoding: chunked
Connection: close
Vary: Accept-Encoding
Vary: Accept-Encoding
Content-Language: zh-CN
Server: Tengine/Aserver

1，网页编码为utf-8,解析为乱码情况二，代表网站http//andersonjiang.blog.sohu.com/

单纯的查看网页源码看不出任何毛病，于是我又抓了一次包，得到如下情形：

GET / HTTP/1.1
Host: andersonjiang.blog.sohu.com
Connection: close

HTTP/1.1 200 OK
Content-Type: text/html; charset=GBK
Transfer-Encoding: chunked
Connection: close
Server: nginx
Date: Thu, 06 Apr 2017 02:10:33 GMT
Vary: Accept-Encoding
Expires: Thu, 01 Jan 1970 00:00:00 GMT
RHOST: 192.168.110.68@11177
Pragma: No-cache
Cache-Control: no-cache
Content-Language: en-US
Content-Encoding: gzip
FSS-Cache: MISS from 13539701.18454911.21477824
FSS-Proxy: Powered by 9935166.11245896.17873234

andersonjiang.blog.sohu.com这个网站同时采用了Transfer-Encoding: chunked传输编码和Content-Encoding: gzip内容编码功能，由于nodejs爬虫没有gzip解包功能，因此该网站提取不到任何字段，即title和charset等。要想提取此类网站则要添加gzip解包功能。

下面两个网站www.cr173.com以及www.csdn.net是正常的抓包情况。

GET / HTTP/1.1
Host: www.cr173.com
Connection: close

HTTP/1.1 200 OK
Expires: Thu, 06 Apr 2017 02:42:20 GMT
Date: Thu, 06 Apr 2017 02:12:20 GMT
Content-Type: text/html
Last-Modified: Thu, 06 Apr 2017 00:52:42 GMT
ETag: "96a4141970aed21:0"
Cache-Control: max-age=1800
Accept-Ranges: bytes
Content-Length: 158902
Accept-Ranges: bytes
X-Varnish: 1075189606
Via: 1.1 varnish
X-Via: 1.1 dxxz46:4 (Cdn Cache Server V2.0), 1.1 oudxin15:1 (Cdn Cache Server V2.0)
Connection: close
GET / HTTP/1.1
Host: www.csdn.net
Connection: close

HTTP/1.1 200 OK
Server: openresty
Date: Thu, 06 Apr 2017 02:18:59 GMT
Content-Type: text/html; charset=utf-8
Content-Length: 99363
Connection: close
Vary: Accept-Encoding
Last-Modified: Thu, 06 Apr 2017 02:10:02 GMT
Vary: Accept-Encoding
ETag: "58e5a37a-18423"
Accept-Ranges: bytes

3，网页编码为其他形式的编码，解析为乱码，例如：

（1）编码为Big5，代表网站为 www.ruten.com.tw， www.ctgoodjobs.hk

（2）编码为Shift_JIS，代表网站为www.vector.co.jp，www.smbc.co.jp

（3）编码为windows-12，代表网站为www.tff.org，www.pravda.com.ua

（4）编码为EUC-JP，代表网站为www.showtime.jp

（5）编码为EUC-KR ，代表网站为www.incruit.com，www.samsunghospital.com，

由于iconv-lite的说明中支持如下的编码方式：

Currently only a small part of encodings supported:

 All node.js native encodings: 'utf8', 'ucs2', 'ascii', 'binary', 'base64'.
 Base encodings: 'latin1'
 Cyrillic encodings: 'windows-1251', 'koi8-r', 'iso 8859-5'.
 Simplified chinese: 'gbk', 'gb2313'.

Other encodings are easy to add, see the source. Please, participate
因此对于上述出现的网页编码，只有自己添加解码方式加以解决了。

总之要写一个通用的爬虫程序还有很长的路要走。

nodejs爬虫遇到的乱码问题汇总的更多相关文章

解决VuePress页面乱码问题

这篇文章主要介绍了解决VuePress页面乱码问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
解决angularjs前后端分离调用接口传递中文时中文乱码的问题

今天小编就为大家分享一篇解决angularjs前后端分离调用接口传递中文时中文乱码的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
解决jsp页面使用网络路径访问图片的乱码问题

这篇文章主要介绍了jsp页面使用网络路径访问图片的乱码问题的解决方法 ,需要的朋友可以参考下
IE下Ajax提交乱码的快速解决方法

下面小编就为大家带来一篇IE下Ajax提交乱码的快速解决方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
ajax的responseText乱码的问题的解决方法

javascript的编码是和myeclipse一样的为什么还会出现问题，下面为大家介绍下ajax的responseText乱码的问题的解决方法
php smarty截取中文字符乱码问题?gb2312/utf-8

一般网站页面的显示都不可避免的会涉及子字符串的截取，这个时候truncate就派上用场了，但是它只适合英文用户，对与中文用户来说，使用 truncate会出现乱码
Ajax的特性及乱码问题

ajax的全称是asynchronous javascript and XML ,它是异步的js和XML。它是局部刷新，异步操作。这篇文章给大家介绍了ajax的特性及乱码问题，感兴趣的朋友一起看看吧
php解决DOM乱码的方法示例代码

最近在工作的时候遇到一个问题，在使用DOM的时候，发现了乱码的问题，后来通过查找网上的资料终于解决了，现在将解决的方法分享给大家，感兴趣的朋友们可以参考借鉴，有需要的朋友们下面来一起学习学习吧。
PHP使用PDO操作数据库的乱码问题解决方法

这篇文章主要介绍了PHP使用PDO操作数据库的乱码问题解决方法,实例分析了编码设置及属性设置解决乱码问题的实现技巧,需要的朋友可以参考下
JQuery发送ajax请求时中文乱码问题解决

这篇文章主要介绍了JQuery发送ajax请求时中文乱码问题解决,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

随机推荐

Error: Cannot find module ‘node:util‘问题解决

控制台安装 Vue-Cli 最后一步出现 Error: Cannot find module 'node:util' 问题解决方案1.问题C:\Windows\System32>cnpm install -g @vue/cli@4.0.3internal/modules/cjs/loader.js:638 throw err; &nbs
yarn的安装和使用(全网最详细)

一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn 缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn 会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn 能够保证在不同系统上无差异的工作。三、y
前端环境本机可切换node多版本问题源头是node使用的高版本

前言投降投降重头再来重装环境也就分分钟的事偏要折腾这下好了1天了还没折腾出来问题的源头是node 使用的高版本方案那就用本机可切换多版本最终问题是因为nodejs的版本太高，导致的node-sass不兼容问题，我的node是v16.14.0的版本，项目中用了"node-sass": "^4.7.2"版本，无法匹配当前的node版本根据文章的提
nodejs模块学习之connect解析

这篇文章主要介绍了nodejs模块学习之connect解析,小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
nodejs npm package.json中文文档

这篇文章主要介绍了nodejs npm package.json中文文档,本文档中描述的很多行为都受npm-config(7)的影响,需要的朋友可以参考下
详解koa2学习中使用 async 、await、promise解决异步的问题

这篇文章主要介绍了详解koa2学习中使用 async 、await、promise解决异步的问题，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
Node.js编写爬虫的基本思路及抓取百度图片的实例分享

这篇文章主要介绍了Node.js编写爬虫的基本思路及抓取百度图片的实例分享,其中作者提到了需要特别注意GBK转码的转码问题,需要的朋友可以参考下
CentOS 8.2服务器上安装最新版Node.js的方法

这篇文章主要介绍了CentOS 8.2服务器上安装最新版Node.js的方法，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
node.js三个步骤实现一个服务器及Express包使用

这篇文章主要介绍了node.js三个步骤实现一个服务器及Express包使用，文章通过新建一个文件展开全文内容，具有一定的参考价值，需要的小伙伴可以参考一下
node下使用UglifyJS压缩合并JS文件的方法

下面小编就为大家分享一篇node下使用UglifyJS压缩合并JS文件的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧