浅谈Node框架接入ELK实践总结

2023-06-28 原文

我们都有过上机器查日志的经历，当集群数量增多的时候，这种原始的操作带来的低效率不仅给我们定位现网问题带来极大的挑战，同时，我们也无法对我们服务框架的各项指标进行有效的量化诊断，更无从谈有针对性的优化和改进。这个时候，构建具备信息查找，服务诊断，数据分析等功能的实时日志监控系统尤为重要。

ELK （ELK Stack: ElasticSearch, LogStash, Kibana, Beats）是一套成熟的日志解决方案，其开源及高性能在各大公司广泛使用。而我们业务所使用的服务框架，如何接入 ELK 系统呢？

业务背景

我们的业务框架背景：

业务框架是基于 NodeJs 的 WebServer
服务使用 winston 日志模块将日志本地化
服务产生的日志存储在各自机器的磁盘上
服务部署在不同地域多台机器

我们将整个框架接入 ELK 简单归纳为下面几个步骤：

日志结构设计：由传统的纯文本日志改成结构化对象并输出为 JSON.
日志采集：在框架请求生命周期的一些关键节点输出日志
ES 索引模版定义：建立 JSON 到 ES 实际存储的映射

一、日志结构设计

传统的，我们在做日志输出的时候，是直接输出日志的等级（level）和日志的内容字符串（message）。然而我们不仅关注什么时间，发生了什么，可能还需要关注类似的日志发生了多少次，日志的细节与上下文，以及关联的日志。因此我们不只是简单地将我们的日志结构化一下为对象，还要提取出日志关键的字段。

1. 将日志抽象为事件

我们将每一条日志的发生都抽像为一个事件。事件包含：

事件元字段

事件发生时间：datetime, timestamp
事件等级：level，例如: ERROR, INFO, WARNING, DEBUG
事件名称: event, 例如：client-request
事件发生的相对时间（单位：纳秒）：reqLife, 此字段为事件相对请求开始发生的时间（间隔）
事件发生的位置: line，代码位置; server, 服务器的位置

请求元字段

请求唯一ID: reqId, 此字段贯穿整个请求链路上发生的所有事件
请求用户ID: reqUid, 此字段为用户标识，可以跟踪用户的访问或请求链路

数据字段

不同类型的事件，需要输出的细节不尽相同，我们将这些细节（非元字段）统一放到d -- data，之中。使我们的事件结构更加清晰，同时，也能避免数据字段对元字段造成污染。

e.g. 如 client-init事件，该事件会在每次服务器接收到用户请求时打印，我们将用户的 ip, url等事件独有的统一归为数据字段放到 d 对象中

举个完整的例子

{
  "datetime":"2018-11-07 21:38:09.271",
  "timestamp":1541597889271,
  "level":"INFO",
  "event":"client-init",
  "reqId":"rJtT5we6Q",
  "reqLife":5874,
  "reqUid": "999793fc03eda86",
  "d":{
    "url":"/",
    "ip":"9.9.9.9",
    "httpVersion":"1.1",
    "method":"GET",
    "userAgent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36",
    "headers":"*"
  },
  "browser":"{"name":"Chrome","version":"70.0.3538.77","major":"70"}",
  "engine":"{"version":"537.36","name":"WebKit"}",
  "os":"{"name":"Mac OS","version":"10.14.0"}",
  "content":"(Empty)",
  "line":"middlewares/foo.js:14",
  "server":"127.0.0.1"
}

一些字段，如：browser, os, engine为什么在外层有时候我们希望日志尽量扁平（最大深度为2），以避免 ES 不必要的索引带来的性能损耗。在实际输出的时候，我们会将深度大于1的值输出为字符串。而有时候一些对象字段是我们关注的，所以我们将这些特殊字段放在外层，以保证输出深度不大于2的原则。

一般的，我们在打印输出日志的时候，只须关注事件名称及数据字段即可。其他，我们可以在打印日志的方法中，通过访问上下文统一获取，计算，输出。

2. 日志改造输出

前面我们提到了如何定义一个日志事件，那么，我们如何基于已有日志方案做升级，同时，兼容旧代码的日志调用方式。

升级关键节点的日志

// 改造前
logger.info('client-init => '   JSON.stringfiy({
  url,
  ip,
  browser,
  //...
}));

// 改造后
logger.info({
  event: 'client-init',
  url,
  ip,
  browser,
  //...
});

兼容旧的日志调用方式

logger.debug('checkLogin');

因为 winston 的日志方法本身就支持 string 或者 object 的传入方式, 所以对于旧的字符串传入写法，formatter 接收到的实际上是{ level: 'debug', message: 'checkLogin' }。formatter 是 winston 的日志输出前调整日志格式的一道工序，这一点使我们在日志输出前有机会将这类调用方式输出的日志，转为一个纯输出事件 -- 我们称它们为raw-log事件，而不需要修改调用方式。

改造日志输出格式

前面提到 winston 输出日志前，会经过我们预定义的formatter，因此除了兼容逻辑的处理外，我们可以将一些公共逻辑统一放在这里处理。而调用上，我们只关注字段本身即可。

元字段提取及处理
字段长度控制
兼容逻辑处理

如何提取元字段，这里涉及上下文的创建与使用，这里简单介绍一下 domain 的创建与使用。

//--- middlewares/http-context.js
const domain = require('domain');
const shortid = require('shortid');

module.exports = (req, res, next) => {
  const d = domain.create();
  d.id = shortid.generate(); // reqId;
  d.req = req;
  
  //...

  res.on('finish', () => process.nextTick(() => {
    d.id = null;
    d.req = null;
    d.exit();
  });

  d.run(() => next());
}

//--- app.js
app.use(require('./middlewares/http-context.js'));

//--- formatter.js
if (process.domain) {
  reqId = process.domain.id;
}

这样，我们就可以将 reqId 输出到一次请求中所有的事件, 从而达到关联事件的目的。

二、日志采集

现在，我们知道怎么输出一个事件了，那么下一步，我们该考虑两个问题：

我们要在哪里输出事件？
事件要输出什么细节？

换句话说，整个请求链路中，哪些节点是我们关注的，出现问题，可以通过哪个节点的信息快速定位到问题？除此之外，我们还可以通过哪些节点的数据做统计分析？

结合一般常见的请求链路（用户请求，服务侧接收请求，服务请求下游服务器/数据库（*多次），数据聚合渲染，服务响应），如下方的流程图

流程图

那么，我们可以这样定义我们的事件：

用户请求

client-init: 打印于框架接收到请求（未解析），包括：请求地址，请求头，Http 版本和方法，用户 IP 和浏览器
client-request: 打印于框架接收到请求（已解析），包括：请求地址，请求头，Cookie, 请求包体
client-response: 打印于框架返回请求，包括：请求地址，响应码，响应头，响应包体

下游依赖

http-start: 打印于请求下游起始：请求地址，请求包体，模块别名（方便基于名字聚合而且域名）
http-success: 打印于请求返回 200：请求地址，请求包体，响应包体(code & msg & data)，耗时
http-error: 打印于请求返回非 200，亦即连接服务器失败：请求地址，请求包体，响应包体(code & message & stack)，耗时。
http-timeout: 打印于请求连接超时：请求地址，请求包体，响应包体(code & msg & stack)，耗时。

字段这么多，该怎么选择？一言以蔽之，事件输出的字段原则就是：输出你关注的，方便检索的，方便后期聚合的字段。

一些建议

请求下游的请求体和返回体有固定格式， e.g. 输入：{ action: 'getUserInfo', payload: {} } 输出: { code: 0, msg: '', data: {}} 我们可以在事件输出 action，code 等，以便后期通过 action 检索某模块具体某个接口的各项指标和聚合。

一些原则

保证输出字段类型一致由于所有事件都存储在同一个 ES 索引，因此，相同字段不管是相同事件还是不同事件，都应该保持一致，例如：code不应该既是数字，又是字符串，这样可能会产生字段冲突，导致某些记录（document）无法被冲突字段检索到。ES 存储类型为 keyword, 不应该超过ES mapping 设定的 ignore_above 中指定的字节数（默认4096个字节）。否则同样可能会产生无法被检索的情况三、ES 索引模版定义

这里引入 ES 的两个概念，映射(Mapping)与模版(Template)。

首先，ES 基本的存储类型大概枚举下，有以下几种

String: keyword & text
Numeric: long, integer, double
Date: date
Boolean: boolean

一般的，我们不需要显示指定每个事件字段的在ES对应的存储类型，ES 会自动根据字段第一次出现的document中的值来决定这个字段在这个索引中的存储类型。但有时候，我们需要显示指定某些字段的存储类型，这个时候我们需要定义这个索引的 Mapping, 来告诉 ES 这此字段如何存储以及如何索引。

e.g.

还记得事件元字段中有一个字段为 timestamp ？实际上，我们输出的时候，timestamp 的值是一个数字，它表示跟距离 1970/01/01 00:00:00 的毫秒数，而我们期望它在ES的存储类型为 date 类型方便后期的检索和可视化, 那么我们创建索引的时候，指定我们的Mapping。

PUT my_logs
{
 "mappings": {
  "_doc": { 
   "properties": { 
    "title":  {
      "type": "date",
      "format": "epoch_millis"
     }, 
   }
  }
 }
}

但一般的，我们可能会按日期自动生成我们的日志索引，假定我们的索引名称格式为 my_logs_yyyyMMdd （e.g. my_logs_20181030）。那么我们需要定义一个模板（Template），这个模板会在（匹配的）索引创建时自动应用预设好的 Mapping。

PUT _template/my_logs_template
{
 "index_patterns": "my_logs*",
 "mappings": {
  "_doc": { 
   "properties": { 
    "title":  {
      "type": "date",
      "format": "epoch_millis"
     }, 
   }
  }
 }
}

提示：将所有日期产生的日志都存在一张索引中，不仅带来不必要的性能开销，也不利于定期删除比较久远的日志。

小结

至此，日志改造及接入的准备工作都已经完成了，我们只须在机器上安装 FileBeat -- 一个轻量级的文件日志Agent, 它负责将日志文件中的日志传输到 ELK。接下来，我们便可使用 Kibana 快速的检索我们的日志。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持Devmax。

浅谈Node框架接入ELK实践总结的更多相关文章

利用Node实现HTML5离线存储的方法

这篇文章主要介绍了利用Node实现HTML5离线存储的方法，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
ios – 使用带有NodeJs HTTPS的certificates.cer

我为IOS推送通知生成了一个.cer文件,我希望将它与NodeJSHTTPS模块一起使用.我发现HTTPS模块的唯一例子是使用.pem和.sfx文件,而不是.cer：有解决方案吗解决方法.cer文件可以使用两种不同的格式进行编码：PEM和DER.如果您的文件使用PEM格式编码,您可以像使用任何其他.pem文件一样使用它(有关详细信息,请参见Node.jsdocumentation)：如果您的文件使
如何在XCode IDE中构建NodeJS？

如何在XCodeIDE中将NodeJS构建为项目？NodeJS构建指令说它应该用以下内容构建：但是我希望在XCodeIDE中构建.我真正想要做的是在我的应用程序中嵌入NodeJS,所以我想如果我可以在XCode中构建NodeJS,那么我可以调整它以在我建立和运行NodeJS后添加我的应用程序.我想通过让V8在XCode中编译来取得一些进展,现在我正在尝试将NodeJS添加到V8项目中.解决方法在节点存储库根目录中运行./configure–xcode,您将获得所需的node.xcodeproj文件.
深入云存储系统Swift核心组件：Ring实现原理剖析

它的目的是用于托管Rackspace的CloudFilesservice，原始项目代号是swift，所以沿用至今。Ring是Swift中最重要的组件，用于记录存储对象与物理位置间映射关系。先来看一下Swift文档中关于Ring的描述：Ring用来确定数据驻留在集群中的位置。有单独对应于Account数据库、container数据库和单个object的ring。Ring使用zone的概念来保证数据的隔离。每个partition的replica都确保放在了不同的zone中。本文逐步深入探讨了Swift如何通过
Swift开发：创建XML文件，包含节点，属性值

.append;//3创建第二个节点数据letitem2:Item=Item;for{letnode=Node;node.id=i+1;node.attributes=["ID":"\","Name":"N-\","disp":"1","Appliance":"1","Icon":"ic_switch_4"]item2.addNode;}xml.items?
泛型 – 符合Swift中Comparable的泛型类

我正在尝试创建一个符合Comparable协议的简单通用节点类,以便我可以轻松地比较节点而无需访问其密钥.当我试图写
swift3 – 将SceneKit对象放在SCNCamera当前方向的前面

>生成SCNVector4,它定向节点,使其“面向”相机？但是让我有点失落.我看到了许多类似的问题,比如thisone,但没有答案.嘿,如果要将对象放在相对于另一个节点的某个位置,并且与参考节点的方向相同,则可以使用这个更简单的函数：如果您想将’node’2m放在某个’cameraNode’前面,你可以这样称呼：
如何在Swift中继承NSOperation以将SKAction对象排队以进行串行执行？

Rob为子类化NSOperation提供了agreatObjective-Csolution,以实现SKAction对象的串行排队机制.我在自己的Swift项目中成功实现了这一点.要使用Actionoperation,请在客户端类中实例化NSOperationQueue类成员：在init方法中添加以下重要行：然后当您准备好向其添加SKActions时,它们会连续运行：您是否需要在任何时候终止操作：希望有所帮助！
核心数据 – 如何在Swift中定义CoreData关系？

在CoreData中,我已经从Node到Tag定义了一个无序的多对多关系.我创建了一个这样的Swift实体：现在我想添加一个Tag到Node的一个实例,像这样：但是,这会失败,并显示以下错误：Terminatingappduetouncaughtexception‘NSinvalidargumentexception’,reason:‘Unacceptabletypeofvalueforto-ma
将“nil”值赋给Swift中的一般类型变量

您需要将变量声明为可选项：不幸的是,这似乎触发了一个未实现的编译器功能：您可以通过使用NSObject的类型约束声明T来解决它：

随机推荐

Error: Cannot find module ‘node:util‘问题解决

控制台安装 Vue-Cli 最后一步出现 Error: Cannot find module 'node:util' 问题解决方案1.问题C:\Windows\System32>cnpm install -g @vue/cli@4.0.3internal/modules/cjs/loader.js:638 throw err; &nbs
yarn的安装和使用(全网最详细)

一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn 缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn 会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn 能够保证在不同系统上无差异的工作。三、y
前端环境本机可切换node多版本问题源头是node使用的高版本

前言投降投降重头再来重装环境也就分分钟的事偏要折腾这下好了1天了还没折腾出来问题的源头是node 使用的高版本方案那就用本机可切换多版本最终问题是因为nodejs的版本太高，导致的node-sass不兼容问题，我的node是v16.14.0的版本，项目中用了"node-sass": "^4.7.2"版本，无法匹配当前的node版本根据文章的提
nodejs模块学习之connect解析

这篇文章主要介绍了nodejs模块学习之connect解析,小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
nodejs npm package.json中文文档

这篇文章主要介绍了nodejs npm package.json中文文档,本文档中描述的很多行为都受npm-config(7)的影响,需要的朋友可以参考下
详解koa2学习中使用 async 、await、promise解决异步的问题

这篇文章主要介绍了详解koa2学习中使用 async 、await、promise解决异步的问题，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
Node.js编写爬虫的基本思路及抓取百度图片的实例分享

这篇文章主要介绍了Node.js编写爬虫的基本思路及抓取百度图片的实例分享,其中作者提到了需要特别注意GBK转码的转码问题,需要的朋友可以参考下
CentOS 8.2服务器上安装最新版Node.js的方法

这篇文章主要介绍了CentOS 8.2服务器上安装最新版Node.js的方法，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
node.js三个步骤实现一个服务器及Express包使用

这篇文章主要介绍了node.js三个步骤实现一个服务器及Express包使用，文章通过新建一个文件展开全文内容，具有一定的参考价值，需要的小伙伴可以参考一下
node下使用UglifyJS压缩合并JS文件的方法

下面小编就为大家分享一篇node下使用UglifyJS压缩合并JS文件的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧