ELK实战

ELK介绍

ELK由Elasticsearch、Logstash和Kibana三部分组件组成。

Elasticsearch是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。
Logstash是一个完全开源的工具，它可以对你的日志进行收集、分析，并将其存储供以后使用。
kibana 是一个开源和免费的工具，它可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面，可以帮助您汇总、分析和搜索重要数据日志。

Elasticsearch

Elasticsearch是一个基于Lucene实现的开源、分布式、Restful的全文本搜索引擎。（仅支持文本搜索）此外，它还是一个分布式实时文档存储，其中每个文档的每个field均是被索引的数据，且可被搜索；也是一个带实时分析功能的分布式搜索引擎，能够扩展至数以百计的节点实时处理PB级的数据。
Elasticsearch借助于Lucene的API，在Lucene之外又重新封装了一层实现构建搜索引擎中的搜索组件。除此之外，Elasticsearch还新增了更强大的功能。比如把自己构建为分布式，分布式地将Lucene所提供的索引组建成shard形式，分布于多个节点之上，从而构建成分布式实时查询的组件。

Logstash

支持多数据获取机制，通过TCP/UDP协议、文件、syslog、windows EventLogs及STDIN等。获取到数据后，它支持对数据执行过滤、修改等操作。

logstash配置框架：

input {
  ...
}

filter {
  ...
}

output {
  ...
}

Logstash是高度插件化的，支持4种类型的插件(每一类都有数10种具体的实现)：
input、filter、codec、output

input插件

下面介绍input插件几种常见的实现。
1.File：
从指定的文件中读取事件流；其工作特性类似于tail -1，不断将文件的最后一行读出来；不过第一次读取文件时是从第1行开始的；文件中的每一行都被识别为一个事件。对于Logstash而言，每一个独立的信息就是一个事件，而对于文本文件来讲，每一个事件是用一行来表示的，如果期望将多行识别为一个事件的话，就需要codec插件。logstash使用FileWatch(Ruby Gem库)机制来监听文件的变化，FileWatch是Linux内核中提供的一个功能。可以一下子监听多个文件。文件状态记录在.sincedb数据库中。另外，FIle插件还能够自动识别你的日志滚动操作，日志一般达到某个体积、或者满足多少天后会滚动，File也能识别。它会按照上一次那个日志文件所在的位置读取，自动进行滚动，读到最新的文件。
2.udp插件:
如果我们安装的某个程序，它能够通过udp的某个端口输出自己相关日志信息或者事件。Logstash通过udp协议从网络连接来读取Message。其必备参数为port，用于指明自己监听的端口，别的主机向这个端口发事件，host则用来指明自己监听的地址。
3.redis插件：
允许Logstash从redis读数据。支持redis channel和lists两种方式来获取数据。

filter插件

filter插件主要用于将event通过output发出之前，对其实现某些处理功能。
1.grok：用于分析并结构化文本数据。把每一个事件字段切好，做成结构化的形式。使得我们后续可以分析。目前能处理syslog、apache、nginx的日志等。目前Logstash提供120种grok模式，因为我们要分析文本，必须提供模式。
简单举个例子说明下什么是模式：

55.3.244.1 GET /index.html 15824 0.043

比如对于上面一条日志，我们定义如下的模式：

%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}

那么经过grok过滤后，这个事件后将会加有分析后的字段：

client => 55.3.244.1
method => GET
request => /index.html
bytes => 15824
duration => 0.043

Logstash中默认自带了很多pattern，但是如果没有你需要的，就需要自己在文件中定义你需要的模式。
grok语法格式：

%{SYNTAX:SEMANTIC}
    SYNTAX表示预定义模式名称。就是Logstash解压后pattern相关文件里已经定义好的模式，如果没有的，可以自己写在上面那个文件里，名字得全大写。具体的文件在下面的实战中会讲到。
    SEMANTIC表示匹配到的文本的自定义的标识符。比如识别处理的ip可能是clientip也可能是server端的ip，我们可以自定义名字。

output插件

1.stdout：标准输出插件。
2.elasticsearch：将结果输出到Elasticsearch中。
elasticsearch插件常见配置参数：

index：数据存储在ES中的哪个索引中。默认“logstash-%{+YYYY.MM.dd}”，每天使用一个单独的索引。
workers：执行output的线程数。

3.redis插件：将结果输出到redis中。
Logstash使用redis作为输入或输出插件时，尤其是输出插件时，它有两种数据类型可以用来保存Logstash输出的数据。一种是list，一种是channel。一般使用list，list比较简单。

【注意】：Logstash版本不同，每种插件支持的参数也不同，具体看官方文档。

环境信息

主机名	操作系统版本	IP地址	安装软件
hadoop16	CentOS 7.0	172.16.206.16	elasticsearch-5.6.3.zip、kibana-5.6.3-linux-x86_64.tar.gz
spark32	CentOS 7.0	172.16.206.32	logstash-5.6.3.tar.gz

Elasticsearch

安装JDK8

# tar zxf jdk-8u73-linux-x64.gz -C /usr/java/
# vim /etc/profile
export JAVA_HOME=/usr/java/jdk1.8.0_73
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
# source /etc/profile

新建用户

【注意】:elasticsearch不能使用root用户去启动。

# groupadd -g 510 es
# useradd -g 510 -u 510 es
# echo "wisedu123" | passwd --stdin es &> /dev/null

安装配置Elasticsearch

[root@hadoop16 opt]# unzip -oq elasticsearch-5.6.3.zip
[root@hadoop16 opt]# vim elasticsearch-5.6.3/config/elasticsearch.yml 
cluster.name: loges
node.name: hadoop16
network.host: 172.16.206.16
bootstrap.memory_lock: true
[root@hadoop16 opt]# vim /etc/security/limits.conf
es - memlock -1
[root@hadoop16 opt]# chown -R es.es elasticsearch-5.6.3

配置说明：
bootstrap.memory_lock: true
这个配置的作用是保护Elasticsearch使用的内存防止其被swapped。

优化Elasticsearch

1.配置操作系统文件描述符数
输入下面的命令进行查看：

$ ulimit -a

找到open files那行：

open files                      (-n) 1024

设置需要修改：

# vim /etc/security/limits.conf
es               -       nofile          65536

2.增大虚拟内存mmap count配置
备注：如果你以.deb或.rpm包安装，则默认不需要设置此项，因为已经被自动设置，查看方式为：
sysctl vm.max_map_count
如果是手动安装，以root身份执行如下命令：
sysctl vm.max_map_count=262144
并修改文件使设置永久生效：

# vim /etc/sysctl.conf

加一行：vm.max_map_count = 262144

# sysctl -p

改完后，重启elasticsearch。
如果需要需改JVM大小，请修改 jvm.options 配置文件。

启动Elasticsearch

[root@hadoop16 opt]# su - es
[es@hadoop16 ~]$ /opt/elasticsearch-5.6.3/bin/elasticsearch -d

检验bootstrap.mlockall: true是否生效：
curl http://172.16.206.16:9200/_nodes/process?pretty
关注这个这个请求返回数据中的mlockall的值，如果为false，则说明锁定内存失败，这可能由于运行elasticsearch的用户不具备这样的权限。解决该问题的方法是：
在运行elasticsearch之前，以root身份执行

ulimit -l unlimited

然后再次重启elasticsearch。并查看上面的请求中的mlockall的值是否为true。
【注意】:这时候需要在root执行ulimit -l unlimited的shell终端上su - es，然后重启elasticsearch。因为这是命令行设置的ulimit -l unlimited，只对当前会话生效。

# ulimit -l unlimited
# su - es
$ ps -ef|grep elasticsearch
$ kill -9 27189
$ /usr/local/elasticsearch/bin/elasticsearch -d
$ curl http://172.16.206.16:9200/_nodes/process?pretty

要想永久修改锁定内存大小无限制，需修改/etc/security/limits.conf，添加下面的内容，改完不需要重启系统，但是需要重新打开一个shell建立会话。

es - memlock -1

其中，es代表运行elasticsearch的用户，-表示同时设置了soft和hard，memlock代表设置的是”锁定内存”这个类型，-1(unlimited或者infinity)代表没限制。
【补充】: 要使 /etc/security/limits.conf 文件配置生效，必须要确保 pam_limits.so 文件被加入到相关的启动文件中，启动文件位于/etc/pam.d路径下，如该路径下sshd、login、system-auth等，一般是system-auth文件负责加载该so文件。只要加载了pam_limits.so，则配置就会生效，无需重启系统。

安装配置head插件

项目地址：https://github.com/mobz/elasticsearch-head

安装head插件

[root@hadoop16 opt]# git clone git://github.com/mobz/elasticsearch-head.git
[root@hadoop16 opt]# yum -y install epel-release
[root@hadoop16 opt]# yum install nodejs -y
[root@hadoop16 opt]# cd elasticsearch-head/
[root@hadoop16 elasticsearch-head]# npm install
npm: relocation error: npm: symbol SSL_set_cert_cb, version libssl.so.10 not defined in file libssl.so.10 with link time reference
[root@hadoop16 elasticsearch-head]# yum update openssl -y
[root@hadoop16 elasticsearch-head]# npm install 
# 如果下载速度太慢，可以如下方式安装
[root@hadoop16 elasticsearch-head]# npm install -gd express --registry=http://registry.npm.taobao.org
# 为了避免每次安装都需要--registry参数，可以使用如下命令进行永久设置：
[root@hadoop16 elasticsearch-head]# npm config set registry http://registry.npm.taobao.org 
[root@hadoop16 elasticsearch-head]# npm install grunt --save-dev
[root@hadoop16 elasticsearch-head]# npm install grunt-contrib-clean 
[root@hadoop16 elasticsearch-head]# npm install grunt-contrib-concat 
[root@hadoop16 elasticsearch-head]# npm install grunt-contrib-watch 
[root@hadoop16 elasticsearch-head]# npm install grunt-contrib-connect 
[root@hadoop16 elasticsearch-head]# npm install grunt-contrib-copy 
[root@hadoop16 elasticsearch-head]# npm install grunt-contrib-jasmine

奇怪的是最后一个没有安装成功，是因为该模块依赖了phantomjs。但是配置之后，依然无法安装。直接启动就可以了：

[root@hadoop16 elasticsearch-head]# grunt server

以上安装head插件的步骤太过复杂，我们可以将下载下来的elasticsearch-head包放入tomcat中，直接启动tomcat就可以访问head插件了。本实验环境下是采用将head插件放入tomcat中运行。

配置

1.修改Elasticsearch的配置文件elasticsearch.yml，增加跨域的配置(需要重启es才能生效)

http.cors.enabled: true
http.cors.allow-origin: "*"

2.编辑head/Gruntfile.js，修改服务器监听地址，增加hostname属性，将其值设置为*。

[root@hadoop16 elasticsearch-head]# pwd
/opt/apache-tomcat-8.5.23/webapps/elasticsearch-head
[root@hadoop16 elasticsearch-head]# vim Gruntfile.js

以下两种配置都是可以的：

# Type1
connect: {
        hostname: '*',
        server: {
                options: {
                        port: 9100,
                        base: '.',
                        keepalive: true
                }
        }
}

# Type 2
connect: {
        server: {
                options: {
                        hostname: '*',
                        port: 9100,
                        base: '.',
                        keepalive: true
                }
        }
}

3.编辑head/_site/app.js，修改head连接es的地址，将localhost修改为es的IP地址

[root@hadoop16 elasticsearch-head]# pwd
/opt/apache-tomcat-8.5.23/webapps/elasticsearch-head
[root@hadoop16 elasticsearch-head]# vim _site/app.js
# 原配置
this.base_uri = this.config.base_uri || this.prefs.get("app-base_uri") || "http://localhost:9200";
# 将localhost修改为ES的IP地址
this.base_uri = this.config.base_uri || this.prefs.get("app-base_uri") || "http://YOUR-ES-IP:9200";

启动

[root@hadoop16 elasticsearch-head]# cd /opt/apache-tomcat-8.5.23/
[root@hadoop16 apache-tomcat-8.5.23]# bin/startup.sh

Logstash

安装JDK8

Logstash是jruby研发的，需要跑在JVM上，所以需要安装JDK。

# tar zxf jdk-8u73-linux-x64.gz -C /usr/java/
# vim /etc/profile
export JAVA_HOME=/usr/java/jdk1.8.0_73
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
# source /etc/profile

安装配置Logstash

我这里选择二进制包安装。

[root@spark32 opt]# tar zxf logstash-5.6.3.tar.gz 
[root@spark32 opt]# cd logstash-5.6.3/

由于我这里选择是二进制安装，pattern文件位置在：

[root@spark32 logstash-5.6.3]# ls /opt/logstash-5.6.3/vendor/bundle/jruby/1.9/gems/logstash-patterns-core-4.1.2/patterns/grok-patterns

收集Nginx access日志

Logstash收集Nginx日志，输出到Elasticsearch中。

创建Nginx pattern

[root@spark32 ~]# vim /opt/logstash-5.6.3/vendor/bundle/jruby/1.9/gems/logstash-patterns-core-4.1.2/patterns/grok-patterns
# Nginx log
NGUSERNAME [a-zA-Z\.\@\-\+_%]+
NGUSER %{NGUSERNAME}
NGINXACCESS %{IPORHOST:clientip} - %{NOTSPACE:remote_user} \[%{HTTPDATE:timestamp}\] \"(?:%{WORD:verb} %{NOTSPACE:request}(?: HTTP/%{NUMBER:httpversion})?|%{DATA:rawrequest})\" %{NUMBER:response} (?:%{NUMBER:bytes}|-) %{QS:referrer} %{QS:agent} %{NOTSPACE:http_x_forwarded_for}

创建Logstash配置文件

[root@spark32 logstash-5.6.3]# cd /opt/logstash-5.6.3
[root@spark32 logstash-5.6.3]# mkdir conf
[root@spark32 logstash-5.6.3]# cd conf
[root@spark32 conf]# vim logstash_nginx.conf
input {
  file {
    path  =>  ["/usr/local/openresty/nginx/logs/host.access.log"]
    type  =>  "nginxlog"
    start_position  =>  "beginning"
  }
}

filter {
  grok {
    match => { "message" => "%{NGINXACCESS}" }
  }
}

output {
  elasticsearch {
    hosts    =>  ["172.16.206.16:9200"]
    action   =>  "index"
    index    =>  "logstash-%{+YYYY.MM.dd}"
  }
}

启动Logstash

[root@spark32 logstash-5.6.3]# bin/logstash -f /opt/logstash-5.6.3/conf/logstash_nginx.conf -t
Sending Logstash's logs to /opt/logstash-5.6.3/logs which is now configured via log4j2.properties
[2017-10-20T17:07:14,793][INFO ][logstash.modules.scaffold] Initializing module {:module_name=>"fb_apache", :directory=>"/opt/logstash-5.6.3/modules/fb_apache/configuration"}
[2017-10-20T17:07:14,797][INFO ][logstash.modules.scaffold] Initializing module {:module_name=>"netflow", :directory=>"/opt/logstash-5.6.3/modules/netflow/configuration"}
[2017-10-20T17:07:14,803][INFO ][logstash.setting.writabledirectory] Creating directory {:setting=>"path.queue", :path=>"/opt/logstash-5.6.3/data/queue"}
[2017-10-20T17:07:14,804][INFO ][logstash.setting.writabledirectory] Creating directory {:setting=>"path.dead_letter_queue", :path=>"/opt/logstash-5.6.3/data/dead_letter_queue"}
Configuration OK
[2017-10-20T17:07:14,999][INFO ][logstash.runner          ] Using config.test_and_exit mode. Config Validation Result: OK. Exiting Logstash
[root@spark32 logstash-5.6.3]# bin/logstash -f /opt/logstash-5.6.3/conf/logstash_nginx.conf &

记录收集到日志的文件位置在:

[root@spark32 file]# ls -a
.  ..  .sincedb_650663ba19529187a32a8b9dc99049f8
[root@spark32 file]# pwd
/opt/logstash-5.6.3/data/plugins/inputs/file

查看Elasticsearch索引：

[es@hadoop16 elasticsearch-5.6.3]$ curl -XGET '172.16.206.16:9200/_cat/indices'
yellow open logstash-2017.10.20 DVARGYZ2R9CfT-xyLrhyAQ 5 1 7 0 49.9kb 49.9kb

Kibana

安装配置kibana

[root@hadoop16 opt]# tar zxf kibana-5.6.3-linux-x86_64.tar.gz 
[root@hadoop16 opt]# ln -sv kibana-5.6.3-linux-x86_64 kibana
‘kibana’ -> ‘kibana-5.6.3-linux-x86_64’
[root@hadoop16 opt]# cd kibana
[root@hadoop16 kibana]# cd config/
[root@hadoop16 config]# vim kibana.yml 
server.host: "172.16.206.16"
elasticsearch.url: "http://172.16.206.16:9200"
[root@hadoop16 config]# cd ..
[root@hadoop16 kibana]# bin/kibana &

访问

浏览器输入：http://172.16.206.16:5601/

点击左侧菜单的Discover：

比如我用curl访问下nginx，然后去kibana中搜索。要稍微等一下，等日志进到Elasticsearch中。

[root@hadoop16 kibana]# curl http://172.16.206.32:808

总结：
1.Logstash 主要的特点就是它的灵活性，因为它有很多插件。然后它清楚的文档已经直白的配置格式让它可以再多种场景下应用。这样的良性循环让我们可以在网上找到很多资源，几乎可以处理任何问题。
2.Logstash不支持缓存，当然我们可以使用redis或者kafka作为中心缓冲池，架构如下：

3.Logstash是在jvm跑的，资源消耗比较大，太重量级了。后来作者又用golang写了一个功能较少但是资源消耗也小的轻量级的logstash-forwarder。后来这个人加入了elastic公司。因为elastic公司本身还收购了另一个开源项目packetbeat，而这个项目专门就是用golang写的，有整个团队，所以elastic公司干脆把logstash-forwarder的开发工作也合并到同一个golang团队来搞，于是新的项目就叫filebeat了。当然也可以自己写agent，用go、python都可以写。这样我们就可以使用轻量的日志传输工具，将数据从服务器端经由一个或多个 Logstash 中心服务器传输到 Elasticsearch。