当前位置：首页 > news >正文

在Ubuntu 14.04上安装和配置Elasticsearch的方法

news 2026/5/15 23:03:10

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。

简介

Elasticsearch 是一个用于实时分布式搜索和数据分析的平台。它因易用性、强大功能和可扩展性而备受欢迎。

Elasticsearch 支持 RESTful 操作。这意味着您可以使用 HTTP 方法（GET、POST、PUT、DELETE 等）结合 HTTP URI（/collection/entry）来操作您的数据。直观的 RESTful 方法既方便开发人员又用户友好，这也是 Elasticsearch 受欢迎的原因之一。

Elasticsearch 是一款免费且开源的软件，由 Elastic 公司提供支持。这种组合使其适用于从个人测试到企业集成的各种场景。

本文将介绍 Elasticsearch，并向您展示如何安装、配置和开始使用它。

先决条件

在按照本教程操作之前，请确保您完成以下先决条件：

一个 Ubuntu 14.04 Droplet
一个非 root sudo 用户。详情请参阅《使用 Ubuntu 14.04 进行初始服务器设置》。

除非另有说明，本教程中需要 root 权限的所有命令都应该以具有 sudo 权限的非 root 用户身份运行。

假设

本教程假设您的服务器正在使用类似于此处描述的 VPN：《如何使用 Ansible 和 Tinc VPN 保护您的服务器基础设施》。这将为服务器提供私有网络功能，无论其物理网络如何。

如果您正在使用共享私有网络，比如 DigitalOcean 私有网络，则此安全功能将已经对同一团队或同一区域帐户中的服务器启用。这在使用 Elasticsearch 时尤为重要，因为它的 HTTP 接口中没有内置安全性。

步骤 1 — 安装 Java

首先，您需要在 Droplet 上安装 Java 运行环境（JRE），因为 Elasticsearch 是用 Java 编写的。Elasticsearch 需要 Java 7 或更高版本。Elasticsearch 推荐使用 Oracle JDK 版本 1.8.0_73，但本地 Ubuntu OpenJDK JRE 包也可以正常工作。

本步骤将向您展示如何安装这两个版本，以便您可以决定哪个更适合您。

安装 OpenJDK

本地 Ubuntu OpenJDK JRE 包是免费的，得到良好支持，并通过 Ubuntu APT 安装管理器自动管理。

在使用 APT 安装 OpenJDK 之前，请运行以下命令更新您的 Ubuntu Droplet 上可用的安装包列表：

sudo apt-get update

之后，您可以使用以下命令安装 OpenJDK：

sudo apt-get install openjdk-7-jre

要验证您的 JRE 是否已安装并可用，请运行以下命令：

java -version

结果应如下所示：

[secondary_label Output of java -version]
java version "1.7.0_79"
OpenJDK Runtime Environment (IcedTea 2.5.6) (7u79-2.5.6-0ubuntu1.14.04.1)
OpenJDK 64-Bit Server VM (build 24.79-b02, mixed mode)

安装 Java 8

当您在使用 Elasticsearch 时，开始寻找更好的 Java 性能和兼容性时，您可能选择安装 Oracle 的专有 Java（Oracle JDK 8）。

将 Oracle Java PPA 添加到 apt：

sudo add-apt-repository -y ppa:webupd8team/java

更新您的 apt 包数据库：

sudo apt-get update

使用以下命令安装 Oracle Java 8 的最新稳定版本（并接受弹出的许可协议）：

sudo apt-get -y install oracle-java8-installer

最后，验证它是否已安装：

java -version

步骤 2 — 下载并安装 Elasticsearch

Elasticsearch 可以直接从 elastic.co 以 zip、tar.gz、deb 或 rpm 包的形式下载。对于 Ubuntu，最好使用 deb（Debian）包，它将安装运行 Elasticsearch 所需的一切。

在撰写本文时，最新的 Elasticsearch 版本是 1.7.2。使用以下命令在您选择的目录中下载它：

wget https://download.elastic.co/elasticsearch/elasticsearch/elasticsearch-1.7.2.deb

然后，以通常的 Ubuntu 方式使用 dpkg 命令安装它，如下所示：

sudo dpkg -i elasticsearch-1.7.2.deb

这将导致 Elasticsearch 安装在 /usr/share/elasticsearch/，其配置文件放置在 /etc/elasticsearch，并将其 init 脚本添加到 /etc/init.d/elasticsearch。

为确保 Elasticsearch 随 Droplet 自动启动和停止，使用以下命令将其 init 脚本添加到默认运行级别：

sudo update-rc.d elasticsearch defaults

步骤 3 — 配置 Elastic

现在 Elasticsearch 及其 Java 依赖已经安装完成，是时候配置 Elasticsearch 了。

Elasticsearch 的配置文件位于 /etc/elasticsearch 目录下。主要有两个文件：

elasticsearch.yml — 配置 Elasticsearch 服务器设置。除了日志设置之外，几乎所有选项都存储在这里，这也是我们主要关注的文件。
logging.yml — 提供日志配置。一开始，您无需编辑此文件。您可以保留所有默认的日志选项。默认情况下，您可以在 /var/log/elasticsearch 目录下找到生成的日志。

在任何 Elasticsearch 服务器上自定义的第一个变量是 elasticsearch.yml 中的 node.name 和 cluster.name。正如它们的名称所示，node.name 指定服务器（节点）的名称，以及后者所关联的集群。

如果您不自定义这些变量，node.name 将根据 Droplet 主机名自动分配。cluster.name 将自动设置为默认集群的名称。

cluster.name 值被 Elasticsearch 的自动发现功能用于自动发现和关联 Elasticsearch 节点到一个集群。因此，如果您不更改默认值，您可能会在集群中发现不需要的节点，这些节点在同一网络上被找到。

要开始编辑主要的 elasticsearch.yml 配置文件：

sudo nano /etc/elasticsearch/elasticsearch.yml

删除 node.name 和 cluster.name 行开头的 # 字符以取消注释，然后更改它们的值。您在 /etc/elasticsearch/elasticsearch.yml 文件中的第一个配置更改应如下所示：

...
node.name: "My First Node"
cluster.name: mycluster1
...

另一个重要的设置是服务器的角色，可以是 “master” 或 “slave”。“Masters” 负责集群的健康和稳定性。在具有大量集群节点的大型部署中，建议有多个专用 “master”。通常，专用 “master” 不会存储数据或创建索引。因此，不应该有被过载的机会，从而危及集群的健康。

“Slaves” 用作可以加载数据任务的 “工作马”。即使 “slave” 节点被过载，只要有其他节点来承担额外负载，集群健康就不应受到严重影响。

确定服务器角色的设置称为 node.master。如果您只有一个 Elasticsearch 节点，应该将此选项保持注释状态，以保持其默认值 true — 即唯一节点也应该是主节点。或者，如果您希望将节点配置为从节点，删除 node.master 行开头的 # 字符，并将值更改为 false：

...
node.master: false
...

另一个重要的配置选项是 node.data，它确定节点是否存储数据。在大多数情况下，此选项应保留其默认值（true），但有两种情况下您可能希望不在节点上存储数据。一种情况是当节点是专用 “master” 时，正如我们已经提到的。另一种情况是当节点仅用于从其他节点获取数据和聚合结果时。在后一种情况下，节点将充当 “搜索负载均衡器”。

同样，如果您只有一个 Elasticsearch 节点，应该将此设置保持注释状态，以保持默认值 true。否则，要禁用本地存储数据，请取消注释以下行并将值更改为 false：

...
node.data: false
...

另外两个重要选项是 index.number_of_shards 和 index.number_of_replicas。前者确定索引将被分成多少片段（shards）。后者定义将在集群中分布的副本数量。拥有更多的分片可以提高索引性能，而拥有更多的副本可以加快搜索速度。

假设您仍在单个节点上探索和测试 Elasticsearch，最好从只有一个分片和没有副本开始。因此，它们的值应设置为以下内容（确保删除行开头的 #）：

...
index.number_of_shards: 1
index.number_of_replicas: 0
...

您可能有兴趣更改的另一个最终设置是 path.data，它确定数据存储的路径。默认路径是 /var/lib/elasticsearch。在生产环境中，建议为存储 Elasticsearch 数据使用专用分区和挂载点。在最佳情况下，这个专用分区将是一个单独的存储介质，它将提供更好的性能和数据隔离。您可以通过取消注释 path.data 行并更改其值来指定不同的 path.data 路径：

...
path.data: /media/different_media
...

完成所有更改后，请保存并退出文件。现在，您可以使用以下命令首次启动 Elasticsearch：

sudo service elasticsearch start

请至少等待 10 秒，以便 Elasticsearch 完全启动，然后才能使用它。否则，您可能会收到无法连接的错误。

第四步 —— 安全设置 Elastic

Elasticsearch 没有内置的安全机制，可以被访问 HTTP API 的任何人控制。本节不是一个全面的 Elasticsearch 安全设置指南。请采取必要的措施防止未经授权的访问以及保护其运行的服务器/虚拟机。考虑使用 iptables 进一步保护您的系统。

第一个安全调整是防止公共访问。要移除公共访问，请编辑文件 elasticsearch.yml：

sudo nano /etc/elasticsearch/elasticsearch.yml

找到包含 network.bind_host 的行，通过删除行首的 # 字符来取消注释，并将值更改为 localhost，使其如下所示：

...
network.bind_host: localhost
...

另外，为了增强安全性，您可以禁用用于评估自定义表达式的动态脚本。通过构造自定义恶意表达式，攻击者可能会危害您的环境。

要禁用自定义表达式，请在 /etc/elasticsearch/elasticsearch.yml 文件末尾添加以下行：

...script.disable_dynamic: true
...

第五步 —— 测试

到目前为止，Elasticsearch 应该在 9200 端口上运行。您可以使用 curl 这个命令行客户端 URL 传输工具进行测试，执行一个简单的 GET 请求，如下所示：

curl -X GET 'http://localhost:9200'

您应该会看到以下响应：

[secondary_label Output of curl]
{"status" : 200,"name" : "Harry Leland","cluster_name" : "elasticsearch","version" : {"number" : "1.7.2","build_hash" : "e43676b1385b8125d647f593f7202acbd816e8ec","build_timestamp" : "2015-09-14T09:49:53Z","build_snapshot" : false,"lucene_version" : "4.10.4"},"tagline" : "You Know, for Search"
}

如果您看到类似上面的响应，那么 Elasticsearch 正常工作。如果没有，请确保您已正确遵循安装说明，并且已允许 Elasticsearch 充分启动的时间。

第六步 —— 使用 Elasticsearch

要开始使用 Elasticsearch，让我们首先添加一些数据。如前所述，Elasticsearch 使用 RESTful API，响应通常包括 CRUD 命令：创建、读取、更新和删除。我们将再次使用 curl 进行操作。

您可以使用以下命令添加第一条数据：

curl -X POST 'http://localhost:9200/tutorial/helloworld/1' -d '{ "message": "Hello World!" }'

您应该会看到以下响应：

{"_index":"tutorial","_type":"helloworld","_id":"1","_version":1,"created":true}

通过 curl，我们向 Elasticseach 服务器发送了一个 HTTP POST 请求。请求的 URI 是 /tutorial/helloworld/1。理解这里的参数很重要：

tutorial 是 Elasticsearch 中数据的索引。
helloworld 是类型。
1 是上述索引和类型下我们条目的 id。

您可以使用以下 HTTP GET 请求检索此第一条数据：

curl -X GET 'http://localhost:9200/tutorial/helloworld/1'

结果应该如下所示：

{"_index":"tutorial","_type":"helloworld","_id":"1","_version":1,"found":true,"_source":{ "message": "Hello World!" }}

要修改现有条目，您可以使用以下 HTTP PUT 请求：

curl -X PUT 'localhost:9200/tutorial/helloworld/1?pretty' -d '
{"message": "Hello People!"
}'

Elasticsearch 应该会确认成功修改，如下所示：

{"_index" : "tutorial","_type" : "helloworld","_id" : "1","_version" : 2,"created" : false
}

在上面的示例中，我们将第一条目的 message 修改为 “Hello People!”。因此，版本号已自动增加为 2。

您可能已经注意到上述请求中的额外参数 pretty。它启用了人类可读的格式，因此您可以将每个数据字段写在新的一行上。在检索数据时，您也可以使结果更美观，如下所示：

curl -X GET 'http://localhost:9200/tutorial/helloworld/1?pretty'

现在，响应将以更好的格式呈现：

{"_index" : "tutorial","_type" : "helloworld","_id" : "1","_version" : 2,"found" : true,"_source":{ "message": "Hello World!" }
}

到目前为止，我们已经向 Elasticsearch 添加了数据并进行了查询。要了解其他操作，请查看 API 文档。

结论

这就是安装、配置和开始使用Elasticsearch的简单过程。一旦你对手动查询有了足够的了解，下一个任务将是从你的应用程序开始使用它。

简介