当前位置: 首页 > news >正文

数据存储:一文掌握存储数据到ElasticSearch详解

文章目录

    • 一、Elasticsearch简介
    • 二、Python与Elasticsearch交互
      • 2.1 安装必要的库
      • 2.2 连接到Elasticsearch服务器
    • 三、数据准备
    • 四、创建索引(可选)
    • 五、存储数据
      • 5.1 单个文档索引
      • 5.2 批量索引
    • 六、查询数据
    • 七、更新和删除数据
      • 7.1 更新文档
      • 7.2 删除文档
    • 八、高级功能
      • 8.1 使用别名
      • 8.2 设置副本和分片
      • 8.3 使用Ingest Pipelines
    • 九、错误处理与调试
    • 十、注意事项
    • 十一、总结

要掌握使用Python将数据存储到Elasticsearch,需要了解Elasticsearch的基本概念、Python与Elasticsearch的交互方式以及实际操作步骤。以下是详细的指南:

一、Elasticsearch简介

Elasticsearch​ 是一个基于Lucene的分布式搜索和分析引擎,具有高扩展性、实时性和强大的全文搜索能力。它广泛应用于日志分析、全文搜索、数据可视化等领域。

二、Python与Elasticsearch交互

2.1 安装必要的库

使用pip安装elasticsearch客户端库:pip install elasticsearch

2.2 连接到Elasticsearch服务器

首先,导入Elasticsearch类并创建一个连接实例。

from elasticsearch import Elasticsearch# 连接到本地Elasticsearch服务器
es = Elasticsearch([{'host': 'localhost', 'port': 9200}])# 检查连接是否成功
if es.ping():print("连接成功")
else:print("无法连接到Elasticsearch")

如果Elasticsearch运行在远程服务器或需要认证,可以这样连接:

es = Elasticsearch(['https://your-remote-host:9200'],http_auth=('username', 'password')
)

三、数据准备

Elasticsearch以JSON文档的形式存储数据。准备要存储的数据,例如:

article = {"title": "我的第一篇文章","content": "这是我的第一篇文章的内容。","author": "张三","date_published": "2024-04-27"
}

四、创建索引(可选)

索引是Elasticsearch中存储数据的地方。可以预先定义索引的映射(Mapping)来指定字段类型和其他属性。

mapping = {"mappings": {"properties": {"title": {"type": "text"},"date_published": {"type": "date", "format": "yyyy-MM-dd"}}}
}# 创建名为'blog'的索引
es.indices.create(index='blog', body=mapping)
如果索引已存在,可以先检查:python
if not es.indices.exists(index='blog'):es.indices.create(index='blog', body=mapping)

五、存储数据

5.1 单个文档索引

使用index方法将单个文档存储到索引中。

res = es.index(index='blog', body=article, id=1)
print(res['result'])  # 输出 'created' 或 'updated'

5.2 批量索引

对于大量数据,使用bulk方法更高效。需要按照Elasticsearch的批量操作格式构建数据。

from elasticsearch.helpers import bulkactions = [{"_index": "blog","_id": 2,"_source": {"title": "第二篇文章","content": "这是第二篇文章的内容。","author": "李四","date_published": "2024-04-28"}},# 添加更多文档
]bulk(es, actions)

六、查询数据

  1. 简单查询
    使用search方法执行查询。
query = {"query": {"match_all": {}}
}res = es.search(index='blog', body=query)
for hit in res['hits']['hits']:print(hit['_source'])
  1. 条件查询
    例如,查询作者为“张三”的文章:
query = {"query": {"match": {"author": "张三"}}
}res = es.search(index='blog', body=query)
for hit in res['hits']['hits']:print(hit['_source'])

七、更新和删除数据

7.1 更新文档

使用update方法更新已有文档。

update_body = {"doc": {"title": "更新后的标题"}
}es.update(index='blog', id=1, body=update_body)

7.2 删除文档

使用delete方法删除指定文档。

es.delete(index='blog', id=1)

八、高级功能

8.1 使用别名

为索引创建别名,方便管理和切换。

es.indices.put_alias(index='blog_v1', name='blog')

8.2 设置副本和分片

在创建索引时设置副本数和分片数。

settings = {"settings": {"number_of_shards": 3,"number_of_replicas": 2}
}es.indices.create(index='blog', body=settings)

8.3 使用Ingest Pipelines

预处理数据,如日期解析、文本分析等。

pipeline = {"description": "解析日期字段","processors": [{"date": {"field": "date_published","target_field": "@timestamp","formats": ["yyyy-MM-dd"]}}]
}es.ingest.put_pipeline(id="date_pipeline", body=pipeline)# 使用pipeline索引文档
res = es.index(index='blog',body=article,pipeline="date_pipeline"
)

九、错误处理与调试

在实际应用中,处理可能出现的错误非常重要。例如,处理连接异常、索引失败等。

from elasticsearch import ElasticsearchExceptiontry:res = es.index(index='blog', body=article, id=1)print(res['result'])
except ElasticsearchException as e:print(f"发生错误: {e}")

十、注意事项

索引管理:在存储数据之前,不需要手动创建索引,Elasticsearch 会在第一次插入数据时自动创建索引。如果需要自定义索引的映射(mapping),可以在插入数据之前使用indices.create方法创建索引并指定映射。

数据类型:Elasticsearch 会根据插入的数据自动推断字段的数据类型,但为了避免类型问题,建议在创建索引时明确指定字段的映射。

错误处理:在实际应用中,需要对可能出现的网络错误、连接错误等进行适当的错误处理,以确保程序的健壮性。

十一、总结

通过以上步骤,你可以轻松地将数据存储到Elasticsearch中,并进行基本的CRUD操作。Elasticsearch是一个功能强大的搜索引擎,适用于各种场景,如日志分析、全文搜索、数据分析等。掌握这些基本操作后,你可以进一步探索Elasticsearch的高级功能,如聚合、复杂查询、索引管理等。

相关文章:

数据存储:一文掌握存储数据到ElasticSearch详解

文章目录 一、Elasticsearch简介二、Python与Elasticsearch交互2.1 安装必要的库2.2 连接到Elasticsearch服务器 三、数据准备四、创建索引(可选)五、存储数据5.1 单个文档索引5.2 批量索引 六、查询数据七、更新和删除数据7.1 更新文档7.2 删除文档 八、…...

Pytorch使用手册--将 PyTorch 模型导出为 ONNX(专题二十六)

注意 截至 PyTorch 2.1,ONNX 导出器有两个版本。 torch.onnx.dynamo_export 是最新的(仍处于测试阶段)导出器,基于 PyTorch 2.0 发布的 TorchDynamo 技术。 torch.onnx.export 基于 TorchScript 后端,自 PyTorch 1.2.0 起可用。 一、torch.onnx.dynamo_export使用 在 60 …...

Vue2+Element实现Excel文件上传下载预览

目录 一、需求背景 二、落地实现 1.文件上传 图片示例 HTML代码 业务代码 2.文件下载 图片示例 方式一:代码 方式二:代码 3.文件预览 图片示例 方式一:代码 方式二:代码 一、需求背景 在一个愉快的年后&#xff…...

物联网平台建设方案一

系统概述 构建物联网全域支撑服务能力,为实现学院涵盖物联网设备的全面感知、全域互联、全程智控、全域数字基底、全过程统筹管理奠定基础,为打造智能化提供坚实后台基石。 物联网平台向下接入各种传感器、终端和网关,向上通过开放的实施分…...

机器学习破局指南:零基础6个月系统训练计划

以下是为零基础学习者制定的「机器学习」系统学习计划(含学习路径资源推荐),分为6个阶段,建议学习周期4-6个月: 一、基础准备阶段(1-2周) 目标:掌握必要数学工具与编程基础 数学基础…...

mmdetection框架下使用yolov3训练Seaships数据集

之前复现的yolov3算法采用的是传统的coco数据集,这里我需要在新的数据集上跑,也就是船舶检测方向的SeaShips数据集,这里给出教程。 Seaships论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp&arnumber8438999 一、…...

unity学习52:UI的最基础组件 rect transform,锚点anchor,支点/轴心点 pivot

目录 1 image 图像:最简单的UI 1.1 图像的基本属性 1.2 rect transform 1.3 image的component: 精灵 → 图片 1.4 修改颜色color 1.5 修改材质 1.6 raycast target 1.7 maskable 可遮罩 1.8 imageType 1.9 native size 原生大小 2 rect transform 2.1 …...

STM32MP15-FSMP1A单片机移植Linux系统platform总线驱动

之前在该单片机下移植的Linux驱动是学习过程中,对Linux内核驱动的引导学习,接下来才是比较正常的驱动开发。 在Linux内核中,对于驱动的处理,一般会通过总线进行设备信息和设备驱动的匹配,来达到自动检测外设连接系统以…...

Java 常见的面试题(设计模式)

一、说一下你熟悉的设计模式? **设计模式:**是一套被反复使用的代码设计经验的总结(情境中一个问题经过证实的一个解决方案)。使用设计模式是为了可重用代码、让代码更容易被他人理解、保证代码可靠性。设计模式使人们可以更加简…...

机器学习3-聚类

1 聚类解决的问题 知识发现,发现事物之间的潜在关系异常值检测特征提取 数据压缩的例子新闻自动分组、用户分群、图像分割、像素压缩等等 2 与监督学习比较 监督学习是需要给定X、Y,X为特征,Y为标签,选择模型,学习&a…...

html中的css

css (cascading style sheets,串联样式表,也叫层叠样式表) css规范一般约定: 1.存放CSS样式文件的目录一般命名为style或css。 2.在项目初期,会把不同类别的样式放于不同的CSS文件,是为了CSS编…...

36. Spring Boot 2.1.3.RELEASE 中实现监控信息可视化并添加邮件报警功能

1. 创建 Spring Boot Admin Server 项目 1.1 添加依赖 在 pom.xml 中添加 Spring Boot Admin Server 和邮件相关依赖&#xff1a; <dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-w…...

Linux: 已占用接口

Linux: 已占用接口 1. netstat&#xff08;适用于旧系统&#xff09;1.1 书中对该命令的介绍 2. ss&#xff08;适用于新系统&#xff0c;替代 netstat&#xff09;3. lsof&#xff08;查看详细进程信息&#xff09;4. fuser&#xff08;快速查找占用端口的进程&#xff09;5. …...

Vscode的通义灵码占用空间过大问题【.lingma】

C盘空间发现没装几个软件但是空间占用太离谱了&#xff0c; 最后排查发现是一个.lingma的文件夹问题&#xff0c;这个文件夹用了我居然差不多一百G的空间&#xff0c; 点进去。删除掉ai训练时产生的dbc文件就好了&#xff0c; windowsI 打开系统设置&#xff0c;搜索存储&#…...

鸿蒙Next如何自定义标签页

前言 项目需求是展示标签&#xff0c;标签的个数不定&#xff0c;一行展示不行就自行换行。但是&#xff0c;使用鸿蒙原生的 Grid 后发现特别的难看。然后就想着自定义控件。找了官方文档&#xff0c;发现2个重要的实现方法&#xff0c;但是&#xff0c;官方的demo中讲的很少&…...

知识拓展:Python 接口实现方式对比:Protocol vs @implementer

Python 接口实现方式对比&#xff1a;Protocol vs implementer 1. 两种接口实现方式 1.1 Python Protocol&#xff08;结构化子类型&#xff09; from typing import Protocolclass DownloadHandlerProtocol(Protocol):def download_request(self, request: Request, spider:…...

开源程序wordpress在海外品牌推广中的重要作用

WordPress作为全球最流行的开源内容管理系统(CMS)&#xff0c;在全球网站搭建中占据超过40%的市场份额。其强大的功能、灵活性和易用性使其成为企业进行海外品牌推广的首选平台。以下是WordPress在海外品牌推广中的重要性分析&#xff1a; 1. 多语言支持与本地化 WordPress通…...

【Python爬虫(89)】爬虫“反水”:助力数字版权保护的逆向之旅

【Python爬虫】专栏简介&#xff1a;本专栏是 Python 爬虫领域的集大成之作&#xff0c;共 100 章节。从 Python 基础语法、爬虫入门知识讲起&#xff0c;深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑&#xff0c;覆盖网页、图片、音频等各类数据爬取&#xff…...

k8s面试题总结(五)

1.考虑一种情况&#xff0c;即公司希望通过维持最低成本来提高其效率和技术运营速度。您认为公司将如何实现这一目标&#xff1f; 公司可以通过构建 CI/CD 管道来实现 DevOps 方法&#xff0c;但是这里可能出现的一个问题是配置可能需要一段时间才能启动并运行。 因此&#x…...

文章精读篇——用于遥感小样本语义分割的可学习Prompt

题目&#xff1a;Learnable Prompt for Few-Shot Semantic Segmentation in Remote Sensing Domain 会议&#xff1a;CVPR 2024 Workshop 论文&#xff1a;10.48550/arXiv.2404.10307 相关竞赛&#xff1a;https://codalab.lisn.upsaclay.fr/competitions/17568 年份&#…...

阿里云ACP云计算备考笔记 (5)——弹性伸缩

目录 第一章 概述 第二章 弹性伸缩简介 1、弹性伸缩 2、垂直伸缩 3、优势 4、应用场景 ① 无规律的业务量波动 ② 有规律的业务量波动 ③ 无明显业务量波动 ④ 混合型业务 ⑤ 消息通知 ⑥ 生命周期挂钩 ⑦ 自定义方式 ⑧ 滚的升级 5、使用限制 第三章 主要定义 …...

visual studio 2022更改主题为深色

visual studio 2022更改主题为深色 点击visual studio 上方的 工具-> 选项 在选项窗口中&#xff0c;选择 环境 -> 常规 &#xff0c;将其中的颜色主题改成深色 点击确定&#xff0c;更改完成...

TRS收益互换:跨境资本流动的金融创新工具与系统化解决方案

一、TRS收益互换的本质与业务逻辑 &#xff08;一&#xff09;概念解析 TRS&#xff08;Total Return Swap&#xff09;收益互换是一种金融衍生工具&#xff0c;指交易双方约定在未来一定期限内&#xff0c;基于特定资产或指数的表现进行现金流交换的协议。其核心特征包括&am…...

【论文阅读28】-CNN-BiLSTM-Attention-(2024)

本文把滑坡位移序列拆开、筛优质因子&#xff0c;再用 CNN-BiLSTM-Attention 来动态预测每个子序列&#xff0c;最后重构出总位移&#xff0c;预测效果超越传统模型。 文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵&#xff08;S…...

R语言速释制剂QBD解决方案之三

本文是《Quality by Design for ANDAs: An Example for Immediate-Release Dosage Forms》第一个处方的R语言解决方案。 第一个处方研究评估原料药粒径分布、MCC/Lactose比例、崩解剂用量对制剂CQAs的影响。 第二处方研究用于理解颗粒外加硬脂酸镁和滑石粉对片剂质量和可生产…...

处理vxe-table 表尾数据是单独一个接口,表格tableData数据更新后,需要点击两下,表尾才是正确的

修改bug思路&#xff1a; 分别把 tabledata 和 表尾相关数据 console.log() 发现 更新数据先后顺序不对 settimeout延迟查询表格接口 ——测试可行 升级↑&#xff1a;async await 等接口返回后再开始下一个接口查询 ________________________________________________________…...

基于SpringBoot在线拍卖系统的设计和实现

摘 要 随着社会的发展&#xff0c;社会的各行各业都在利用信息化时代的优势。计算机的优势和普及使得各种信息系统的开发成为必需。 在线拍卖系统&#xff0c;主要的模块包括管理员&#xff1b;首页、个人中心、用户管理、商品类型管理、拍卖商品管理、历史竞拍管理、竞拍订单…...

莫兰迪高级灰总结计划简约商务通用PPT模版

莫兰迪高级灰总结计划简约商务通用PPT模版&#xff0c;莫兰迪调色板清新简约工作汇报PPT模版&#xff0c;莫兰迪时尚风极简设计PPT模版&#xff0c;大学生毕业论文答辩PPT模版&#xff0c;莫兰迪配色总结计划简约商务通用PPT模版&#xff0c;莫兰迪商务汇报PPT模版&#xff0c;…...

iview框架主题色的应用

1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题&#xff0c;无需引入&#xff0c;直接可…...

二维FDTD算法仿真

二维FDTD算法仿真&#xff0c;并带完全匹配层&#xff0c;输入波形为高斯波、平面波 FDTD_二维/FDTD.zip , 6075 FDTD_二维/FDTD_31.m , 1029 FDTD_二维/FDTD_32.m , 2806 FDTD_二维/FDTD_33.m , 3782 FDTD_二维/FDTD_34.m , 4182 FDTD_二维/FDTD_35.m , 4793...