当前位置：首页 > news >正文

22- estimater使用 (TensorFlow系列) (深度学习)

news 2026/5/12 3:48:46

知识要点

estimater 有点没理解透
数据集是泰坦尼克号人员幸存数据.
读取数据：train_df = pd.read_csv('./data/titanic/train.csv')
显示数据特征：train_df.info()
显示开头部分数据：train_df.head()
提取目标特征：y_train = train_df.pop('survived')
显示数据分布：train_df.describe()
柱状图显示：train_df.age.hist(bins = 20)
横向柱状图: train_df.sex.value_counts().plot(kind = 'barh')
pd.concat([train_df, y_train], axis = 1).groupby('sex').survived.mean().plot(kind = 'barh') # 根据幸存率查看各类型的均值
提取不同特征的统计: train_df.embark_town.value_counts()
提取特征: vocab = train_df[categorical_column].unique()
tf.feature_column.indicator_column(tf.feature_column.categorical_column_with_vocabulary_list(categorical_column, vocab)) # one_hot 编码
dataset批次设置: dataset = dataset.repeat(epochs).batch(batch_size)

1 导包

from tensorflow import keras
import tensorflow as tf
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

2 数据导入

train_df = pd.read_csv('./data/titanic/train.csv')
eval_df = pd.read_csv('./data/titanic/eval.csv')  # eval 评估   # 数据
print(train_df.info())
print(eval_df.info())

train_df.head()

3 目标值获取

y_train = train_df.pop('survived')
y_eval = eval_df.pop('survived')print(train_df.head())
print(eval_df.head())
print(y_train.head())
print(y_eval.head())

4 特征处理

train_df.describe()

# 观察年龄的数据分布
train_df.age.hist(bins = 20)

# 观察男女比例, 性别数量对比
train_df.sex.value_counts().plot(kind = 'barh')

# 仓位对比, 船舱类型
train_df['class'].value_counts().plot(kind = 'barh')

# 看港口人数
train_df['embark_town'].value_counts().plot(kind = 'barh')

pd.concat([train_df, y_train], axis = 1).groupby('sex').survived.mean().plot(kind = 'barh')

train_df.embark_town.value_counts()
'''Southampton    450
Cherbourg      123
Queenstown      53
unknown          1
Name: embark_town, dtype: int64'''

# 区分离散特征和连续特征
categorical_columns = ['sex', 'n_siblings_spouses', 'parch', 'class', 'deck', 'embark_town', 'alone']  # 离散特征
numeric_columns = ['age', 'fare']# 接受特征
feature_columns = []
for categorical_column in categorical_columns:vocab = train_df[categorical_column].unique()  # 取出特征值print(vocab)# print(tf.feature_column.categorical_column_with_vocabulary_list(categorical_column, vocab))  # 创建vocabulary 的API# 将离散特征转换为one_hot形式的编码num = tf.feature_column.indicator_column(tf.feature_column.categorical_column_with_vocabulary_list(categorical_column, vocab))feature_columns.append(num)

# 数据类型转换
for numeric_column in numeric_columns:feature_columns.append(tf.feature_column.numeric_column(numeric_column, dtype = tf.float32))

5 dataset

# 创建生成dataset的方法
def make_dataset(data_df, label_df, epochs = 10, shuffle = True, batch_size = 32):dataset = tf.data.Dataset.from_tensor_slices((dict(data_df), label_df))if shuffle:dataset = dataset.shuffle(10000)  # 打乱, 洗牌dataset = dataset.repeat(epochs).batch(batch_size)return dataset
train_dataset = make_dataset(train_df, y_train, batch_size = 5)

# baseline_model
import os
output_dir = 'baseline_model'
if not os.path.exists(output_dir):os.mkdir(output_dir)baseline_estimator = tf.compat.v1.estimator.BaselineClassifier(model_dir = output_dir, n_classes= 2)
# input_fn要求没有输入参数, 要求返回元组(x, y)或者可以返回(x, y)的dataset
baseline_estimator.train(input_fn = lambda : make_dataset(train_df, y_train, epochs = 100))

# baseline 是随机参数, 所以结果很差
baseline_estimator.evaluate(input_fn = lambda : make_dataset(eval_df, y_eval, epochs = 1,shuffle = False, batch_size = 20))

# linear_model
linear_output_dir = 'linear_model'
if not os.path.exists(linear_output_dir):os.mkdir(linear_output_dir)linear_estimator = tf.estimator.LinearClassifier(feature_columns = feature_columns,model_dir = linear_output_dir)
linear_estimator.train(input_fn = lambda :make_dataset(train_df, y_train, epochs = 100))

# baseline 是随机参数, 所以结果很差
linear_estimator.evaluate(input_fn = lambda : make_dataset(eval_df, y_eval, epochs = 1, shuffle = False,batch_size = 20))

dnn_output_dir = './dnn_model'
if not os.path.exists(dnn_output_dir):os.mkdir(dnn_output_dir)dnn_estimator = tf.estimator.DNNClassifier(model_dir = dnn_output_dir,  # 存储地址n_classes= 2,  # 二分类feature_columns = feature_columns, hidden_units = [128, 128],   # 隐藏层activation_fn = tf.nn.relu,  # 算法optimizer = 'Adam')  # 损失函数, 优化:optimizer
# dnn_estimator.train(input_fn = lambda : make_dataset(train_df, y_train, epochs = 100))dnn_estimator.train(input_fn = lambda :make_dataset(train_df, y_train, epochs = 100))

dnn_estimator.evaluate(input_fn = lambda : make_dataset(eval_df, y_eval, epochs = 1,shuffle = False, batch_size = 20))

22- estimater使用 (TensorFlow系列) (深度学习)

知识要点 estimater 有点没理解透数据集是泰坦尼克号人员幸存数据. 读取数据：train_df pd.read_csv(./data/titanic/train.csv) 显示数据特征：train_df.info() 显示开头部分数据：train_df.head() 提取目标特征：y_train tr…...

编程日记 2023/3/1 22:05:11

eKuiper 1.8.0 发布：零代码实现图像/视频流的实时 AI 推理

LF Edge eKuiper 是 Golang 实现的轻量级物联网边缘分析、流式处理开源软件，可以运行在各类资源受限的边缘设备上。eKuiper 的主要目标是在边缘端提供一个流媒体软件框架（类似于 Apache Flink ）。eKuiper 的规则引擎允许用户提供基于 SQL 或基…...

编程日记 2023/3/1 22:04:06

[Ansible系列]ansible JinJia2过滤器

目录一. JinJia2简介二. JinJia2模板使用 2.1 在play中使用jinjia2 2.2 template模块使用 2.3 jinjia2条件语句 2.4 jinjia2循环语句 2.5 jinjia2过滤器 2.5.1 default过滤器 2.5.2 字符串操作相关过滤器 2.5.3 数字操作相关过滤器 2.5.4 列表操作…...

编程日记 2023/3/1 22:02:57

Cookie、Session、Token区分

一开始接触这三个东西，肯定会被绕的不知道都是干什么的。1、为什么要有它们？首先，由于HTTP协议是无状态的，所谓的无状态，其实就是客户端每次想要与服务端通信，都必须重新与服务端连接，这就意味…...

编程日记 2023/3/1 22:01:53

回暖！“数”说城市烟火气背后

“人间烟火气，最抚凡人心”。在全国各地政策支持以及企业的积极生产运营下，经济、社会、生活各领域正加速回暖，“烟火气”在城市中升腾，信心和希望正在每个人心中燃起。发展新阶段，高效统筹经济发展和公共安全&#…...

编程日记 2023/3/1 22:00:47

JS逆向-百度翻译sign

前言本文是该专栏的第36篇，后面会持续分享python爬虫干货知识，记得关注。有粉丝留言，近期需要做个翻译功能，考虑到百度翻译语言语种比较全面，但是它的参数被逆向加密了，对于这种情况需要怎么处理呢？所以本文以它为例。废话不多说，跟着笔者直接往下看正文详细内容。…...

编程日记 2023/3/1 21:59:41

Fiddler抓包之Fiddler过滤器(Filters)调试

Filters：过滤器，帮助我们过滤请求。如果需要过滤掉与测试项目无关的抓包请求，更加精准的展现抓到的请求，而不是杂乱的一堆，那功能强大的 Filters 过滤器能帮到你。 2、Filters界面说明 fiddler中的过滤说明&#…...

编程日记 2023/3/1 21:58:35

【xib文件的加载过程 Objective-C语言】

一、xib文件的加载过程： 1.xib文件，是不是在这里啊： View这个文件夹里，然后呢，我们加载xib是怎么加载的呢，是不是在控制器里，通过我们这个类方法，加载xib： TestAppView *appView = [TestAppView appView]; + (instancetype)appView{NSBundle *rootBundle = [N…...

编程日记 2023/3/1 21:57:29

react setState学习记录

react setState学习记录1.总体看来2.setState的执行是异步的3.函数式setState1.总体看来 (1). setState(stateChange, [callback])------对象式的setState 1.stateChange为状态改变对象(该对象可以体现出状态的更改) 2.callback是可选的回调函数, 它在状态更新完毕、界面也更新…...

编程日记 2023/3/1 21:56:19

Docker容器cpu利用率问题

1.top原理 top 是读的/proc/stat文件比如cat /proc/PID/stat 进程的总Cpu时间processCpuTime utime stime cutime cstime，该值包括其所有线程的cpu时间某一进程Cpu使用率的计算计算方法： 1 采样两个足够短的时间间隔的cpu快照与进程快照&…...

编程日记 2023/3/1 21:55:13

FreeRTOS入门（06）：任务通知

文章目录目的基础说明使用演示作为二进制信号量作为计数信号量作为事件组作为队列或邮箱相关函数总结目的任务通知（TaskNotify）是RTOS中相对常用的用于任务间交互的功能，这篇文章将对相关内容做个介绍。本文代码测试环境见前面的文章&…...

编程日记 2023/3/1 21:54:06

谷歌seo做的外链怎样更快被semrush识别

本文主要分享做谷歌seo外链如何能让semrush工具快速的记录并能查询到。本文由光算创作，有可能会被剽窃和修改，我们佛系对待这种行为吧。谷歌seo做的外链怎样更快被semrush识别？ 答案是：多使用semrush搜索目标网站可加速爬虫抓…...

编程日记 2023/3/1 21:53:00

Java | IO 模式之 JavaBIO 应用

文章目录IO模型Java BIOJava NIOJava AIO（NIO.2）BIO、NIO、AIO的使用场景BIO1 BIO 基本介绍2 BIO 的工作机制3 BIO 传统通信实现3.1 业务需求3.2 实现思路3.3 代码实现4 BIO 模式下的多发和多收消息4.1 业务需求4.2 实现思路4.3 代码实现5 BIO 模式下接收…...

编程日记 2023/3/1 21:51:51

C语言学习及复习笔记-【18】C内存管理

18 C内存管理 C 语言为内存的分配和管理提供了几个函数。这些函数可以在 <stdlib.h> 头文件中找到。序号函数和描述1void *calloc(int num, int size); 在内存中动态地分配 num 个长度为 size 的连续空间，并将每一个字节都初始化为 0。所以它的结果是分配了…...

编程日记 2023/3/1 21:50:44

linux--多线程(一)

文章目录Linux线程的概念线程的优点线程的缺点线程异常线程的控制创建线程线程ID以及进程地址空间终止线程线程等待线程分离线程互斥进程线程间的互斥相关概念互斥量mutex有线程安全问题的售票系统查看ticket--部分的汇编代码互斥量的接口互斥量实现原理探究可重入和线程安全常…...

编程日记 2023/3/1 21:49:36

计算机组成原理(2.1)--系统总线

目录一、总线基本知识 1.总线 2.总线的信息传送 3.分散连接图 4.注二、总线结构的计算机举例 1.面向 CPU 的双总线结构框图 2.单总线结构框图 3.以存储器为中心的双总线结构框图三、总线的分类 1.片内总线 2.系统总线 （板级总线或板间总线&#…...

编程日记 2023/3/1 21:48:31

C语言数组【详解】

数组1. 一维数组的创建和初始化1.1 数组的创建1.2 数组的初始化1.3 一维数组的使用1.4 一维数组在内存中的存储2. 二维数组的创建和初始化2.1 二维数组的创建2.2 二维数组的初始化2.3 二维数组的使用2.4 二维数组在内存中的存储3. 数组越界4. 数组作为函数参数4.1 冒泡排序函数…...

编程日记 2023/3/1 21:47:27

并行与体系结构会议

A类会议 USENIX ATC 2022: USENIX Annual Technical Conference（录用率21%） CCF a, CORE a, QUALIS a1 会议截稿日期：2022-01-06 会议通知日期：2022-04-29 会议日期：2022-07-11 会议地点：Carlsbad, Califo…...

编程日记 2023/3/1 21:46:22

【巨人的肩膀】JAVA面试总结（三）

1、💪 目录1、💪1、说说List, Set, Queue, Map 四者的区别1.1、List1.2、Set1.3、Map2、如何选用集合4、线程安全的集合有哪些？线程不安全的呢？3、为什么需要使用集合4、comparable和Comparator的区别5、无序性和不可重复性的含义…...

编程日记 2023/3/1 21:45:15

嵌入式 STM32 SHT31温湿度传感器

目录简介 1、原理图 2、时序说明数据传输起始信号结束信号 3、SHT31读写数据 SHT31指令集读数据温湿度转换 4、温湿度转换应用 sht3x初始化读取温湿度简介什么是SHT31？ 一主机多从机--通过寻址的方式--每个从机都有唯一的地址&…...

编程日记 2023/3/1 21:44:10

DRAM计算内存的电源传输网络优化策略

1. DRAM计算内存中的电源传输网络挑战与优化在数据密集型应用爆炸式增长的今天，传统冯诺依曼架构面临严峻的"内存墙"挑战。计算内存（Compute-in-Memory, CIM）技术通过在内存内部执行计算任务，从根本上改变了数据处理范式…...

编程新知 2026/5/12 2:57:22

StreamCap：让直播录制变得如此简单的跨平台自动录制工具

StreamCap：让直播录制变得如此简单的跨平台自动录制工具【免费下载链接】StreamCap Multi-Platform Live Stream Automatic Recording Tool | 多平台直播流自动录制客户端基于FFmpeg 支持监控/定时/转码项目地址: https://gitcode.com/gh_mirrors/st/StreamC…...

编程新知 2026/5/12 2:07:15

思考的快与慢：模型的“即时回答”与“深思熟虑”

上一篇文章我们学会了如何“使唤”模型：同步、异步、批量、流式，一通操作下来，你已经是调接口的好手了。但很快你可能会发现一个有意思的现象——同样是回答问题，有时候模型快到几乎零秒响应，有时候却要停顿好几秒甚至…...

编程新知 2026/5/12 1:44:08

终极指南：如何用FanControl实现Windows系统风扇智能温控与静音优化

终极指南：如何用FanControl实现Windows系统风扇智能温控与静音优化【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub…...

编程新知 2026/5/12 1:27:43

阴阳师御魂自动刷脚本：5分钟快速上手的智能挂机指南

阴阳师御魂自动刷脚本：5分钟快速上手的智能挂机指南【免费下载链接】yysScript 阴阳师脚本支持御魂副本双开项目地址: https://gitcode.com/gh_mirrors/yy/yysScript 还在为重复刷御魂副本而感到疲惫吗？yysScript智能挂机脚本是专为《阴阳师》…...

编程新知 2026/5/12 0:20:46

ai圈重大新闻xAI 被解散、并入 SpaceX 并改为 SpaceXAI 深度解读

xAI 被解散、并入 SpaceX 并改为 SpaceXAI，本质是：技术路线失败＋团队彻底崩塌＋巨额亏损难持续＋商业变现无力＋资本与IPO压力＋马斯克战略转向，六重因素叠加下的“止损式重组”&#xf…...

编程新知 2026/5/11 23:49:51

大核小核架构的演进：从DVFS到异构计算，应对先进制程挑战

1. 项目概述：大核小核架构的十字路口在移动计算和嵌入式领域，ARM的“大核小核”（big.LITTLE）架构在过去十年里几乎成了高性能低功耗的代名词。从智能手机到平板电脑，再到如今的物联网边缘设备，这套将高性能…...

编程新知 2026/5/11 22:49:48

LeagueAkari英雄联盟自动化工具终极使用指南：本地化智能助手全面解析

LeagueAkari英雄联盟自动化工具终极使用指南：本地化智能助手全面解析【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 你是否曾为英…...

编程新知 2026/5/11 21:24:01

别再傻傻分不清！Ansys Workbench三大建模界面（SCDM/DM/Mechanical）保姆级对比与选用指南

Ansys Workbench三大建模界面深度解析：如何根据项目需求选择最佳工具在工程仿真领域，Ansys Workbench作为行业标杆软件套件，其内置的三大建模界面——SpaceClaim（SCDM）、DesignModeler（DM）和Me…...

编程新知 2026/5/11 21:12:40

面试过程中被问懵

高并发内存池中基数数相比哈希表差别，优势在哪相比传统的哈希表（Hash Table），基数树在内存管理这种特定场景下具有压倒性的优势。哈希表（哈希表）逻辑：通过哈希函数将转换为数组下标。PageID锁定…...

编程新知 2026/5/11 20:38:01