当前位置: 首页 > news >正文

万万没想到,我用文心一言开发了一个儿童小玩具

最近关注到一年一度的百度世界大会今年将于10月17日在北京首钢园举办,本期大会的主题是“生成未来(PROMPT THE WORLD)”。会上,李彦宏会做主题为「手把手教你做AI原生应用」的演讲,比较期待 Robin 会怎么展示。据说,大会当天百度还会发布文心4.0版本,估计要炸一波街。

在这里插入图片描述

作为一名对人工智能技术深感兴趣的开发者,我相信这次大会将带来各种新颖的想法和独特的观点,激发参会者们探索AI技术更广阔应用场景的热情。也很期待从李彦宏和其他嘉宾的分享中汲取灵感并拓宽视野,进一步认识到AI技术带给我们的巨大机遇。

想法由来

文心大模型覆盖了很多AI应用场景,有NLP大模型、CV大模型、跨模态大模型等等。今年3月,百度发布了大模型服务平台文心千帆,纳入管理包括文心大模型在内的国内外主流大模型,对于除文心大模型之外的第三方大模型,千帆平台不只是简单的接入,还提供中文增强、性能增强、上下文增强等能力。比如,原来要用英文对话效果才好的 Llama2 等国外大模型,现在用中文也一样好。

看到文心提供的强大功能,感觉不做点什么都觉得对不起它。想到最近工作比较忙,没时间陪伴自己的女儿,她现在正是需要益智小游戏的年龄段,于是就有了开发一款适用于婴幼儿的【看图语音识别】小游戏的创意。

实现流程构想

  • 程序弹出小动物的图片;
  • 孩子发出“小动物名字”的语音;
  • 程序识别语音并告知孩子是否回答正确;
  • 正确则切换下一张图片,错误则告知孩子请重新作答;

小游戏应用实现流程

准备工作:SDK安装及使用流程

(1)安装SDK

pip install qianfan

这里需要注意:目前支持 Python >= 3.7版本。且调用SDK前,需确保已完成SDK安装。

(2)调用SDK(具体操作步骤)

  • 步骤一,在百度千帆大模型平台创建应用,获取应用API Key(AK) 和 Secret Key(SK)。
  • 步骤二,初始化AK 和 SK。
  • 步骤三,调用SDK。

第一步,随机展示动物图片

我们先搜集几张不同的动物图片,然后用动物的名字来命名,将它们放在程序的固定路径下。

from PIL import Image
import os
import random# 指定图片文件夹路径
img_folder = "path/to/image/folder"# 获取图片列表
img_list = os.listdir(img_folder)# 从列表中随机选择一张图片
img_name = random.choice(img_list)# 打开并显示选中的图片
img_path = os.path.join(img_folder, img_name)
img = Image.open(img_path)
img.show()

在这里插入图片描述

第二步,完成图像识别

首先通过应用的API_KEY和SECRET_KEY 获取应用的 access_token。

def get_access_token():# 使用 AK,SK 生成鉴权签名(Access Token)# return: access_token,或是None(如果错误)url = "https://aip.baidubce.com/oauth/2.0/token"params = {"grant_type": "client_credentials", "client_id": API_KEY, "client_secret": SECRET_KEY}return str(requests.post(url, params=params).json().get("access_token"))

然后根据图片获取到对应的base64编码:

def get_file_content_as_base64(path, urlencoded=False):# 获取文件base64编码# :param path: 文件路径# :param urlencoded: 是否对结果进行urlencoded# :return: base64编码信息with open(path, "rb") as f:content = base64.b64encode(f.read()).decode("utf8")if urlencoded:content = urllib.parse.quote_plus(content)return content

最后调用图片识别接口,获取图片识别的动物名称

def get_result():url = "https://aip.baidubce.com/rest/2.0/image-classify/v1/animal?access_token=" + get_access_token()# 获取图片的base64编码payload= get_file_content_as_base64("C://path//to//image//folder//斑马.jpg",True)headers = {'Content-Type': 'application/x-www-form-urlencoded','Accept': 'application/json'}response = requests.request("POST", url, headers=headers, data=payload)print(response.text)

打印结果如下,返回结果对应不同score,我们取score最高的作为返回结果即“斑马”。

{"result": [{"score": "0.948385","name": "斑马"},{"score": "0.0410539","name": "平原斑马"},{"score": "0.00519192","name": "细纹斑马"},{"score": "0.000554136","name": "斑马驴"},{"score": "0.000273289","name": "斑驴"},{"score": "0.000155838","name": "孟加拉虎"}],"log_id": "1710925525288202877"
}

第三步,识别小朋友的语音

在这里插入图片描述
在孩子看到图片之后用语音的方式说出动物的名字,此时我们需要将孩子的语音文件进行 base64 转码处理。

def get_file_content_as_base64(path, urlencoded=False):# 获取文件base64编码# :param path: 文件路径# :param urlencoded: 是否对结果进行urlencoded# :return: base64编码信息with open(path, "rb") as f:content = base64.b64encode(f.read()).decode("utf8")if urlencoded:content = urllib.parse.quote_plus(content)return content

然后需要将该语音文件转化为文本:

def get_text():url = "https://vop.baidu.com/server_api"speech = get_file_content_as_base64("C://path//to//image//folder//banma.m4a",False)payload = json.dumps({"format": "pcm","rate": 16000,"channel": 1,"cuid": "0kGgQCWS6F1A7lYR5sBQCVT3Id4TsEY4","token": get_access_token(),"speech": speech,"len": 36414})headers = {'Content-Type': 'application/json','Accept': 'application/json'}response = requests.request("POST", url, headers=headers, data=payload)print(response.text)

打印结果如下,我们根据返回的结果将 result 中的数据取出来,即“斑马”。

{"corpus_no": "7287496064443398818","err_msg": "success.","err_no": 0,"result": ["斑马"],"sn": "928281938221696752399"
}

最后就需要我们把“通过图像识别出来的文字”和“通过语音识别出来的文字”进行比对,如果一致就切换下一张图片,不一致则告知孩子请重新作答。

到这儿,我的创意就全部实现了,虽然只是简单的软件层面的实现,但是我希望以后儿童玩具厂商可以把它来最终落地,毕竟这种AI原生应用小玩具肯定会广受儿童喜欢的。它到底是“斑马”还是“马”呢?让程序告诉小朋友吧。

最后多啰嗦几句,很期待在百度世界大会上看到更多的AI原生应用,包括智能家居、智能医疗、智能零售、智能交通等领域的创新应用。这些应用将有望在未来实现更好的人机交互、智能化的自动化流程、个性化的服务和体验,推动产业升级和社会进步。同时,我们也期待看到更多企业和开发者加入到AI原生应用的创新行列中,共同推动人工智能技术向前发展。

相关文章:

万万没想到,我用文心一言开发了一个儿童小玩具

最近关注到一年一度的百度世界大会今年将于10月17日在北京首钢园举办,本期大会的主题是“生成未来(PROMPT THE WORLD)”。会上,李彦宏会做主题为「手把手教你做AI原生应用」的演讲,比较期待 Robin 会怎么展示。据说&am…...

SQL sever中的视图

目录 一、视图概述: 二、视图好处 三、创建视图 法一: 法二: 四、查看视图信息 五、视图插入数据 六、视图修改数据 七、视图删除数据 八、删除视图 法一: 法二: 一、视图概述: 视图是一种常用…...

如何理解数据序列化

数据序列化是一个将数据结构或对象状态转换为一个可以存储或传输的格式的过程。序列化后的数据可以存放在文件中、数据库中或通过网络传输。反序列化是将序列化数据恢复为原始数据结构或对象的过程。 数据序列化格式可以理解为一种约定或规范,它定义了如何表示和编码数据以便…...

07_项目开发_用户信息列表

1 用户信息列表内容展示 用户信息列表,主要完成用户信息的添加、删除、修改和查找功能。 用户列表页面效果: 单击“添加用户”按钮,进入添加用户页面。 填写正确的信息后,单击“添加用户”按钮,会直接跳转到用户列表…...

flutter ios打包

在 Flutter 中打包 iOS 应用程序分为两步: 生成 iOS 项目文件 在 Flutter 项目根目录下执行以下命令: flutter create --ios-language swift .这个命令会在当前目录下生成 iOS 项目文件,并且默认使用 Swift 语言编写。 使用 Xcode 打包 …...

【无公网IP内网穿透】基于NATAPP搭建Web站点

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是Java方文山,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的专栏《.内网穿透》。🎯🎯 &#…...

智能AI创作系统ChatGPT详细搭建教程/AI绘画系统/支持GPT联网提问/支持Prompt应用/支持国内AI模型

一、智能AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统,支持OpenAI GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建部署AI创作…...

【技能树笔记】网络篇——练习题解析(五)

目录 前言 一、应用层的作用 1.1 应用层的作用 二、HTTP协议 2.1 HTTP协议 三、FTP协议 3.1 FTP协议 四、DNS协议 4.1 DNS协议 五、DHCP协议 5.1 DHCP协议 六、邮件协议 6.1 电子邮件协议 总结 前言 本篇文章给出了CSDN网络技能树中的部分练习题解析&#xff0c…...

Java集合(二)--- 集合元素的遍历操作Iterator以及foreach

文章目录 一、使用迭代器Iterator接口1.说明2.代码 二、foreach循环,用于遍历集合、数组 提示:以下是本篇文章正文内容,下面案例可供参考 一、使用迭代器Iterator接口 1.说明 1.内部的方法: hasNext() 和 next() 2.集合对象每次调iterator…...

数据结构:排序- 插入排序(插入排序and希尔排序) , 选择排序(选择排序and堆排序) , 交换排序(冒泡排序and快速排序) , 归并排序

目录 前言 复杂度总结 预备代码 插入排序 1.直接插入排序: 时间复杂度O(N^2) \空间复杂度O(1) 复杂度(空间/时间): 2.希尔排序: 时间复杂度 O(N^1.3~ N^2) 空间复杂度为O(1) 复杂度(空间/时间&#…...

IOT 围炉札记

文章目录 一、蓝牙二、PAN1080三、IOT OS四、通讯 一、蓝牙 树莓派上的蓝牙协议 BlueZ 官网 BlueZ 官方 Linux Bluetooth 栈 oschina 二、PAN1080 pan1080 文档 三、IOT OS Zephyr 官网 Zephyr oschina Zephyr github Zephyr docs 第1章 Zephyr简介 第2章 Zephyr 编译环…...

小谈设计模式(24)—命令模式

小谈设计模式(24)—命令模式 专栏介绍专栏地址专栏介绍 命令模式角色分析命令(Command)具体命令(ConcreteCommand)接收者(Receiver)调用者(Invoker)客户端&am…...

9.HTML

文章目录 1.HTML 常见标签1.1注释标签1.2标题标签: h1-h61.3段落标签: p1.4换行标签: br1.5综合案例: 展示博客1.6格式化标签1.7图片标签: img1.8超链接标签: a1.9综合案例: 展示博客21.10表格标签1.10.1基本使用1.10.2合并单元格 1.11列表标签1.12表单标签1.13无语义标签: div…...

分层强化学习 综述论文阅读 Hierarchical Reinforcement Learning: A Comprehensive Survey

分层强化学习 综述论文阅读 Hierarchical Reinforcement Learning: A Comprehensive Survey 摘要一、介绍二、基础知识回顾2.1 强化学习2.2 分层强化学习2.2.1 子任务符号2.2.2 基于半马尔可夫决策过程的HRL符号 2.3 通用项定义 三、分层强化学习方法3.1 学习分层策略 (LHP)3.1…...

TensorFlow入门(十五、数据读取机制(2))

使用Dataset创建和读取数据集,作为TensorFlow模型创建输入管道的新方式,使用性能比使用feed_dict或队列式管道的性能高很多,使用也更加简洁容易。也是google强烈推荐的数据读取方式,对于TensorFlow而言,十分重要。 Dataset是什么? Dataset的定义 : 它是一个含有相同类型元素且…...

Linux系统中实现便捷运维管理和远程访问的1Panel部署方法

文章目录 前言1. Linux 安装1Panel2. 安装cpolar内网穿透3. 配置1Panel公网访问地址4. 公网远程访问1Panel管理界面5. 固定1Panel公网地址 前言 1Panel 是一个现代化、开源的 Linux 服务器运维管理面板。高效管理,通过 Web 端轻松管理 Linux 服务器,包括主机监控、…...

Rancher清理节点

本节介绍如何从一个 Rancher 创建的 Kubernetes 集群中断开一个节点,并从该节点中删除所有 Kubernetes 组件。此过程允许您将释放节点资源,将节点用于其他用途。 当您使用 Rancher 创建集群节点 时,将创建资源(容器/虚拟网络接口)和配置项(证…...

C++-Mongoose(1)-http-server

Mongoose is a network library for C/C. It implements event-driven non-blocking APIs for TCP, UDP, HTTP, WebSocket, MQTT. mongoose很小巧,只有两个文件mongoose.h/cpp,拿来就可以用. 下载地址: https://github.com/cesanta/mongoo…...

Linux中openvswitch配置网桥详解

以下是对给出的命令进行逐行解释和注释: # 安装openvswitch软件包,并自动确认所有提示信息使用默认值(-y参数) dnf install openvswitch -y# 启动openvswitch服务 systemctl start openvswitch# 设置openvswitch服务开机启动 sys…...

Python自动化测试框架pytest的详解安装与运行

这篇文章主要为大家介绍了Python自动化测试框架pytest的简介以及安装与运行,有需要的朋友可以借鉴参考下希望能够有所帮助,祝大家多多进步 1. pytest的介绍 pytest是一个非常成熟的全功能的python测试工具,它主要有以下特征: 简…...

高频面试之3Zookeeper

高频面试之3Zookeeper 文章目录 高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个?3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制 半数机制(过半机制&#xff0…...

微服务商城-商品微服务

数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...

鱼香ros docker配置镜像报错:https://registry-1.docker.io/v2/

使用鱼香ros一件安装docker时的https://registry-1.docker.io/v2/问题 一键安装指令 wget http://fishros.com/install -O fishros && . fishros出现问题:docker pull 失败 网络不同,需要使用镜像源 按照如下步骤操作 sudo vi /etc/docker/dae…...

06 Deep learning神经网络编程基础 激活函数 --吴恩达

深度学习激活函数详解 一、核心作用 引入非线性:使神经网络可学习复杂模式控制输出范围:如Sigmoid将输出限制在(0,1)梯度传递:影响反向传播的稳定性二、常见类型及数学表达 Sigmoid σ ( x ) = 1 1 +...

OPENCV形态学基础之二腐蚀

一.腐蚀的原理 (图1) 数学表达式:dst(x,y) erode(src(x,y)) min(x,y)src(xx,yy) 腐蚀也是图像形态学的基本功能之一,腐蚀跟膨胀属于反向操作,膨胀是把图像图像变大,而腐蚀就是把图像变小。腐蚀后的图像变小变暗淡。 腐蚀…...

让回归模型不再被异常值“带跑偏“,MSE和Cauchy损失函数在噪声数据环境下的实战对比

在机器学习的回归分析中,损失函数的选择对模型性能具有决定性影响。均方误差(MSE)作为经典的损失函数,在处理干净数据时表现优异,但在面对包含异常值的噪声数据时,其对大误差的二次惩罚机制往往导致模型参数…...

【JVM面试篇】高频八股汇总——类加载和类加载器

目录 1. 讲一下类加载过程? 2. Java创建对象的过程? 3. 对象的生命周期? 4. 类加载器有哪些? 5. 双亲委派模型的作用(好处)? 6. 讲一下类的加载和双亲委派原则? 7. 双亲委派模…...

Windows安装Miniconda

一、下载 https://www.anaconda.com/download/success 二、安装 三、配置镜像源 Anaconda/Miniconda pip 配置清华镜像源_anaconda配置清华源-CSDN博客 四、常用操作命令 Anaconda/Miniconda 基本操作命令_miniconda创建环境命令-CSDN博客...

解读《网络安全法》最新修订,把握网络安全新趋势

《网络安全法》自2017年施行以来,在维护网络空间安全方面发挥了重要作用。但随着网络环境的日益复杂,网络攻击、数据泄露等事件频发,现行法律已难以完全适应新的风险挑战。 2025年3月28日,国家网信办会同相关部门起草了《网络安全…...

群晖NAS如何在虚拟机创建飞牛NAS

套件中心下载安装Virtual Machine Manager 创建虚拟机 配置虚拟机 飞牛官网下载 https://iso.liveupdate.fnnas.com/x86_64/trim/fnos-0.9.2-863.iso 群晖NAS如何在虚拟机创建飞牛NAS - 个人信息分享...