当前位置: 首页 > news >正文

交通 | python网络爬虫:“多线程并行 + 多线程异步协程

推文作者:Amiee

编者按:

常规爬虫都是爬完一个网页接着爬下一个网页,不适应数据量大的网页,本文介绍了多线程处理同时爬取多个网页的内容,提升爬虫效率。

1.引言​


一般而言,常规爬虫都是爬完一个网页接着爬下一个网页。如果当爬取的数据量非常庞大时,爬虫程序的时间开销往往很大,这个时候可以通过多线程或者多进程处理即可完成多个网页内容同时爬取的效果,数据获取速度大大提升。​


2.基础知识​


简单来说,CPU是进程的父级单位,一个CPU可以控制多个进程;进程是线程的父级单位,一个进程可以控制多个线程,那么到底什么是进程,什么是线程呢?​


对于操作系统来说,一个任务就是一个进程(Process),比如打开一个浏览器就是启动一个浏览器进程;打开一个QQ就启动一个QQ进程;打开一个Word就启动了一个Word进程,打开两个Word就启动两个Word进程。​


那什么叫作线程呢?在一个进程内部往往不止同时干一件事,比如浏览器,它可以同时浏览网页、听音乐、看视频、下载文件等。在一个进程内部这同时运行的多个“子任务”,便称之称为线程(Thread),线程是程序工作的最小单元。​


此外有个注意点,对于单个CPU而言,某一个时点只能执行一个任务,那么如果这样是怎么在现实中同时执行多个任务(进程)的呢?比如一边用浏览器听歌,一边用QQ和好友聊天是如何实现的呢?​


答案是操作系统会通过调度算法,轮流让各个任务(进程)交替执行。以时间片轮转算法为例:有5个正在运行的程序(即5个进程) : QQ、微信、谷歌浏览器、网易云音乐、腾讯会议,操作系统会让CPU轮流来调度运行这些进程,一个进程每次运行0.1ms,因为CPU执行的速度非常快,这样看起来就像多个进程同时在运行。同理,对于多个线程,例如通过谷歌浏览器(进程)可以同时访问网页(线程1)、听在线音乐(线程2)和下载网络文件(线程3)等操作,也是通过类似的时间片轮转算法使得各个子任务(线程)近似同时执行。​


2.1 Thread()版本案例

from threading import Thread
def func():for i in range(10):print('func', i)
if name == '__main__':t = Thread(target=func) # 创建线程t.start() # 多线程状态,可以开始工作了,具体时间有CPU决定for i in range(10):print('main', i)
执行结果如下:func 0func 1func 2func 3func 4main 0main 1main 2main 3main 4mainfunc 5 5func main 66func 7mainfunc 8func 97main 8main 9

2.2 MyTread() 版本案例​


大佬是这个写法

from threading import Thread​
class MyThread(Thread):​def run(self):​for i in range(10):​print('MyThread', i)​
if name == '__main__':​t = MyThread()​# t.run() # 调用run就是单线程​t.start() # 开启线程​for i in range(10):​print('main', i)​
执行结果:​
MyThread 0​
MyThread 1​
MyThread 2​
MyThread 3​
MyThread 4​
MyThread 5main 0​
main 1​
main 2​
main 3​
main 4​
MyThread ​
main 5​
6​
main MyThread 67​
mainMyThread  78​
mainMyThread  89​
main 9

2.3 带参数的多线程版本

from threading import Thread
def func(name):for i in range(10):print(name, i)
if name == '__main__':t1 = Thread(target=func, args=('子线程1',)) # 创建线程t1.start() # 多线程状态,可以开始工作了,具体时间又CPU决定t2 = Thread(target=func, args=('子线程2',))  # 创建线程t2.start()  # 多线程状态,可以开始工作了,具体时间又CPU决定for i in range(10):print('main', i)

2.4 多进程

一般不建议使用,因为开进程比较费资源

from multiprocessing import Process
def func():for i in range(1000000):print('func', i)
if name == '__main__':p = Process(target=func)p.start() # 开启线程for i in range(100000):print('mainn process', i)

3. 线程池和进程池

线程池:一次性开辟一些线程,我们用户直接给线程池提交任务,线程任务的调度由线程池来完成

from concurrent.futures import ThreadPoolExecutor
def func(name):for i in range(10):print(name, i)
if name == '__main__':# 创建线程池with ThreadPoolExecutor(50) as t:for i in range(100):t.submit(func, name=f'Thread{i}=')# 等待线程池中的人物全部执行完成,才继续执行;也称守护进程
print('执行守护线程')

进程池

from concurrent.futures import ProcessPoolExecutor
def func(name):for i in range(10):print(name, i)
if name == '__main__':# 创建线程池with ProcessPoolExecutor(50) as t:for i in range(100):t.submit(func, name=f'Thread{i}=')# 等待线程池中的人物全部执行完成,才继续执行;也称守护进程print('执行守护进程')

4. 爬虫实战-爬取新发地菜价

单个线程怎么办;上线程池,多个页面同时爬取

import requests
from lxml import etree
import csv
from concurrent.futures import ThreadPoolExecutorf = open('xifadi.csv', mode='w', newline='')
csv_writer = csv.writer(f)
def download_one_page(url):resp = requests.get(url)resp.encoding = 'utf-8'html = etree.HTML(resp.text)table = html.xpath(r'/html/body/div[2]/div[4]/div[1]/table')[0]# trs = table.xpath(r'./tr')[1:] # 跳过表头trs = table.xpath(r'./tr[position()>1]')for tr in trs:td = tr.xpath('./td/text()')# 处理数据中的 \\ 或 /txt = (item.replace('\\','').replace('/','') for item in td)csv_writer.writerow(txt)resp.close()print(url, '提取完毕')if name == '__main__':with ThreadPoolExecutor(50) as t:for i in range(1, 200):t.submit(download_one_page,f'http://www.xinfadi.com.cn/marketanalysis/0/list/{i}.shtml')print('全部下载完毕')

5. python网络爬虫:多线程异步协程与实验案例​


5.1 基础理论​


程序处于阻塞状态的情形包含以下几个方面:​
•input():等待用户输入​
•requests.get():网络请求返回数据之前​
•当程序处理IO操作时,线程都处于阻塞状态​
•time.sleep():处于阻塞状态​

协程的逻辑是当程序遇见IO操作时,可以选择性的切换到其他任务上;协程在微观上任务的切换,切换条件一般就是IO操作;在宏观上,我们看到的是多个任务都是一起执行的;上方的一切都是在在单线程的条件下,充分的利用单线程的资源。​

要点梳理:​
•函数被asyn修饰,函数被调用时,它不会被立即执行;该函数被调用后会返回一个协程对象。​
•创建一个协程对象:构建一个asyn修饰的函数,然后调用该函数返回的就是一个协程对象​
•任务对象是一个高级的协程对象,

import  asyncio​
import time​
async def func1():​print('你好呀11')​
if name == '__main__':​g1 = func1() # 此时的函数是异步协程函数,此时函数执行得到的是一个协程对象​asyncio.run(g1) # 协程城西执行需要asyncio模块的支持

5.2 同步/异步睡眠​

普通的time.sleep()是同步操作,会导致异步操作中断

import  asyncio
import time
async def func1():print('你好呀11')time.sleep(3) # 当程序中除了同步操作时,异步就中端了print('你好呀12')
async def func2():print('你好呀21')time.sleep(2)print('你好呀22')
async def func3():print('你好呀31')time.sleep(4)print('你好呀32')
if name == '__main__':g1 = func1() # 此时的函数是异步协程函数,此时函数执行得到的是一个协程对象g2 = func2()g3 = func3()tasks = [g1, g2, g3]t1 = time.time()asyncio.run(asyncio.wait(tasks)) # 协程城西执行需要asyncio模块的支持t2 = time.time()
print(t2 - t1)你好呀21你好呀22你好呀11你好呀12你好呀31你好呀329.003259658813477

使用异步睡眠函数,遇到睡眠时,挂起;

import  asyncio
import time
async def func1():print('你好呀11')await asyncio.sleep(3) # 异步模块的sleepprint('你好呀12')
async def func2():print('你好呀21'))await asyncio.sleep(4)  # 异步模块的sleepprint('你好呀22')
async def func3():print('你好呀31')await asyncio.sleep(4)  # 异步模块的sleepprint('你好呀32')
if name == '__main__':g1 = func1() # 此时的函数是异步协程函数,此时函数执行得到的是一个协程对象g2 = func2()g3 = func3()tasks = [g1, g2, g3]t1 = time.time()asyncio.run(asyncio.wait(tasks)) # 协程城西执行需要asyncio模块的支持t2 = time.time()
print(t2 - t1)你好呀21你好呀11你好呀31你好呀12你好呀22你好呀324.0028839111328125

整体耗时为最长时间 + 切换时间

5.3 官方推荐多线程异步协程写法

import  asyncio
import time
async def func1():print('你好呀11')# time.sleep(3) # 当程序中除了同步操作时,异步就中端了await asyncio.sleep(3) # 异步模块的sleepprint('你好呀12')
async def func2():print('你好呀21')# time.sleep(2)await asyncio.sleep(4)  # 异步模块的sleepprint('你好呀22')
async def func3():print('你好呀31')# time.sleep(4)await asyncio.sleep(4)  # 异步模块的sleepprint('你好呀32')
async def main():# 写法1:不推荐# f1 = func1()# await f1 # await挂起操作,一般放在协程对象前边# 写法2:推荐,但是在3.8废止,3.11会被移除# tasks = [func1(), func2(), func3()]# await asyncio.wait(tasks)# 写法3:python3.8以后使用tasks = [asyncio.create_task(func1()), asyncio.create_task(func2()),asyncio.create_task(func3())]await asyncio.wait(tasks))if name == '__main__':t1 = time.time()asyncio.run(main())t2 = time.time()
print(t2 - t1)你好呀21你好呀31你好呀11你好呀12你好呀32你好呀224.001523017883301

6. 异步协程爬虫实战

安装包:

pip install aiohttp

pip install aiofiles

基本框架:​
•获取所有的url​
•编写每个url的爬取函数​
•每个url建立一个线程任务,爬取数据

6.1 爬取图片实战代码

import asyncio
import aiohttp
import aiofiles
headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Mobile Safari/537.36 Edg/91.0.864.41'}
urls = {r'http://kr.shanghai-jiuxin.com/file/mm/20210503/xy2edb1kuds.jpg',r'http://kr.shanghai-jiuxin.com/file/mm/20210503/g4ok0hh2utm.jpg',r'http://kr.shanghai-jiuxin.com/file/mm/20210503/sqla2defug0.jpg',r'http://d.zdqx.com/aaneiyi_20190927/001.jpg'}
async def aio_download(url):async with aiohttp.ClientSession() as session:async with session.get(url, headers=headers) as resp:async with aiofiles.open('img/' + url.split('/')[-1],mode='wb') as f:await f.write(await resp.content.read())await f.close() # 异步代码需要关闭文件,否则会输出0字节的空文件# with open(url.split('/')[-1],mode='wb') as f: # 使用with代码不用关闭文件#      f.write(await resp.content.read()) # 等价于resp.content, resp.json(), resp.text()
async def main():tasks = []for url in urls:tasks.append(asyncio.create_task(aio_download(url)))await asyncio.wait(tasks)if name == '__main__':# asyncio.run(main()) # 可能会报错 Event loop is closed 使用下面的代码可以避免asyncio.get_event_loop().run_until_complete(main())
print('over')

知识点总结:​
•在python 3.8以后,建议使用asyncio.create_task()创建人物​
•aiofiles写文件,需要关闭文件,否则会生成0字节空文件​
•aiohttp中生成图片、视频等文件时,使用resp.content.read(),而requests库时,并不需要read()​
•报错 Event loop is closed时, 将 asyncio.run(main()) 更改为 asyncio.get_event_loop().run_until_complete(main())​
•使用with打开文件时,不用手动关闭

6.2 爬取百度小说

注意:以下代码可能会因为 百度阅读 页面改版而无法使用

主题思想:

  • 分析那些请求需要异步,那些不需要异步;在这个案例中,获取目录只需要请求一次,所以不需要异步

  • 下载每个章节的内容,则需要使用异步操作

import requests
import asyncio
import aiohttp
import json
import aiofiles

https://dushu.baidu.com/pc/detail?gid=4306063500

http://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"4306063500"} 获取章节的名称,cid;只请求1次,不需要异步

http://dushu.baidu.com/api/pc/getChapterContent # 涉及多个任务分发,需要异步请求,拿到所有的文章内容

headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Mobile Safari/537.36 Edg/91.0.864.41'}
async def aio_download(cid, book_id,title):data = {'book_id': book_id,'cid' : f'{book_id}|{cid}','need_bookinfo': 1}data = json.dump(data)url = f'http://dushu.baidu.com/api/pc/getChapterContent?data={data}'async with aiohttp.ClientSession as session:async with session.get(url) as resp:dic = await resp.json()async with aiofiles.open('img/'+title+'.txt',mode='w') as f:await f.write(dic['data']['novel']['content'])await f.close()
async def getCatalog(url):resp = requests.get(url, headers=headers)dic = resp.json()tasks = []for item in dic['data']['novel']['items']:title = item['title']cid = item['cid']tasks.append(asyncio.create_task(aio_download((cid, book_id,title))))await asyncio.wait(tasks)if name == '__main__':book_id = '4306063500'url = r'http://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"'+book_id+'"}'asyncio.run(getCatalog(url))

相关文章:

交通 | python网络爬虫:“多线程并行 + 多线程异步协程

推文作者:Amiee 编者按: 常规爬虫都是爬完一个网页接着爬下一个网页,不适应数据量大的网页,本文介绍了多线程处理同时爬取多个网页的内容,提升爬虫效率。 1.引言​ 一般而言,常规爬虫都是爬完一个网页接着…...

LeetCode:1488. 避免洪水泛滥(2023.10.13 C++)

目录 1488. 避免洪水泛滥 实现代码与解析: 贪心 原理思路: 1488. 避免洪水泛滥 题目描述: 你的国家有无数个湖泊,所有湖泊一开始都是空的。当第 n 个湖泊下雨前是空的,那么它就会装满水。如果第 n 个湖泊下雨前是…...

SpringBoot 时 jar 报错 没有主清单属性

SpringBoot 时 jar 报错 没有主清单属性 参考资料 使用阿里版 Spring Initializr 创建的项目。 springboot 2.6.13 JDK 1.8 这里自动开了skip。 注释后打的 jar 包就可以运行了。 <build><finalName>${name}</finalName><plugins><plugin><…...

C/S架构学习之多进程实现TCP并发服务器

多进程实现TCP并发服务器的实现流程&#xff1a;一、自定义信号处理函数&#xff08;sig_func函数&#xff09;&#xff1a; void sig_func(int signum){wait(NULL);}wait函数: #include <sys/types.h>#include <sys/wait.h>pid_t wait(int *wstatus);/*功能&#…...

VSCode 快速移动光标至行尾

最近在用vscode进行C编程&#xff0c;经常需要把光标跳到行尾去添加符号。 手动到行尾太麻烦了。 一种快捷方式是&#xff1a;用键盘上的“END”快捷键。 但是用这个键也不是很方便&#xff0c;因为“end”键离主键盘区太远。 另一种便捷的方式是&#xff1a;给vscode设置自定义…...

ACP.复盘方法

复盘要怎么做的有水准&#xff0c;让领导满意&#xff0c;方式方法很重要。今天给你们安利5种复盘方法&#xff0c;保准你省事&#xff0c;领导还满意。 一、KPT复盘法 7月份年中一直在做和复盘相关的事&#xff0c;像公司的OKR复盘、年中战略规划&#xff0c;不过日常很多生…...

Springboot 订餐管理系统idea开发mysql数据库web结构java编程计算机网页源码maven项目

一、源码特点 springboot 订餐管理系统是一套完善的信息系统&#xff0c;结合springboot框架和bootstrap完成本系统&#xff0c;对理解JSP java编程开发语言有帮助系统采用springboot框架&#xff08;MVC模式开发&#xff09;&#xff0c;系统具有 完整的源代码和数据库&…...

判断当前Activity是否有DialogFragment显示

DialogFragment一种情况是在当前Activity上启动&#xff0c;一种情况是在Fragment上启动&#xff0c;判断当前fragmentManager上是否有&#xff0c;以及遍历判断子fragment上是否有&#xff0c;即可确定是否有DialogFragment展示。 使用方式&#xff1a; // supportFragmentMa…...

开发一个npm组件包(2)

通过vueelement 原来后台 开发npm包的时候 会遇到一下几个问题 入口文件变化为package/index 需要再配置打包方法 package.json下 "scripts": {"package": "vue-cli-service build --target lib ./src/package/index.js --name managerpage --dest…...

迅为RK3568开发板Scharr滤波器算子边缘检测

本小节代码在配套资料“iTOP-3568 开发板\03_【iTOP-RK3568 开发板】指南教程\04_OpenCV 开发配套资料\33”目录下&#xff0c;如下图所示&#xff1a; 在 Sobel 算子算法函数中&#xff0c;如果设置 ksize-1 就会使用 3x3 的 Scharr 滤波器。Scharr 算子是 Soble 算子在 ksize…...

HJ86 求最大连续bit数

目录 一、题目 二、代码 一、题目 求最大连续bit数_牛客题霸_牛客网 二、代码 #include <iostream> #include<stack> #include<vector> using namespace std; void TEN_to_TWO(int x, vector<int>& data) { //10进制转换成二进制stack<int&…...

Grafana 10 新特性解读:体验与协作全面提升

作者&#xff1a;徽泠(苏墨馨) 为了庆祝 Grafana 的 10 年里程碑&#xff0c;Grafana Labs 推出了 Grafana 10&#xff0c;这个具有纪念意义的版本强调增强用户体验&#xff0c;使各种开发人员更容易使用。Grafana v10.0.x 为开发者与企业展示卓越的新功能、可视化与协作能力&…...

Django实现音乐网站 ⒆

使用Python Django框架做一个音乐网站&#xff0c; 本篇主要为排行榜功能及音乐播放器部分功能实现。 目录 推荐排行榜优化 设置歌手、单曲跳转链接 排行榜列表渲染优化 视图修改如下&#xff1a; 模板修改如下&#xff1a; 单曲详情修改 排行榜列表 设置路由 视图处理…...

20基于MATLAB的车牌识别算法,在环境较差的情景下,夜间识别度很差的车牌号码可以精确识别出具体结果,程序已调通,可直接替换自己的数据跑。

基于MATLAB的车牌识别算法&#xff0c;在环境较差的情景下&#xff0c;夜间识别度很差的车牌号码可以精确识别出具体结果&#xff0c;程序已调通&#xff0c;可直接替换自己的数据跑。 20matlab车牌识别 (xiaohongshu.com)...

vue音频制作

Vue 音频制作指的是使用 Vue.js 框架开发音频制作相关的 Web 应用程序。Vue.js 是一种现代化的 JavaScript 框架&#xff0c;它可以帮助开发者更快速、更高效地构建交互式的 Web 应用程序。 音频制作在 Vue.js 中的实现可以通过使用一些开源音频库和插件来实现&#xff0c;如 …...

好莱坞编剧大罢工终于结束;与OpenAI创始人共进早餐;使用DALL-E 3制作绘本分享;生成式AI的基础设施架构 | ShowMeAI日报

&#x1f440;日报&周刊合集 | &#x1f3a1;生产力工具与行业应用大全 | &#x1f9e1; 点赞关注评论拜托啦&#xff01; &#x1f525; 好莱坞编剧大罢工终于结束&#xff1a;简单说就是AI妥协了 https://www.wgacontract2023.org/the-campaign/summary-of-the-2023-wga-…...

buuctf week2-web-ez_sql

闭合之后尝试判断字段数&#xff0c;存在WAF&#xff0c;使用大小写绕过&#xff08;后面的sql语句也需要进行大小写绕过&#xff09; ?id1 Order by 5-- 测出有5列 ?id1 Order by 6-- 查一下数据库名、版本、用户等信息 ?id1Union Select database(),version(),user(),4,…...

实验2.1.2 交换机的常用配置

项目2 交换技术的位置 活动2 交换机的常用配置 一、具体要求&#xff1a; &#xff08;1&#xff09;添加1台计算机&#xff0c;将标签名更改为PC1。 &#xff08;2&#xff09;添加1台S3700-26C-HI交换机&#xff0c;标签名为SWA&#xff0c;将交换机的名称设置为SWA。 &am…...

功率放大器应用场景分析报告

功率放大器作为一种能够将低电压信号放大到高电压水平的关键设备&#xff0c;在多个领域中发挥着重要作用。报告通过对实验研究、射频通信、能源与电力系统、医疗诊断与治疗以及工业自动化等领域的综合分析&#xff0c;下面西安安泰为大家介绍功率放大器的应用场景。 实验研究 …...

解决 Centos 安装 Python 3.10 的报错: Could not import runpy module

操作环境&#xff1a;CentOS 7、Gcc 4.8.5、Python 3.10.0 系统上已经有 2.x&#xff0c;3.6 版本的 Python 了&#xff0c;但是还是想装一个 3.10 的。因为刚写的脚本文件是较高版本的&#xff0c;在 3.6 上无法正常运行&#xff0c;Python 语法不是很了解&#xff0c;只能从…...

Java 语言特性(面试系列2)

一、SQL 基础 1. 复杂查询 &#xff08;1&#xff09;连接查询&#xff08;JOIN&#xff09; 内连接&#xff08;INNER JOIN&#xff09;&#xff1a;返回两表匹配的记录。 SELECT e.name, d.dept_name FROM employees e INNER JOIN departments d ON e.dept_id d.dept_id; 左…...

使用VSCode开发Django指南

使用VSCode开发Django指南 一、概述 Django 是一个高级 Python 框架&#xff0c;专为快速、安全和可扩展的 Web 开发而设计。Django 包含对 URL 路由、页面模板和数据处理的丰富支持。 本文将创建一个简单的 Django 应用&#xff0c;其中包含三个使用通用基本模板的页面。在此…...

iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘

美国西海岸的夏天&#xff0c;再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至&#xff0c;这不仅是开发者的盛宴&#xff0c;更是全球数亿苹果用户翘首以盼的科技春晚。今年&#xff0c;苹果依旧为我们带来了全家桶式的系统更新&#xff0c;包括 iOS 26、iPadOS 26…...

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中&#xff0c;可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行&#xff0c;可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令&#xff0c;并忽略错误 rm somefile…...

RocketMQ延迟消息机制

两种延迟消息 RocketMQ中提供了两种延迟消息机制 指定固定的延迟级别 通过在Message中设定一个MessageDelayLevel参数&#xff0c;对应18个预设的延迟级别指定时间点的延迟级别 通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后&#xf…...

rknn优化教程(二)

文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK&#xff0c;开始写第二篇的内容了。这篇博客主要能写一下&#xff1a; 如何给一些三方库按照xmake方式进行封装&#xff0c;供调用如何按…...

Admin.Net中的消息通信SignalR解释

定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...

基于Uniapp开发HarmonyOS 5.0旅游应用技术实践

一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架&#xff0c;支持"一次开发&#xff0c;多端部署"&#xff0c;可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务&#xff0c;为旅游应用带来&#xf…...

多模态商品数据接口:融合图像、语音与文字的下一代商品详情体验

一、多模态商品数据接口的技术架构 &#xff08;一&#xff09;多模态数据融合引擎 跨模态语义对齐 通过Transformer架构实现图像、语音、文字的语义关联。例如&#xff0c;当用户上传一张“蓝色连衣裙”的图片时&#xff0c;接口可自动提取图像中的颜色&#xff08;RGB值&…...

Frozen-Flask :将 Flask 应用“冻结”为静态文件

Frozen-Flask 是一个用于将 Flask 应用“冻结”为静态文件的 Python 扩展。它的核心用途是&#xff1a;将一个 Flask Web 应用生成成纯静态 HTML 文件&#xff0c;从而可以部署到静态网站托管服务上&#xff0c;如 GitHub Pages、Netlify 或任何支持静态文件的网站服务器。 &am…...