当前位置: 首页 > news >正文

爬虫-网页基础

HTML 基本语法

HTML:Hyper Text Markup Language, 超文本标记语言,是计算机语言的一种,由元素构成。

p元素

<p>Web 真好玩!</p>

由三大部分组成

  1. 开始标签:一对尖括号中间包裹这元素名称
  2. 元素内容:页面中用户可以看到的内容
  3. 结束标签:与开始标签类似,区别在于元素名称前有一个斜杠 /

a元素

互联网中必不可少的一个要素是超链接,对应到HTML语言中就是a元素

<a href="https://web.shanbay.com/codetime/home/" target="_blank">扇贝编程首页</a>

分析:

  1. <a href="https://web.shanbay.com/codetime/home/" target="_blank">为元素开始标签
  2. 扇贝编程首页,元素内容
  3. </a> 元素的结束标签

a元素的开始标签中有许多额外信息,这些信息就是元素的 属性

元素属性

元素的属性需要写在开始标签中,写成  属性名称="属性值"。元素的属性是额外信息,不会直接展示给用户,而是提供给浏览器、程序解析使用。

上面的例子中 href 和 target 是a元素的两条属性。

:属性值是用英文双引号,多个属性之间使用一个空格隔开

最常见的属性还有class、id、和 style。

class和id是用来标识元素的。

class:标识某一类元素,在一份HTML文档中可以重复出现。

id: 标识具体的某一个元素。其值在整个HTML中是唯一的。

style:为元素设置样式。

img元素

<img src="https://media-image1.baydn.com/storage_media_image/svpyor/b070ba779623e1405ad77dc048f0552b.68b5c7778324e642ffaee2d1034fce98.png" alt="">

img 元素用来描述图片的。有两个属性:

src:图片来源属性

alt:用于替换的文本属性

:img元素只有开始标签,没有元素内容以及结束标签。这就说到了一种元素叫空元素

空元素

有些元素不需要提供文本内容,自然不需要元素内容。那就是空元素

img元素,换行符 br(break)元素,水平分割线 hr(horizontal)元素均属于空元素。

ol元素

有序列表由外层 ol(ordered lists)元素和 li(list item)元素构成

ul元素

无序列表则是由外层 ul (unordered lists)元素和内层 li 元素构成。

HTML 文档结构

我们从网页内容第一行看起。第一行的 !<DOCTYPE html> 表明该文件是 HTML 文档,便于浏览器正确解析,没有实际含义。DOCTYPE 之后的整个网页内容都包裹在 html 元素 中,这是约定俗成的格式。如此一来,网页内所有元素都是 html 元素的子元素,整个 HTML 文档像树一样开枝散叶,结构清晰明朗。因此,html 元素也被称为 根元素。

再往内部看,网页根元素最粗壮的两个分支,一个叫 head 元素,另一个叫 body 元素。它们分别是网页的 网页头 和 网页体

HTML规定:

  • 用 title 元素 设置网页标题,这个标题将显示在浏览器标签页上
  • 用 meta 元素 设置网元信息,这些信息包括网页使用什么样的字符编码方式、样式、整体布局,还包含页面描述信息和面向搜索引擎的搜索关键字等等。

head 元素中还有许多 link 元素 和 script 元素,它们负责将 HTML 文档与对应的 CSS 样式、JavaScript 代码文件关联起来

相关文章:

爬虫-网页基础

HTML 基本语法 HTML&#xff1a;Hyper Text Markup Language, 超文本标记语言&#xff0c;是计算机语言的一种&#xff0c;由元素构成。 p元素 <p>Web 真好玩&#xff01;</p> 由三大部分组成 开始标签&#xff1a;一对尖括号中间包裹这元素名称元素内容&#x…...

保存huggingface缓存中AI模型(从本地加载AI模型数据)

在github下拉项目后,首次运行时会下拉一堆模型数据&#xff0c;默认是保存在缓存的&#xff0c;如果你的系统盘空间快满的时候就会被系统清理掉&#xff0c;每次运行又重新下拉一次&#xff0c;特别麻烦。 默认下载的缓存路径如下&#xff1a;C:\Users\用户名\.cache\huggingf…...

wps的xlsm和xltm和xlam格式的文件各有什么区别

文章目录 一、前言二、WPS表格文件格式介绍1. .xlsm 文件格式2. .xltm 文件格式3. .xlam 文件格式 三、总结 一、前言 本文将详细介绍WPS表格中三种常见的文件格式&#xff1a;.xlsm、.xltm、和.xlam&#xff0c;并提供通俗易懂的解释和示例&#xff0c;帮助用户理解它们的区别…...

软件性能测试有哪几种测试方法?专业性能测试报告出具

软件性能测试是指对软件系统在特定负载条件下的性能进行评估和验证的过程&#xff0c;目的是确保软件在正常使用的情况下能够满足用户的要求&#xff0c;并在稳定的性能水平下运行&#xff0c;在软件开发过程中起到了至关重要的作用&#xff0c;可以确保软件产品的质量和可靠性…...

JavaScript语言简介与实战应用:从零开始的编程之旅

JavaScript&#xff0c;一种轻量级的、解释型的、面向对象的脚本语言&#xff0c;自1995年由Netscape公司的Brendan Eich设计以来&#xff0c;迅速成为了Web开发中不可或缺的一部分。它不仅能够为静态网页添加动态效果&#xff0c;还能实现客户端与服务器的交互&#xff0c;如今…...

如何理解synchronized锁升级

在Java中&#xff0c;synchronized 关键字是实现线程同步的一种方式&#xff0c;它涉及到锁的升级和释放的过程。理解synchronized 锁的升级可以分为三个阶段&#xff1a;无锁状态、偏向锁状态和轻量级锁状态。 无锁状态&#xff1a; 当对象被创建时&#xff0c;默认处于无锁状…...

js【最佳实践】遍历数组的八种方法(含数组遍历 API 的对比)for,forEach,for of,map,filter,reduce,every,some

遍历方法返回值使用场景备注副作用for 循环——遍历数组通用可以改变原数组forEach 循环——遍历数组ES5 新增&#xff0c;不支持中断和异步可以改变原数组for of 循环——遍历数组ES6 新增可以改变原数组map格式化后的数组格式化数组的API不会改变原数组filter过滤后的数组过滤…...

Node.js开发实战 视频教程 下载

ode.js开发实战 视频教程 下载 下载地址 https://download.csdn.net/download/m0_67912929/89487510 01-课程介绍.mp4 02-内容综述.mp4 03-Node.js是什么? .mp4 04-Node.js可以用来做什么?.mp4 05-课程实战项目介绍.mp4 06-什么是技术预研? .mp4 07-Node.js开发环境…...

VS2022(Visual Studio 2022)最新安装教程

1、下载 1、下载地址 - 官网地址&#xff1a;下载 Visual Studio Tools - 免费安装 Windows、Mac、Linux - 根据自己的电脑的 【操作系统】 灵活选择。 2、安装包 【此处为Windows系统安装包】 2、安装 1、打开软件 - 右击【以管理员身份打开】&#xff0c; 2、准备配置 …...

从华为和特斯拉之争,看智能驾驶的未来

“一旦特斯拉完全解决自动驾驶问题并量产Optimus&#xff0c;任何空头都将被消灭&#xff0c;即使是比尔-盖茨也不例外。”7月2日&#xff0c;马斯克再次在社交媒体X上画下了这样的“大饼”。 与此同时&#xff0c;特斯拉的股价在最近的三个交易日也迎来了24%的涨幅&#xff0c…...

20240705 每日AI必读资讯

&#x1f4da;Retool 刚刚发布了最新2024上半年《人工智能现状报告》 - 收集了约750名技术人员的意见 - 包括开发者、数据团队和各行业的领导者&#xff0c;了解如何利用人工智能产生真正的影响。 &#x1f517; 2024上半年《人工智能现状报告》Retool刚刚发布了最新-CSDN b…...

C++ 设计模式之访问者模式

C 设计模式之访问者模式 简介 1、访问者模式 &#xff08;Visitor&#xff09;是一种行为型设计模式&#xff0c;它表示一个作用于某对象结构中的各元素的操作。它使你可以在不改变各元素的类的前提下定义作用于这些元素的新操作。 使用该模式可以在不修改已有程序结构的前提…...

linux——IPC 进程间通信

IPC 进程间通信 interprocess communicate IPC&#xff08;Inter-Process Communication&#xff09;&#xff0c;即进程间通信&#xff0c;其产生的原因主要可以归纳为以下几点&#xff1a; 进程空间的独立性 资源隔离&#xff1a;在现代操作系统中&#xff0c;每个进程都…...

JAVA数字化产科管理平台源码:涵盖了孕妇从建档、产检、保健、随访、分娩到产后42天全流程的信息化管理

JAVA数字化产科管理平台源码&#xff1a;涵盖了孕妇从建档、产检、保健、随访、分娩到产后42天全流程的信息化管理 智慧产科管理系统是基于自主研发妇幼信息平台&#xff0c;为医院产科量身打造的信息管理系统&#xff0c;涵盖了孕妇从建档、产检、保健、随访、分娩到产后42天全…...

http数据传输确保完整性和保密性整流程方案(含源码)

往期文章回顾 【深度学习】 【深度学习】物体检测/分割/追踪/姿态估计/图像分类检测演示系统【含源码】【深度学习】YOLOV8数据标注及模型训练方法整体流程介绍及演示【深度学习】行人跌倒行为检测软件系统【深度学习】火灾检测软件系统【深度学习】吸烟行为检测软件系统【深度…...

UE插件与云渲染:10个提升效率的选择

Unreal Engine&#xff08;虚幻引擎&#xff09;的插件生态丰富多样&#xff0c;从提升视觉效果到优化工作流程&#xff0c;为开发者提供了无限扩展的可能。本文推荐10款备受欢迎的插件&#xff0c;助你激发创意&#xff0c;提升开发效率. 一、地牢建筑师&#xff1a;程序化关…...

[Shell编程学习路线]——shell脚本中case语句多分支选择详解

&#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f6e0;️Shell编程专栏&#xff1a;点击&#xff01; ⏰️创作时间&#xff1a;2024年6月21日16点30分 &#x1f004;️文章质量&#xff1a;95分 ————前言———— 在Shell编程中&#xff0c;处理多种条件…...

Django REST Framework(四)DRF Serializer

作用: 1. 序列化,序列化器会把模型对象转换成字典,经过response以后变成json字符串 2. 反序列化,把客户端发送过来的数据,经过request以后变成字典,序列化器可以把字典转成模型 3. 反序列化,完成数据校验功能 定义序列化器 Django REST framework中的Serializer使用类来定义&a…...

【C语言】bool 关键字

在C语言中&#xff0c;bool类型用于表示布尔值&#xff0c;即真或假。C语言本身在标准库中并未提供布尔类型&#xff0c;直到C99标准引入了stdbool.h头文件。该头文件定义了bool类型&#xff0c;以及两个常量&#xff1a;true和false。在此之前&#xff0c;通常使用整数来表示布…...

开发电商ERP系统需要接入哪些平台API?

跟随全渠道发展趋势&#xff0c;很多实体商家开设电商店铺&#xff0c;为消费者提供便捷的购物体验&#xff0c;增强消费者的满意度&#xff0c;同时也提升了企业自身的市场竞争力。为了满足商家业务拓展需求&#xff0c;很多原本主要服务于实体商贸企业的ERP服务商&#xff0c…...

Ascend CANN平台避坑指南:从算子开发到模型部署的5个关键陷阱

Ascend CANN平台避坑指南&#xff1a;从算子开发到模型部署的5个关键陷阱 在AI加速器领域&#xff0c;昇腾NPU凭借其独特的达芬奇架构和CANN软件栈&#xff0c;正在成为越来越多企业级AI部署的首选方案。然而在实际工程落地过程中&#xff0c;从算子开发到模型部署的完整链路里…...

3步解锁魔兽争霸III最佳体验:WarcraftHelper全方位优化工具指南

3步解锁魔兽争霸III最佳体验&#xff1a;WarcraftHelper全方位优化工具指南 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper WarcraftHelper是一款专为…...

Pixel Aurora Engine惊艳图集:基于‘进化像素’哲学的跨时代视觉融合

Pixel Aurora Engine惊艳图集&#xff1a;基于进化像素哲学的跨时代视觉融合 1. 像素极光引擎概览 Pixel Aurora Engine是一款革命性的AI绘图工作站&#xff0c;它将现代扩散模型技术与复古像素艺术完美融合。这款工具重新定义了数字艺术创作方式&#xff0c;让用户能够通过简…...

每日算法题 21---54.螺旋矩阵

题目54.螺旋矩阵要求给你一个 m 行 n 列的矩阵 matrix &#xff0c;请按照 顺时针螺旋顺序 &#xff0c;返回矩阵中的所有元素。示例思路核心思路是用边界圈定遍历范围&#xff0c;按照固定方向循环遍历&#xff0c;每遍历完一条边就收缩对应边界&#xff0c;直到边界交叉终止&…...

告别底噪和电流声:DIY蓝牙音箱的音频电路避坑指南(从TPA2019布线到电源滤波)

蓝牙音箱DIY进阶指南&#xff1a;从电路设计到音质优化的全流程解析 在电子DIY领域&#xff0c;蓝牙音箱制作看似简单&#xff0c;但要实现专业级的音质表现却需要跨越诸多技术门槛。许多爱好者完成基础组装后&#xff0c;常会遇到底噪明显、高频失真或低频浑浊等问题——这往往…...

SiameseUIE中文-base效果对比:在CLUE-NER和COTE-ABSA双基准测试

SiameseUIE中文-base效果对比&#xff1a;在CLUE-NER和COTE-ABSA双基准测试 想找一个开箱即用、效果又好的中文信息抽取工具&#xff1f;今天我们来聊聊阿里巴巴达摩院出品的SiameseUIE中文-base模型。这可不是一个普通的模型&#xff0c;它是一个“通用信息抽取”模型&#x…...

C++ 智能指针陷阱与调试技巧

C智能指针陷阱与调试技巧 在现代C开发中&#xff0c;智能指针是管理动态内存的利器&#xff0c;能有效避免内存泄漏和悬空指针等问题。若使用不当&#xff0c;智能指针本身也可能成为陷阱&#xff0c;导致难以察觉的bug。本文将深入探讨几种常见的智能指针陷阱&#xff0c;并分…...

2026实测不踩坑!6款成品PPT网站客观测评

2026实测不踩坑&#xff01;6款成品PPT网站客观测评作为常年深耕AI工具测评的博主&#xff0c;日常需应对各类PPT创作需求&#xff0c;也经常收到粉丝咨询相关工具选择。经过实测多款成品PPT网站后&#xff0c;整理出6款适配性较强的平台&#xff0c;涵盖不同需求场景&#xff…...

B站成分检测器:3分钟快速识别评论区同好身份

B站成分检测器&#xff1a;3分钟快速识别评论区同好身份 【免费下载链接】bilibili-comment-checker B站评论区自动标注成分油猴脚本&#xff0c;主要为原神玩家识别 项目地址: https://gitcode.com/gh_mirrors/bi/bilibili-comment-checker 还在为B站评论区难以分辨用户…...

终极URL标准完整指南:从基础概念到实战应用

终极URL标准完整指南&#xff1a;从基础概念到实战应用 【免费下载链接】url URL Standard 项目地址: https://gitcode.com/gh_mirrors/url/url URL&#xff08;统一资源定位符&#xff09;是互联网的基石&#xff0c;每一个网页、图片、视频都通过URL来定位和访问。URL…...