当前位置: 首页 > news >正文

大数据与人工智能|万物皆算法(第三节)

要点一:数据与智能的关系

        1. 一切的核心都是数据,数据和智能之间是密切相关的。

        数据是对客观现实的描述,而信息是数据转化而来的。
例如,24是数据,但说“今天的气温是24摄氏度”是信息,而说“班可以分成24个小组”是数据。

        2. 数据和信息是可以互相转化的,人类通过人类的语义结构(semantics)来赋予数据信息。
处理数据成为信息是由人类主观导向的,加入了对数据的理解和认知。
        3.信息可以通过观察现象总结出结论,形成理论。两个关键词:phenomenon和theory。知识体系是由现象和理论的循环构成的, 理论对现象可以进行验证、修正或解释,理论对现象的作用包括检验、预测和解释, 知识通过变成信息,再变成智能。

要点二:人工智能和数据的关系

        人工智能是基于知识库和新现象的探索,通过不断提升自身能力来实现智能;大数据和人工智能之间存在深层次联系;人工智能在画图等方面展现出了技术能力,但有时也会出现别扭的效果,引发恐怖谷现象;恐怖谷理论解释了为何人物模型越像人越受欢迎的规律;人工智能和数据在行为学和组织行为方面也有涉及。

        1.智能产生的基础本质上还是人类的知识库还是人类的知识库。
        2.恐怖谷效应。有些人物模型精细的图片会让人感到别扭,这种现象被称为恐怖谷效应。恐怖谷理论解释了为什么AI在某一阈值后会被人们反感。恐怖谷效应不仅仅存在于计算机图形领域,也存在于其他领域,如游戏、毛绒玩具等。恐怖谷效应的原因是人对于陌生、不熟悉的事物会感到不适,但随着迭代精度的提高,人们逐渐接受了这种现象。恐怖谷效应是一个跨学科的概念,涉及到技术、管理、组织等多个维度。

要点三:大数据专业学习指南※

        1. 学习数据分析需要掌握数据的存储、清洗和处理(可视化、数据挖掘、最优化)等技能。
        2. 建议学习《数据库系统概论》(王珊和萨世轩)和《数据挖掘概念与技术》(韩家伟)两本书,解决数据存储和分析问题。学习PYTHON编程语言,可以使用B站上的教程(小甲鱼)或者《零基础入门学PYTHON 》一书。
        3. 对于计算机专业的同学,建议学习《普林斯顿微积分读本》和《韩江磊的算法基础课》等课程。有人觉得数学难,但有人建议可以尝试普林斯顿微积分教材。

要点四:大数据的学习定义

        1. 麦肯锡公司将大数据定义为数据量过大且复杂到无法使用传统工具处理的数据集合。Gartner公司将大数据定义为具有高数量、高速度和高延伸性特性的数据集合。
每天人类社会产生的数据量约为2.5QB级别,其中2的10次方就是1024。主要原因是设备多、信息内存大以及延展性高。

        大数据指的是数据量大(volume)且类型多样的数据(variety)、第三个(velocity)是流动的。然后我们今天的流媒体数据是很常见的.数据的类型比较复杂、流媒体数据是常见的、数据是不确定的这些特性共同出现时,是大数据。

        2. 传统的分析问题方式是通过观察现象提出问题,然后收集数据验证观点。大数据分析方式是通过左手的数据和右手的算法,将算法应用于数据中得出结果。大数据分析可以挖掘隐藏的模式和有用的信息,提高决策和预测的准确性。

要点五:数据可视化和数据挖掘的分类聚类关联※

1. 数据分析部分的逻辑是先解决过去和现在的问题,即可视化。 接下来是预测和规范。
 

        2. 数据可视化工具可以展示过去和现在的数据情况,具备一定的解释性。

        类型一:理解和修改已有代码即可

A.Matplotlib — Visualization with Python

        左边是各种类型的图,如饼图、柱状图、条形图、散点图和气泡图。选择一种图形后,可以进入相应的界面,其中包含PYTHON代码。这些图形可以通过使用jupiter notebook来实现。

        B.seaborn

https://seaborn.pydata.org/

        类型二:导入数据(在进行改动,难度比全改简单)

        绘制网页(图形比较复杂之后可以借用这些形式):

Apache ECharts(还需要改代码)

        chartcool:(有些不免费)(https://www.ichartcool.com/zh/index.html)

左边是代码,右边是显示。代码是JavaScript和TypeScript两种不同的编码体系。这种平台适合处理复杂的图形,比如流动的图形和公交路线图。还有一个工具叫做Chat库,更适合用户使用。

要点六:数据挖掘

        1. 数据挖掘处理的问题是什么?解决what will happen和why will happen。数据挖掘解决的问题是站在数据可视化的基础上。

        A.对数据挖掘的总体印象

        数据挖掘是基于数字的,可以将文字和网页转化为数字进行处理。数据挖掘里边你看这有data mining、test mining和web mining。这东西就是数据挖掘,文本挖掘和网页挖掘,一切的核心都是数据挖掘,可以使用数学模型将文字转化为数字。
         图形可以通过RGB编码标准将其转化为数字。
        数据挖掘可以处理不同类型的数据,如文字、图像、音频和视频。

        B.数据挖掘是挖隐藏的模适合关系,数据挖掘的任务可以分为分类、聚类和关联三类。
不同的数据挖掘算法服务于不同的任务,如人工神经网络适用于分类任务,遗传算法适用于聚类任务。
        数据挖掘的目标是挖掘隐藏的模式和关系,通过对数据进行分析和整理,实现对数据的预测和决策。
        数据挖掘的应用范围广泛,包括抖音推荐、头条搜索、AI画图和特斯拉自动驾驶等。
         数据挖掘需要掌握经典算法和数据库数据挖掘等技术,以实现对大量数据的分析和挖掘。

        3.算法的基础与应用
        A.万物皆算法,包括西红柿炒鸡蛋和人的行为,感知和视觉神经传输是一种算法。算法是指完成一项任务的步骤和规范。人工智能可以通过算法实现各种事情。

        B.关联问题解释了淘宝购物车中的商品关系,类似于商业领域中的购物篮分析。 聚类问题解释了机器视觉中的目标识别和扫地机器人如何看到世界。 分类问题解释了自动驾驶中的复杂问题,如chatgpt。

        讨论了一个分数叫做支持度,它表示某个事物在某个方面的得分情况。例如,假设有八张购物小票,每张小票代表一个支持度分数,表示在购买的物品中,面包的得分情况。具体来说,支持度分数是N分之X,其中N代表购物小票的数量,X代表面包的出现次数。因此,面包的支持度分数是8分之X,表示在这八张购物小票中,面包出现了8次。

        支持度表示两个物品之间的关系,支持度越大关系越大。置信度来解决无法理解的复杂公式或定义的问题。
        4. 这个技巧可以用于其他课程中难以理解的公式或定义。

        4.如何将算法细化为PYTHON代码。
        强调了掌握算法和数学的重要性。 提到了分析现实问题的步骤,包括讲算法、细化为PYTHON代码、导入数据和跑出结果。

        5. 提到了Apriori算法,是一个代表性的三页分析的四最后一页是整合的。

        频繁出现的物品集的子集一定是频繁的;不频繁出现的物品级的超级它一定不频繁。比如:电池不频繁出现,所以它和其他物品的组合也不频繁。

        6. 聚类问题是指将散列的点分成若干堆,通过衡量点与中心点的距离来确定堆的分组。 聚类算法可以帮助找出数据中相似的群体,并观察他们的共同特性。聚类算法在日常生活中的应用包括推荐商品、了解用户购买偏好等。

        机器人的视觉聚类问题是通过将不同像素格的RGB数字进行聚类,分出不同的层次。人眼和机器人的视觉看到的世界是一样的,但在大脑中的还原过程可能存在差异,这需要通过聚类算法来解决。

        7.分类问题及神经网络的实现
         分类的过程需要借助历史数据和新数据的特征来进行训练和分类。训练分类器是分类问题的一个重要部分,通过训练分类器,可以将新数据分成不同的组。

        A. 人类大脑中有大量的神经元,每个神经元与其他神经元相连。神经元的放电时间为1秒钟,而计算机晶体管的放电时间为10的负10次方秒,是神经元的七倍快。人类的视觉识别速度为0.1秒,而计算机目前无法达到这个速度。
        神经网络在处理重复和复杂问题时比计算机快,但在没有训练过的情况下,计算机仍然比人类快。自动驾驶利用神经网络识别路况并让车辆进行相关操作,未来的5G时延可以实现在云端处理。

        神经网络和自动驾驶


        B.遗传算法是一种简单的迭代方法,可以用于人工选择。

         遗传算法的上限非常高,可以帮助解决不知道结果的问题。 遗传算法可以在不断迭代中帮助解决实验中的问题.遗传算法可以用于解决各种问题,包括组合数学和计算机科学领域的问题。

        要点七:数据挖掘和自然语言处理的影响

        用户在抖音和头条上的操作也是遗传算法的筛选过程,最终决定了推送的内容。通过不断迭代,用户的偏好会影响推送内容的策略,但回到之前的迭代路径是不可能的。

        1. 技术原理非常简单,将文字、图像、音频视频转化为数字,进行数据挖掘。自然语言处理有趣,通过将文字转化为数字,利用分类关联进行数据挖掘,发现文字之间的关联。数据挖掘的对象是文字和文字之间的关联。

        1. NLP(自然语言处理)是一种处理语言的能力,不同语言文字的处理能力不同,英文相对容易,汉语没有空格,所以处理起来更困难。
        2. 在自然语言处理的应用过程中,情感分析是一种常见的应用。情感分析是指对文本进行情感分析,理解文本中的情感倾向。情感分析可以应用于各种领域,如营销、广告、客户服务等。
        3. 情感分析需要通过学习和训练来提高处理能力,可以使用各种算法和模型来实现。

技术原理是将数字转换成算法来处理各个领域的问题。
        4. 在数据分析、自然语言处理和挖掘等领域中,需要了解相关专业知识。学好本专业基础上,了解相关技术可以为职业发展提供优势,不一定要跨学科学习IT专业,因为该专业供大于求。

要点八:提出的问题。

1. 讨论了未来数据分析专业在工商、劳经等相关专业中的角色和影响。
2. 提出了思考未来应该从事什么样的工作或学习什么样的技能来提升竞争优势。
3. 强调了写出判断和规划的重要性。

相关文章:

大数据与人工智能|万物皆算法(第三节)

要点一:数据与智能的关系 1. 一切的核心都是数据,数据和智能之间是密切相关的。 数据是对客观现实的描述,而信息是数据转化而来的。 例如,24是数据,但说“今天的气温是24摄氏度”是信息,而说“班可以分成24…...

[语音识别]开源语音识别faster-whisper模型下载地址

官方源码: https://github.com/SYSTRAN/faster-whisper 模型下载地址: large-v3模型:https://huggingface.co/Systran/faster-whisper-large-v3/tree/main large-v2模型:https://huggingface.co/guillaumekln/faster-whisper-l…...

JS + CSS 实现高亮关键词(不侵入DOM)

之前在做关键词检索高亮功能的时候,研究了下目前前端实现高亮的几种方式,第一就是替换dom元素实现高亮,第二就是利用浏览器新特性Css.highlights结合js选区与光标与CSS高亮伪类实现,实现功能如下: 一、页面布局 一个…...

Qt 中使用 MySQL 数据库保姆级教程(下)

作者:billy 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 前言 上篇中我们安装好了 MySQL 数据库和 Navicat 软件,下面在 Qt 中尝试使用数据库 1. 在 Qt 中连接 MySQL 数据库&#…...

【数据库原理】(1)数据库技术的发展

数据与信息 数据:数据并非只是数字,像文字、符号、图像、影音等都属于数据的范畴。但一般会用数字来表述客观事物的数量、质量、关系等,便于更加直观的看待问题。 语义:数据还需要结合关联的语义解释才能够清晰的描述事物&#…...

【动态规划】【字符串】C++算法:正则表达式匹配

作者推荐 视频算法专题 涉及知识点 动态规划 字符串 LeetCode10:正则表达式匹配 给你一个字符串 s 和一个字符规律 p,请你来实现一个支持 ‘.’ 和 ‘’ 的正则表达式匹配。 ‘.’ 匹配任意单个字符 ’ 匹配零个或多个前面的那一个元素 所谓匹配,是…...

fgetc_fgets_getc_getchar

一、fgetc 1、从流中读取下一个字符 下一个的意思是紧跟在指针后面的,对于一个刚打开文件的流,指针在文件的最前面,它的下一个字符就是文件的第一个字符。读完第一个字符后,指针就会走到第一个字符后面,这时它的下一个…...

12.30_黑马数据结构与算法笔记Java

目录 320 全排列无重复 Leetcode47 321 组合 Leetcode77 分析 322 组合 Leetcode77 实现 323 组合 Leetcode77 剪枝 324 组合之和 Leetcode 39 325 组合之和 Leetcode 40 326 组合之和 Leetcode 216 327 N皇后 Leetcode51-1 328 N皇后 Leetcode51-2 329 解数独 Leetco…...

【电路笔记】-电容分压器

电容分压器 文章目录 电容分压器1、概述2、串联电容器的电压分布3、电容分压器示例14、电容分压器示例2 分压器电路可以由电抗元件构成,就像由固定值电阻器构成一样容易。 1、概述 但就像电阻电路一样,电容分压器网络即使使用属于电抗元件的电容器&…...

线性代数基础知识

计算机视觉一些算法中常会用到线性代数的一些知识,为了便于理解和快速回忆,博主这边对常用的一些知识点做下整理,主要来源于如下这本书籍。 1. 矩阵不仅仅是数字排列而已,不然也不会有那么大精力研究它。其可以表示一种映射 关于…...

Linux Shell 016-文本比较工具diff

Linux Shell 016-文本比较工具diff 本节关键字:Linux、Bash Shell、文本比较 相关指令:diff、cat、patch diff介绍 diff工具用于逐行比较文件的不同,如果指定要比较目录,则diff会比较目录中相同文件名的文件,但不会…...

八股文打卡day13——计算机网络(13)

面试题:DNS是什么?DNS的查询过程是什么? 我的回答: 我来讲一下我对DNS的理解 DNS是域名系统,它是一个域名和IP地址相互映射的数据库。通过DNS,可以将我们浏览器中输入的域名,例如:…...

android studio导入module

在Android Studio中导入一个Module(模块),可以按照以下步骤进行操作: 打开Android Studio,并打开你的项目。在菜单栏中,点击 "File"(文件)-> "New"&#xf…...

Prometheus通过consul实现自动服务发现

环境,软件准备 本次演示环境,我是在虚拟机上安装 Linux 系统来执行操作,以下是安装的软件及版本: System: CentOS Linux release 7.6Docker: 24.0.5Prometheus: v2.37.6Consul: 1.6.1 注意:这里为了方便启动 Prometheus、Consul服…...

c++11--原子操作,顺序一致性,内存模型

1.原子操作 多线程下为了实现对临界区资源的互斥访问,最普遍的方式是使用互斥锁保护临界区。 然而,如果临界区资源仅仅是数值类型时,对这些类型c提供了原子类型,通过使用原子类型可以更简洁的获得互斥保护的支持。 (1). 一个实例…...

【数据结构】栈和队列(队列的基本操作和基础知识)

🌈个人主页:秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343🔥 系列专栏:《数据结构》https://blog.csdn.net/qinjh_/category_12536791.html?spm1001.2014.3001.5482 ​ 目录 前言 队列 队列的概念和结构 队列的…...

设计模式——适配器模式(Adapter Pattern)

概述 适配器模式可以将一个类的接口和另一个类的接口匹配起来,而无须修改原来的适配者接口和抽象目标类接口。适配器模式(Adapter Pattern):将一个接口转换成客户希望的另一个接口,使接口不兼容的那些类可以一起工作,其别名为包装…...

测试C#使用OpenCvSharp从摄像头获取图片

OpenCvSharp也支持获取摄像头数据,不同于之前测试AForge时使用AForge控件显示摄像头数据流并从中截图图片,OpenCvSharp中显示摄像头数据流需要周期性地从摄像头中截取图片并显示在指定控件中。本文学习C#使用OpenCvSharp从摄像头获取图片的基本方式。  …...

【基础】【Python网络爬虫】【12.App抓包】reqable 安装与配置(附大量案例代码)(建议收藏)

Python网络爬虫基础 App抓包1. App爬虫原理2. reqable 的安装与配置reqable 安装教程reqable 的配置 3. 模拟器的安装与配置夜神模拟器的安装夜神模拟器的配置配置代理配置证书 4. 内联调试及注意事项软件启动顺开启抓包功reqable面板功列表部件功能列表数据快捷操作栏 夜神模拟…...

LabVIEW在电机噪声与振动探测的应用

LabVIEW在电机噪声与振动探测的应用 硬件部分是电机噪声和振动测试分析系统的基础,主要由三大核心组件构成:高灵敏度振动传感器、先进的信号调理电路和高性能数据采集卡。这些设备协同工作,确保了从电机捕获的噪声和振动信号的准确性和可靠性…...

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…...

基于算法竞赛的c++编程(28)结构体的进阶应用

结构体的嵌套与复杂数据组织 在C中,结构体可以嵌套使用,形成更复杂的数据结构。例如,可以通过嵌套结构体描述多层级数据关系: struct Address {string city;string street;int zipCode; };struct Employee {string name;int id;…...

设计模式和设计原则回顾

设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...

使用VSCode开发Django指南

使用VSCode开发Django指南 一、概述 Django 是一个高级 Python 框架,专为快速、安全和可扩展的 Web 开发而设计。Django 包含对 URL 路由、页面模板和数据处理的丰富支持。 本文将创建一个简单的 Django 应用,其中包含三个使用通用基本模板的页面。在此…...

《Playwright:微软的自动化测试工具详解》

Playwright 简介:声明内容来自网络,将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具,支持 Chrome、Firefox、Safari 等主流浏览器,提供多语言 API(Python、JavaScript、Java、.NET)。它的特点包括&a…...

系统设计 --- MongoDB亿级数据查询优化策略

系统设计 --- MongoDB亿级数据查询分表策略 背景Solution --- 分表 背景 使用audit log实现Audi Trail功能 Audit Trail范围: 六个月数据量: 每秒5-7条audi log,共计7千万 – 1亿条数据需要实现全文检索按照时间倒序因为license问题,不能使用ELK只能使用…...

Java入门学习详细版(一)

大家好,Java 学习是一个系统学习的过程,核心原则就是“理论 实践 坚持”,并且需循序渐进,不可过于着急,本篇文章推出的这份详细入门学习资料将带大家从零基础开始,逐步掌握 Java 的核心概念和编程技能。 …...

MySQL用户和授权

开放MySQL白名单 可以通过iptables-save命令确认对应客户端ip是否可以访问MySQL服务: test: # iptables-save | grep 3306 -A mp_srv_whitelist -s 172.16.14.102/32 -p tcp -m tcp --dport 3306 -j ACCEPT -A mp_srv_whitelist -s 172.16.4.16/32 -p tcp -m tcp -…...

Fabric V2.5 通用溯源系统——增加图片上传与下载功能

fabric-trace项目在发布一年后,部署量已突破1000次,为支持更多场景,现新增支持图片信息上链,本文对图片上传、下载功能代码进行梳理,包含智能合约、后端、前端部分。 一、智能合约修改 为了增加图片信息上链溯源,需要对底层数据结构进行修改,在此对智能合约中的农产品数…...

保姆级教程:在无网络无显卡的Windows电脑的vscode本地部署deepseek

文章目录 1 前言2 部署流程2.1 准备工作2.2 Ollama2.2.1 使用有网络的电脑下载Ollama2.2.2 安装Ollama(有网络的电脑)2.2.3 安装Ollama(无网络的电脑)2.2.4 安装验证2.2.5 修改大模型安装位置2.2.6 下载Deepseek模型 2.3 将deepse…...