当前位置: 首页 > news >正文

(WWW2023)论文阅读-Detecting Social Media Manipulation in Low-ResourceLanguages

论文链接:https://arxiv.org/pdf/2011.05367.pdf

摘要

        社交媒体被故意用于恶意目的,包括政治操纵和虚假信息。大多数研究都集中在高资源语言上。然而,恶意行为者会跨国家/地区和语言共享内容,包括资源匮乏的语言。

        在这里,我们调查是否以及在何种程度上可以在低资源语言设置中检测到恶意行为者。我们发现,2016 年美国总统大选后,Twitter 打击干扰行动的一部分是,大量用他加禄语发布的账户被暂停。

        通过结合文本嵌入和迁移学习,我们的框架可以准确地检测到用他加禄语发布的恶意用户,而无需事先了解该语言的恶意内容或对其进行训练

        我们首先独立学习每种语言的嵌入模型,即高资源语言(英语)和低资源语言(他加禄语)。

        然后,我们学习两个潜在空间之间的映射来传输检测模型

        我们证明,所提出的方法显着优于包括 BERT 在内的最先进模型,并且在训练数据非常有限的环境中产生显着优势——这是处理在线平台中检测恶意活动时的常态。

引言

        虚假信息和政治操纵由来已久:例如,早在社交媒体时代到来之前的 1984 年,一个声称艾滋病毒是美国政府作为生物武器制造的故事在全世界疯传。如今,社交媒体以前所未有的速度放大和加速信息传播。 Twitter 和 Facebook 等在线社交网络 (OSN) 一直面临恶意内容的大量增长,这破坏了在线话语的真实性和真实性 [1, 21, 24, 32, 74, 77]。

        各种研究表明,OSN 已被用于恶意目的,损害了我们社会的多个组成部分 [42, 75],从地缘政治事件 [22, 27, 44, 58, 63] 到公共卫生 [14, 25, 28、52、78]。机器人和巨魔是社交媒体操纵和虚假信息活动的主要参与者 [3, 11, 26, 45, 62],通常以协调一致的方式 [29, 51, 53, 64, 67, 76]。

        人们特别关注政治背景下大规模舆论操纵的风险,最好的例子就是2016年美国总统讨论选举中的网络干扰[4, 6]。从那时起,OSN 一直在努力打击滥用行为,并在其平台上保持信任和健康的对话。尽管付出了努力,巨魔和机器人的活动似乎仍然存在[36,43,72]。例如,Twitter 识别并暂停了来自不同国家(包括俄罗斯、伊朗、孟加拉国和委内瑞拉)的恶意帐户[71],这表明存在协调一致的努力来操纵跨国家和跨语言的在线言论。最近,皮埃里等人[58] 在乌克兰和俄罗斯之间持续冲突的背景下记录了平台滥用和随后的 Twitter 干预的证据 [57]。虽然其他人已经探索了高资源语言中恶意用户的各种策略[41,43,69,70]以实现他们的检测[12,13,33,49],但在这里我们提出了一种使用迁移学习来检测恶意用户的新方法能够自动识别低资源语言中的行为不当帐户。

这项工作的贡献

        我们的目的是调查文本内容是否可以以及在多大程度上可以用作代理来检测社交媒体上的恶意活动,特别关注以低资源语言共享消息的帐户。总的来说,我们的目标是回答两个主要研究问题:

        RQ1:我们可以仅根据帐户共享的内容将其归类为恶意帐户吗?我们探索从推文中学习单词表示以识别暂停帐户的有效性。

        RQ2:我们可以从高资源语言(英语)学习模型并将知识转移到低资源语言(他加禄语)来检测暂停帐户吗?我们研究学习两个独立训练的词嵌入之间的映射是否有利于识别行为不当的帐户。

数据:美国2016年总统选举

        在本研究中,我们使用 Twitter 作为测试平台来检测关注 2016 年美国总统大选的恶意账户的活动。该数据集由近 600 万不同用户发布了约 4200 万条推文,由 [6] 首次发布。通过 Twitter Streaming API 使用 23 个选举关键词收集推文(唐纳德·特朗普 5 个、希拉里·克林顿 4 个、第三方候选人 3 个,大选任期11)。该收集是在 2016 年 9 月 16 日至 2016 年 10 月 21 日期间进行的。从收集的推文集中,删除了重复的推文,这些重复的推文可能是通过对 Twitter API 的意外冗余查询捕获的。表 1 列出了最流行的关键词和相关推文数量。虽然所有关键词都是英文,但也收集了其他语言的推文。

        我们确定了 60 多种不同的语言,其中用欧洲语言编写的推文数量最多。其中,近 500 万用户发布了超过 3760 万条英文推文。我们发现大量他加禄语的推文,他加禄语是一种南岛语,是菲律宾四分之一人口的第一语言,也是菲律宾一半以上人口的第二语言。按使用人数计算,他加禄语是美国第四大常用语言 [73],仅次于英语、西班牙语和中文,按推文数量计算,他加禄语是我们数据中排名第一的低资源语言。美国也是菲律宾境外菲律宾移民人口最多的国家之一。此外,对其维基百科规模的分析进一步证实了他加禄语的资源匮乏状况——维基百科是估计一种语言的数字资源量的常用指标。他加禄语的维基百科目前按文章数量排名第 101 位,与其在我们数据集中的流行程度形成鲜明对比。因此,我们将注意力集中在他加禄语作为这项工作的目标语言。

4 方法论

4.1 词表示

        为了学习词嵌入和训练分类模型,我们使用 FastText 框架。 FastText 没有将单词视为文本的原子单元,而是将单词表示为一袋字符 n-gram [8],其中每个 n-gram 都有自己的向量表示,并且单词表示为其组成字符 n-gram 的总和。这使得模型能够适应形态丰富、词汇量大的语言,并能更好地从较小的训练语料库中进行泛化。

        尽管基于神经网络的模型在文本分类任务中取得了相当大的成功,但它们的训练和部署成本仍然相当昂贵。 FastText 利用分层 softmax 来服务作为 softmax 分类器的快速近似,用于计算给定类别的概率分布 [38]。使用特征修剪、量化、散列和再训练来显着减小模型大小而不牺牲准确性或速度,这种方法允许在大型文本语料库上训练模型比基于神经网络的方法快得多[37]。

4.2 迁移学习

        用于自然语言处理的传统机器学习方法侧重于为特定任务训练专用模型。然而,这需要大量数据,而对于资源匮乏的语言来说,这是很难获取的。历史上,这引发了对高资源语言(主要是欧洲语言)的更多研究,从而为这些语言创建了更多资源,从而促进了这一循环。迁移学习最近兴起,作为一种利用从源语言(或源任务)学到的知识并利用它来提高目标语言(或目标任务)性能的方法。

        为了解决本工作中分析的目标语言数据稀缺的问题,我们使用 MUSE,这是一个框架,用于在同一空间中对齐来自不同语言的单语词嵌入,并允许它们之间的知识转移。 MUSE 使用 Procrustes 对齐来学习从源空间到目标空间的映射,以最小化两种语言中相似单词之间的距离 [40]。它接受两组预训练的单语言单词嵌入(例如 FastText 学习的单词嵌入)作为输入,每种语言一组,并且可以以监督或无监督的方式学习它们之间的映射。监督方法需要使用双语词典,通过识别在共享空间中应该靠近的相似单词对来帮助将两个嵌入对齐在一起。在没有这样的字典的情况下,无监督替代方案利用逆向训练来初始化源空间和目标空间之间的线性映射并生成合成并行字典。 [15]表明,这种方法可以用于执行无监督单词翻译,而无需使用任何并行数据,其结果在某些情况下甚至优于先前的监督方法。

4.3 学习任务

        单语文本分类。在第一种方法中,我们使用每种语言各自的数据集从头开始训练独立的文本分类模型。出于分类目的,我们使用 FastText 框架,它将文本表示为词袋(BoW),并将它们的单独表示平均化为组合文本表示。然后,将该文本表示形式用作具有 softmax 函数的线性分类器的输入,该函数计算标签类的概率分布以进行预测。

相关文章:

(WWW2023)论文阅读-Detecting Social Media Manipulation in Low-ResourceLanguages

论文链接:https://arxiv.org/pdf/2011.05367.pdf 摘要 社交媒体被故意用于恶意目的,包括政治操纵和虚假信息。大多数研究都集中在高资源语言上。然而,恶意行为者会跨国家/地区和语言共享内容,包括资源匮乏的语言。 在这里&#xf…...

centos-stream-9 centos9 配置国内yum源 阿里云源

源配置 tips: yum配置文件路径 /etc/yum.repos.d/centos.repo 1.备份源配置 [Very Important!]mv /etc/yum.repos.d/centos.repo /etc/yum.repos.d/centos.repo.backup2.Clean Cache: yum clean all3.Backup the Old CentOS-Base.repo If exist this file.cd /etc/yum.repos.…...

查看单元测试用例覆盖率新姿势:IDEA 集成 JaCoCo

1、什么是 IDEA IDEA 全称 IntelliJ IDEA,是 Java 编程语言开发的集成环境。IntelliJ 在业界被公认为最好的 Java 开发工具,尤其在智能代码助手、代码自动提示、重构、JavaEE 支持、各类版本工具(git、SVN 等)、JUnit、CVS 整合、代码分析、 创新的 GUI…...

js和nodejs如何将文件切片和合并

nodejs进行文件切片合并 使用nodejs读取文件流,并对流进行切片合并等操作,就需要用到Buffer对象,可对文件流进行切片,并合并。 const fs require(fs)// 读取一个文件,使用fs读取文件获取一个Buffer类型数据 const b…...

Java内存模型

Java内存模型全称JMM(Java Memory Model) 内存主要有堆和栈组成 下面来一段demo代码详细讲解堆栈的作用,以及流程 public class Employee {private String name;private Integer age;private Department department;public Employee(){}pub…...

[国产MCU]-BL602开发实例-看门狗定时器(WDG)

看门狗定时器(WDG) 文章目录 看门狗定时器(WDG)1、看门狗定时器(WDG)介绍2、看门狗定时器驱动API介绍3、看门狗定时器使用实例看门狗(Watchdog),又叫看门狗定时器(Watchdog Timer),是一种硬件的计时设备,当系统的主程序发生某些错误时,导致未及时清除看门狗计时器…...

28 | Boss直聘数据分析

针对boss直聘网的招聘信息,然后分析互联网发展排名前十的城市在互联网方面职位的薪水,学历要求,经验要求,等等信息。 准备从以下几个方面进行分析: (1)各个城市的平均工资 (2)各个学历的平均工资 (3)各个岗位的平均工资 (4)不同工作经验要求的工资 (5)各个经验…...

Hash 缓存

Hash 缓存 输出文件名(Hash) 静态资源缓存是前端性能优化的一个点,所以在前端开发过程中,一般会最大限度的利用缓存(这里主要是强缓存)。如果设置了强缓存后,每次当我们部署了新的项目文件到线…...

腾讯云CVM服务器标准型S5性能CPU处理器测试

腾讯云服务器CVM标准型S5实例是次新一代的标准型实例,CPU采用主频2.5GHzIntel Xeon Cascade Lake或者Intel Xeon Cooper Lake处理器,睿频3.1GHz,云服务器S5基于全新优化虚拟化平台,提供了平衡、稳定的计算、内存和网络资源&#x…...

【左神算法刷题班】第16节:累加和为k的数组、逆序对问题、约瑟夫环问题

题目1 给定一个有正、有负、有0的数组arr, 给定一个整数k, 返回arr的子集是否能累加出k 1)正常怎么做? 2)如果arr中的数值很大,但是arr的长度不大,怎么做? 问题 1)…...

【React | 前端】在React的前端页面中,判断某个变量值是否被定义?根据是否定义显示不同的内容?

问题描述 在React的前端页面中,判断某个变量值是否被定义?根据是否定义显示不同的内容? 问题场景 假如,现在有一个需求是设计一个新功能,新功能中要求新增一个之前没有的变量,假设是计算某一个数组的长度…...

机器学习深度学习——seq2seq实现机器翻译(数据集处理)

👨‍🎓作者简介:一位即将上大四,正专攻机器学习的保研er 🌌上期文章:机器学习&&深度学习——从编码器-解码器架构到seq2seq(机器翻译) 📚订阅专栏:机…...

锁定Mac的内置键盘,防止外接键盘时的误触

场景:把你的外接键盘放在mac上,然后打字时,发现外接键盘误触mac键盘,导致使用体验极差 解决方案:下载Karabiner-Elements这款软件,并给它开启相关权限。 地址:https://github.com/pqrs-org/Ka…...

由于找不到d3dx9_42.dll,无法继续执行代码。重新安装程序可能会解决此问题

d3dx9_42.dll是一个动态链接库文件,它是Microsoft DirectX 9的一部分。这个文件包含了DirectX 9的一些函数和资源,用于支持计算机上运行基于DirectX 9的应用程序和游戏。它通常用于提供图形、音频和输入设备的支持,以及其他与图形和游戏相关的…...

解决Vue+Element UI使用el-dropdown(下拉菜单)国际化时菜单label信息没有刷新的情况

说明:该篇博客是博主一字一码编写的,实属不易,请尊重原创,谢谢大家! 问题描述 在默认中文时,点击布局大小下拉菜单正常显示中文,此时切换至英文时,再次点击下拉菜单,还…...

Prometheus技术文档-概念

Prometheus是一个开源的项目连接如下: Prometheus首页、文档和下载 - 服务监控系统 - OSCHINA - 中文开源技术交流社区 基本概念: Prometheus是一个开源的系统监控和告警系统,由Google的BorgMon监控系统发展而来。它主要用于监控和度量各种…...

JQuery判断radio(单选框)是否选中和获取选中值方法总结

使用checked属性判断选中、jquery获取radio单选按钮的值、获取一组radio被选中项的值、设置单选按钮被选中等&#xff0c;详细如下&#xff1a; 一、利用获取选中值判断选中 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.…...

Effective Python 读书笔记

文章目录 前言第1章&#xff1a;用Pythonic方式来思考 1. 用Pythonic方式来思考 2. 遵循PEP8风格3. 了解bytes, str, unicode区别4. 用辅助函数取代复杂表达式5. 了解切割序列的方法6. 单次切片操作内&#xff0c;不要同时指定start, end, stride 7. 用列表推导取代map, filter…...

Monge矩阵

Monge矩阵 对一个m*n的实数矩阵A&#xff0c;如果对所有i&#xff0c;j&#xff0c;k和l&#xff0c;1≤ i<k ≤ m和1≤ j<l ≤ n&#xff0c;有 A[i,j]A[k,l] ≤ A[i,l]A[k,j] 那么&#xff0c;此矩阵A为Monge矩阵。 换句话说&#xff0c;每当我们从矩阵中挑…...

(5)所有角色数据分析页面的构建-5

所有角色数据分析页面&#xff0c;包括一个时间轴柱状图、六个散点图、六个柱状图(每个属性角色的生命值/防御力/攻击力的max与min的对比)。 """绘图""" from pyecharts.charts import Timeline from find_type import FindType import pandas …...

NSSCTF [NISACTF 2022]ezheap

2058.[NISACTF 2022]ezheap(堆溢出) [NISACTF 2022]ezheap 1.准备 2.ida分析 main函数 int __cdecl main(int argc, const char **argv, const char **envp) {char *command; // [esp8h] [ebp-10h]char *s; // [espCh] [ebp-Ch]setbuf(stdin, 0);setbuf(stdout, 0);s (cha…...

UE5 C++动态调用函数方法、按键输入绑定 ,地址前加修饰符

UE5 C动态调用函数方法、按键输入绑定 &#xff0c;地址前加修饰符&&#xff0c;这个符号忘记输入的话&#xff0c;编译一直报错不通过 void ASnakeHead::SetupPlayerInputComponent(UInputComponent* PlayerInputComponent) { Super::SetupPlayerInputComponent(PlayerIn…...

OPC Client第6讲(wxwidgets):Logger.h日志记录文件(单例模式);登录后的主界面

接上一讲三、2、2>4》&#xff0c;创建logger.h和helper_t.h里的gettime函数 即解决下图的报红 同时&#xff0c;接上一讲二、3、点击“确认”按钮后&#xff0c;进入MainFrame.h对应的下述界面&#xff0c;此讲下图进行实现 一、创建Logger.h&#xff1a;日志记录文件&…...

【NATURE氮化镓】GaN超晶格多沟道场效应晶体管的“闩锁效应”

2025年X月X日,布里斯托大学的Akhil S. Kumar等人在《Nature Electronics》期刊发表了题为《Gallium nitride multichannel devices with latch-induced sub-60-mV-per-decade subthreshold slopes for radiofrequency applications》的文章,基于AlGaN/GaN超晶格多通道场效应晶…...

Ubuntu24.04换源方法(新版源更换方式,包含Arm64)

一、源文件位置 Ubuntu24.04的源地址配置文件发生改变&#xff0c;不再使用以前的sources.list文件&#xff0c;升级24.04之后&#xff0c;而是使用如下文件 /etc/apt/sources.list.d/ubuntu.sources二、开始换源 1. 备份源配置文件 sudo cp /etc/apt/sources.list.d/ubunt…...

Windows10下搭建sftp服务器(附:详细搭建过程、CMD连接测试、连接失败问题分析解决等)

最终连接sftp效果 搭建sftp服务器 1、这里附上作者已找好的 freeSSHd安装包 ,使用它进行搭建sftp服务器。 2、打开freeSSHd安装包,进行安装 (1)、选择完全安装 (2)、安装完成后,对提示窗口选择关闭 (3)、安装完成后,提示是否安装私有密钥。我们选择"是" (4)、安…...

UHF RFID无源标签的芯片供电原理

作为无源物联网技术中最基础的一环,UHF RFID无源标签已经被广泛用于商超零售、物流仓储、图书档案、防伪溯源等量非常大的应用领域,仅2021年度,全球出货量就超过200亿。在实际应用中UHF RFID无源标签的芯片是究竟依靠什么来供电的呢? UHF RFID无源标签供电特点 1.借助无线…...

路由器、网关和光猫三种设备有啥区别?

无论是家中Wi-Fi信号的覆盖&#xff0c;还是企业网络的高效运行&#xff0c;路由器、网关和光猫这些设备都扮演着不可或缺的角色。然而&#xff0c;对于大多数人来说&#xff0c;这三者的功能和区别却像一团迷雾&#xff0c;似懂非懂。你是否曾疑惑&#xff0c;为什么家里需要光…...

数据结构第4章 栈、队列和数组 (竟成)

目录 第 4 章 栈、队列和数组 4.1 栈 4.1.1 栈的基本概念 4.1.2 栈的基本操作 4.1.3 栈的实现 1.顺序栈 2.链式栈 3.共享栈 4.1.4 顺序栈的基本操作实现 1.初始化栈 2.判空 3.判满 4.元素进栈 5.元素出栈 6.获取栈顶元素 4.1.5 链栈的基本操作实现 1.元素进栈 2.元素出栈 4.1.6…...

TI dsp FSI (快速串行接口)

简介 快速串行接口&#xff08;FSI - Fast Serial Interface &#xff09;模块是一种串行通信外设&#xff0c;能够在隔离设备之间实现可靠的高速通信。在两个没有共同电源和接地连接的电子电路必须交换信息的情况下&#xff0c;电气隔离设备被使用。 虽然隔离设备促进了信号通…...