本篇论文已被NeurIPS 2024接收,论文第一但俊来自浙江大学&FaceChain社区,共一刘洋来自伦敦国王学院&FaceChain社区,通讯孙佰贵来自阿里巴巴&FaceChain社区,还有合作包括帝国理工学院邓健康,FaceChain社区谢昊宇、李思远,伦敦国王学院罗山。
一、前言
在数字人领域,形象的生成需要依赖于基础的表征学习。FaceChain 团队除了在数字人生成领域持续贡献之外,在基础的人脸表征学习领域也一直在进行深入研究。采用了新一代的 Transformer 人脸表征模型 TransFace 后,FaceChain 去年也是推出了 10s 直接推理的人物写真极速生成工作,FaceChain-FACT。继 TransFace 之后,FaceChain 团队最近被机器学习顶级国际会议 NeurIPS 2024 接收了一篇人脸表征学习新作, "TopoFR: A Closer Look at Topology Alignment on Face Recognition",让我们一睹为快。
二、背景
1. 人脸识别
卷积神经网络在自动提取人脸特征并用于人脸识别任务上已经取得了巨大的成功。训练基于卷积神经网络的人脸识别模型的损失函数主要分为以下两种类型:(1)基于 Metric 的损失函数,例如 Triplet loss, Tuplet loss 以及 Center loss。(2) 基于 Margin 的损失函数,例如 ArcFace, CosFace, CurricularFace 与 AdaFace。
相比于基于 Metric 的损失函数, 基于 Margin 的损失函数能够鼓励模型执行更加高效的样本到类别的比较,因此能够促进人脸识别模型取得更好的识别精度。其中,ArcFace 成为业界训练人脸识别模型首选的损失函数。
2. 持续同调
下面介绍一下持续同调与我们方法相关的一些知识。
持续同调是一种计算拓扑学方法,它致力于捕捉 Vietoris-Rips 复形随着尺度参数变化而进化的过程中所呈现的拓扑不变性特征,其主要用于分析复杂点云的潜在拓扑结构。近年来,持续同调技术在信号处理、视频分析、神经科学、疾病诊断以及表征学习策略评估等领域表现出了极大的优势。在机器学习领域,一些研究已经证明了在神经网络训练过程中融入样本的拓扑特征可以有效地提高模型的性能。
三、方法
1. 本文动机
现存的人脸识别工作主要关注于设计更高效的基于 Margin 的损失函数或者更复杂的网络架构,以此来帮助卷积神经网络更好地捕捉细腻度的人脸特征。
近年来,无监督学习和图神经网络的成功已经表明了数据结构在提升模型泛化能力中的重要性。大规模人脸识别数据集中天然地蕴含着丰富的数据结构信息,然而,在人脸识别任务中,目前还没有研究探索过如何挖掘并利用大规模数据集中所蕴含的结构信息来提升人脸识别模型在真实场景中的泛化性能。因此本文致力于将大规模人脸数据集中内在的结构信息注入进隐层空间中,以此来显著提升人脸识别模型在真实场景中的泛化性能。
我们使用持续同调技术调研了现存的基于卷积神经网络的人脸识别模型框架数据结构信息的变化趋势,如图 1 与图 2 所示,并得到了以下三个新颖观测结论:
(i)随着数据量的增大,输入空间的拓扑结构变得越来越复杂
(ii)随着数据量的增大,输入空间与隐层空间的拓扑结构差异越来越大
(iii)随着网络深度的增加,输入空间与隐层空间的拓扑结构差异越来越小,这也揭示了为什么越深的神经网络能够达到越高的人脸识别精度。
图 2:(a) 我们首先使用基于 ResNet-50 架构的 ArcFace 模型对 MS1MV2 训练集执行推断,以此来探究数据量与拓扑结构差异之间的关系。在推断时,batch-size 被分别设置为 256、1024 和 2048,并分别进行了 1000 次迭代。我们使用直方图来近似这些拓扑结构差异分布。
(b) 其次,我们使用具有不同 ResNet 架构的 ArcFace 模型在 MS1MV2 训练集上进行推断(batch-size=128)以此来研究网络深度与拓扑结构差异之间的关系。
(c) 此外,我们研究了训练过程中拓扑结构差异的变化趋势(批量大小 = 128),发现 i) 直接使用 PH 对齐拓扑结构会导致差异急剧减少至 0,这意味着隐层空间的拓扑结构遭遇了结构崩塌现象;ii) 而我们的 PTSA 策略促进了结构差异的平稳收敛,有效地将输入空间的结构信息注入进隐层空间。
(d) 直接使用 PH 对齐拓扑结构会导致模型在 IJB-C 测试集中出现显著差异。我们的 PTSA 策略有效缓解了这种过拟合问题,在 IJB-C 数据集上评估过程中展现出更小的拓扑结构差异。
基于以上的观测结论,我们可以推断出,在大规模识别数据集上训练人脸识别模型时,人脸数据的结构信息将被严重破坏,这无疑限制了人脸识别模型在真实应用场景中的泛化能力。
因此,本文研究的问题是,在人脸识别模型训练过程中,如何在隐层空间有效地保留输入空间的数据所蕴含的结构信息,以此提升人脸识别模型在真实场景中的泛化性能。
2. 具体策略
2.1 模型的整体架构
针对上述问题,本文从计算拓扑学角度出发,提出了基于拓扑结构对齐的人脸识别新框架 TopoFR,如下图 3 所示。
2.2 扰动引导的拓扑结构对齐策略 PTSA
我们发现,直接采用持续同调技术对齐人脸识别模型输入空间和隐层空间的拓扑结构,难以在隐层空间上本质保留输入空间的结构信息,进而容易导致模型的隐层空间遭遇结构崩塌现象。为了解决这个问题,我们提出了扰动引导的拓扑结构对齐策略 PTSA,其包含了两个机制:随机结构扰动 RSP 和 不变性结构对齐 ISA。
随机结构扰动 RSP
2.3 结构破坏性估计 SDE
在实际的人脸识别场景中,训练集通过会包含一些低质量的人脸图像,这也被称为困难样本。这些困难样本在隐层空间中很容易被编码到靠近决策边界附近的异常位置,严重破坏了隐层空间的拓扑结构,并会影响输入空间和隐层空间拓扑结构的对齐。
为了解决这个问题,我们提出了结构破坏性估计策略 SDE 来精准地识别出这些困难样本,并鼓励模型在训练阶段重点学习这些样本,逐渐引导起回归到合理的空间位置上。
预测不确定性
困难样本通常分布在决策边界附近,因此也有着较大的预测不确定性 (即分类器处的预测分布熵较大) ,这也是其容易被错误分类的原因。为精准地筛选出这些困难样本,我们提出利用高斯 - 均匀混合分布概率模型来建模这些样本的预测不确定性,其利用分类器处的预测熵作为概率分布的变量:
四、关键实验及分析
1.1 训练数据集与测试基准
我们分别采用 MS1MV2 (5.8M 图像,85K 类别),Glint360K (17M 图像,360K 类别) 以及 WebFace42M (42.5M 图像,2M 类别) 作为我们模型的训练集。
利用 LFW, AgeDB-30, CFP-FP, IJB-C 以及 IJB-B 等多个人脸识别测试基准来评估我们模型的识别与泛化性能。
1.2 在 LFW, CFP-FP, AgeDB-30, IJB-C 以及 IJB-B 测试基准上的实验结果
我们可以观察到,TopoFR 在这些简单的基准上的性能几乎达到了饱和,并显著高于对比方法。此外,TopoFR 在不同 ResNet 框架下都取得了 SOTA 性能。值得一提的是,我们基于 ResNet-50 架构的 TopoFR 模型甚至超越了大部分基于 ResNet-100 的竞争者模型。
1.3 高斯 - 均匀混合分布概率模型的有效性
为验证高斯 - 均匀混合分布概率模型在挖掘困难样本方面的有效性,我们展示了模型训练过程中利用分类器预测熵所估计的高斯分布密度函数,如下图 4 所示。
1.4 扰动引导的拓扑结构对齐策略的泛化性能
为表明此拓扑结构对齐策略 PTSA 在保持数据结构信息方面的一流泛化性能,我们在 IJB-C 测试集上调查了 TopoFR 模型与其变体 TopoFR-A 在输入空间与隐层空间上的拓扑结构差异,如下图 5 所示。值得一提的是,变体 TopoFR-A 直接利用持续同调技术来对齐两个空间的拓扑结构。
所得到的可视化统计结果明显地表明了我们所提出的扰动引导的拓扑结构对齐策略 PTSA 在保留数据结构信息方面的有效性和泛化性。
图 5:TopoFR 和变体 TopoFR-A 在不同网络主干架构和训练数据集上的拓扑结构差异 [网络主干架构,训练数据集]。变体 TopoFR-A 直接利用持续同调技术对齐两个空间的拓扑结构。值得注意的是,我们使用 Glint360K 数据集训练的 TopoFR 模型在 IJB-C 测试集上几乎完美地对齐了输入空间和隐层空间的拓扑结构(即蓝色直方图几乎收敛为一条直线)。
五、结论
本文提出了一种人脸识别新框架 TopoFR,其有效地将隐藏在输入空间中的结构信息编码到隐层空间,极大地提升了人脸识别模型在真实场景中的泛化性能。一系列在主流的人脸识别基准上的实验结果表明了我们 TopoFR 模型的 SOTA 性能。
异常检测笔记总结
what异常检测异常检测定义异常检测是数据挖掘的重要任务,近年来成为人工智能领域的研究热点。 对于什么是异常,并没有标准答案,通常取决于具体应用场景。 一般来说,异常是指与其他观察结果有很大差异的观察结果,足以引起怀疑它是由不同机制产生的。 这一定义虽然比较笼统,但实际上包含了认定“异常”的两个标准或假设。 这些异常可能是由于错误、异常事件、变化模式或其他因素引起的。 在异常检测中,我们通常称正常数据为“inliers”(内点),而异常数据为“outliers”或Anomalies(离群点)。 异常检测问题的定义1李宏毅老师定义给定一组训练数据 {x1, x2, ..., xn},希望找到一个函数,用于判断输入 xi 是否与训练数据类似。 不同的方法使用不同的方式来确定相似性,并根据相似性判断异常。 2微软kdd2019-Time-Series Anomaly Detection Service at Microsoft【将谱残差(SR)模型从视觉显著性检测领域借用到时间序列异常检测中】Given a sequence of real values, i.e., x = x1, x2, ..., xn, the task of time-series anomaly detection is to produce an output sequence, y = y1,y2, ...,yn, where yi ∈ {0, 1} denotes whether xi is an anomaly point.单变量:给定一个实值序列,即 x = x1, x2, ..., xn,时间序列异常检测的任务是生成一个输出序列 y = y1, y2, ..., yn,其中 yi ∈ {0, 1} 表示 xi 是否是异常点。 3icde2021-DAEMON Unsupervised Anomaly Detection and Interpretation for Multivariate Time SeriesIn this paper, we aim to detect anomalies for multivariate time series. Given a collection of multivariate time series, X = {x₁, x₂, ··· , xₙ}, where n is the length of X, and an entity xₜ is an M-dimensional vector (metrics) at time t, i.e., xₜ ∈ ℝᴹ, the goals can be described as follows: - Anomaly detection: determining whether the current entity xₜ is anomalous or not. - Anomaly interpretation: given an anomalous entity, identifying the dimensions which most likely cause the anomaly.多变量:本文旨在检测多变量时间序列中的异常。 给定一个多变量时间序列集合,X = {x₁, x₂, ··· , xₙ},其中 n 是 X 的长度,而实体 xₜ 是时间 t 上的 M 维向量(度量),即 xₜ ∈ ℝᴹ,目标可以描述如下:补充:Ismail Fawaz H, Forestier G, Weber J, et al. Deep learning for time series classification: a review[J]. Data mining and knowledge discovery, 2019, 33(4): 917-963.用于时间序列分类的统一深度学习框架在多元时间序列异常检测系统中,必须考虑不同时间序列之间的相关性。 补充:时序数据是一组按照时间顺序排列的数据的集合,与普通数据不同,时序数据不仅蕴含数据内部的语义信息,数据之间也存在着语义依赖关系(即时序数据的“序列性”)。 时序数据特征:从统计域(Statistical Domain)、谱域(Spectral Domain)和时域(Temporal Domain)异常检测类别根据数据之间是否存在上下文关系, 将异常分为点异常、上下文异常和集群异常:例子:信用卡平时每天消费0~200假设数据分布是基于正弦函数,包含三种异常类型的数据异常的多样性:图片来自论文:Murray Dunne (2019). Aggregation of Heterogeneous Anomaly Detectors for Cyber-Physical Systems. UWSpace. 噪音和异常的区别:(噪音和异常的区别:异常跟正常数据不一样,引起人民的注意;噪音跟正常数据不一样,可能没有引起人们的注意)why异常检测异常数据无用异常数据有用数据预处理时,分析异常数据,把异常数据转化为各种应用领域中的重要可操作信息:how异常检测异常检测方法1基于规则的异常检测2 基于统计学的异常检测方法:识别数据中的异常值。 3 基于机器学习的异常检测方法:识别数据中的异常值。 4 基于深度学习的异常检测方法:识别数据中的异常值。 学习内容快速了解这个领域快速了解异常检测领域,你可以采取以下步骤:阅读经典论文人工智能数据挖掘:SIGMOD,SIGKDD,SIGIR,VLDB, ICDE,;TKDE领域研究机构和专家教程和开源库开源库经典例子使用自动编码器进行时间序列异常检测异常检测实战:基于机器学习的信用卡欺诈检测经典论文经典综述论文1Chalapathy R, Chawla S. Deep learning for anomaly detection: A survey[J]. arXiv preprint arXiv:1901.,2019. 使用深度学习进行异常检测的方法综述2Pang G, Shen C, Cao L, et al. Deep learning for anomaly detection: A review[J]. ACM computing surveys (CSUR),2021, 54(2): 1-38. 用于异常检测的深度学习:综述对深度学习的异常检测进行分类:3Darban Z Z, Webb G I, Pan S, et al. Deep learning for time series anomaly detection: A survey[J]. arXiv preprint arXiv:2211.,2022. 用于时间序列异常检测的深度学习:综述关联研究工业缺陷检测中, 正常样本包括多类产品, 缺陷可被视为其外观上的 “异常”.考虑到上述几种任务的相似性, 在部分缺陷检测方法中也采用了异常检测、新颖点检测与 OOD检测的思路.与异常相近的概念还包括新颖点 (novelty) 和分布外数据 (out-of-distribution, OOD) :可复现的经典论文1VLDB 2022论文“TranAD:用于多元时间序列数据异常检测的深度变压器网络”2ICLR2022 异常Transformer:具有关联差异的时间序列异常检测论文审稿意见: Anomaly Transformer: Time Series Anomaly Detection with Association...论文分享: ICLR 2022分享会-吴海旭-基于关联差异的时序异常检测算法_哔哩哔哩_bilibili已在ReadPaper上回答好了 论文十问 3NeurIPS 2023论文 ADBench: Anomaly Detection BenchmarkADBench:异常检测基准代码: /Minqi824/ADB...4ICLR 2024(Spotlight)论文 ITRANSFORMER: INVERTED TRANSFORMERS AREEFFECTIVE FOR TIME SERIES FORECASTING 团队:清华软院机器学习组,阿里集团 github地址 /thuml/iTrans...数据集吴海旭分享的时序数据链接: /s/1RYOqRJ...提取码:o7qa评价指标研究方向思考第一性原理:回溯事物的本质,重新思考怎么做。 异常的本质是什么?从信息的角度思考定义数据从数据的特性的角度思考概念漂移代码示例算法应用总结与参考总结参考
腾讯(深圳)优图实验室日常实习生招聘
腾讯优图实验室,中国顶尖的人工智能研究机构,专注于推动AI技术发展与应用。 现诚邀热衷于计算机视觉的实习生,携手探索前沿研究与实践。 岗位职责参与或独立负责计算机视觉研究,成果发表在顶级会议上,并应用于实际项目和自主研发产品(如工业质检)。 研究领域涵盖但不限于通用检测/分割、零样本检测、异常检测与条件生成。 任职要求在CVPR、ICCV、ECCV、NeurIPS等顶级会议或期刊以第一发表过论文者优先。 掌握视觉领域目标检测/实例分割、视觉语言及图文生成的基本原理与训练方法。 具备重要学术比赛经验,或在关键数据集排行榜中表现优异者优先。 精通Python、PyTorch等技术。 具备卓越的思维能力,具备团队合作精神与自我驱动力。 实习期至少三个月,优先考虑实习期超过六个月者,推荐2024年后毕业。 提供与顶尖AI专家合作的机会。 在实际项目中提升技术技能与发表研究成果至顶级会议的平台。 工作地点:腾讯(深圳)优图实验室投递方式邮箱邮件主题:“优图日常实习-姓名-研究方向”投递时间:2023年12月10日至2023年1月15日
深度学习在时间序列预测的总结和未来方向分析
2023年,深度学习在时间序列预测领域虽然未取得显著突破,但进展稳健。 各大会议如Neurips、ICML和AAAI均展示了transformer结构的新改进,如BasisFormer、Crossformer和Inverted Transformer,以及将数值、文本和图像融合的新模型CrossVIT。 时间序列预测领域也出现了利用大型语言模型(MLM)的直接应用,以及针对非平稳数据的新规范化技术(san)。
总结2023年的关键发展:
展望2024年,未来方向可能包括:
尽管TimeGPT存在一些质疑,但基础模型在时间序列处理上的潜力仍值得深入探索和改进。