Rewrite-The-Stars论文笔记

结合gpt简单整理一下,随便拿kitti初步试了以下效果还不错,参量不多效果还过得去。

1. 摘要

核心贡献:提出star operation(逐元素乘法)能够将输入映射到高维非线性特征空间(类似核技巧),无需增加网络宽度。
StarNet:基于star operation设计的高效网络,在紧凑结构下实现低延迟和高性能
意义:揭示了star operation的潜力,鼓励跨任务探索。


2. 引言

2.1 研究背景

传统网络局限:依赖线性投影(卷积/全连接)与非线性激活的组合。
自注意力机制问题:计算复杂度随token数量平方增长,效率低。
Star Operation兴起:在NLP(Monarch Mixer、Mamba)、CV(FocalNet、VAN)等领域表现优异,但理论支持不足

2.2 现有解释的不足

直觉性假设:如调制机制(FocalNet)、高阶特征(HorNet)、卷积注意力(VAN)等,缺乏系统性分析。
本文动机:揭示star operation的数学本质,证明其通过隐式高维映射提升表征能力。


3. Star Operation理论分析

3.1 单层分析

数学形式:$(\mathbf{W}1^T \mathbf{X} + \mathbf{B}_1) \odot (\mathbf{W}_2^T \mathbf{X} + \mathbf{B}_2)$
重写展开
$$\sum
{i=1}^{d+1}\sum_{j=1}^{d+1} \alpha_{(i,j)} x^i x^j$$
• 生成约$\frac{(d+2)(d+1)}{2} \approx \frac{d^2}{2}$个非线性特征项
• 系数$\alpha_{(i,j)}$由权重矩阵决定,保持低维计算,实现隐式高维映射

3.2 多层扩展

递归特性:第$l$层输出维度为$R^{(\frac{d}{\sqrt{2}})^{2^l}}$。
指数级增长:10层网络(宽度128)隐式维度达$90^{1024}$,接近无限维。

3.3 特殊情况

  1. 非线性变换分支(如Conv2Former):隐式维度不变。
  2. 单分支变换(如VAN):隐式维度降至$2d$。
  3. 无变换分支(如GENet):仅生成平方项,维度$d$。

4. 实验验证

4.1 基础实验(DemoNet)

架构:各向同性网络,堆叠demo blocks(含star/sum操作)。
关键结果
Width Scaling(表2):star操作始终优于sum,且随宽度增加优势递减。
Depth Scaling(表3):深度增加时star优势稳定。
决策边界(图2):star与多项式核SVM相似,显著优于sum和RBF核。

4.2 激活函数分析

无激活网络(表4):
• Sum操作性能崩溃(66.2%→32.4%)。
• Star操作仅下降1.2%(71.7%→70.5%),证明其自带非线性

4.3 StarNet设计

架构(图3):
• 4阶段层次结构,逐阶段下采样。
• 每个阶段堆叠改进版demo block(含DWConv、ReLU6)。
配置(表5):通过调整嵌入宽度和深度构建不同规模模型。

4.4 性能对比(表6)

ImageNet-1K结果
• StarNet-S4:78.4% Top-1,优于EdgeViT-XS(+0.9%),延迟低3倍。
• 移动端优势:iPhone13上1.0ms延迟,3倍快于EdgeViT。
Latency-accuracy权衡(图4):StarNet在低延迟区域显著领先。


5. 讨论与展望

5.1 开放问题

  1. 激活函数必要性:实验表明StarNet可近乎无激活运行,挑战传统设计。
  2. 与自注意力的关系:矩阵乘法与逐元素乘法的全局/局部交互差异。
  3. 隐式空间优化:如何学习系数分布(如引入跳跃连接、密集连接)。

5.2 实际意义

高效网络新范式:隐式高维映射替代显式宽度扩展,适合移动端部署。
简化设计:StarNet无需复杂模块(SE、重参数化等),验证star operation的核心作用。


6. 结论

理论贡献:首次形式化证明star operation的隐式高维映射能力,类比多项式核函数。
实践价值:StarNet验证了star operation在高效模型中的潜力,为未来研究提供新方向。


   转载规则


《Rewrite-The-Stars论文笔记》 plumbum 采用 知识共享署名 4.0 国际许可协议 进行许可。
 上一篇
Mono-ViFI论文笔记 Mono-ViFI论文笔记
VIVO新发的,感觉准确度真的高,比litemono都高不少。网络部分还没有完全弄懂。简单整理: 核心贡献 统一框架:将自监督单帧与多帧深度估计结合,共享权重实现紧凑架构 时间增强:通过光流视频插值(VFI)生成虚拟视图,解决遮挡区域的监督
2025-02-01
下一篇 
git对比与回退 git对比与回退
git对比与回退常用指令简单复习
2024-11-14
  目录