Rewrite-The-Stars论文笔记

论文

发布日期: 2025-01-18

作者: plumbum

文章字数: 945

阅读时长: 3 分

结合gpt简单整理一下，随便拿kitti初步试了以下效果还不错，参量不多效果还过得去。

1. 摘要

• 核心贡献：提出star operation（逐元素乘法）能够将输入映射到高维非线性特征空间（类似核技巧），无需增加网络宽度。
• StarNet：基于star operation设计的高效网络，在紧凑结构下实现低延迟和高性能。
• 意义：揭示了star operation的潜力，鼓励跨任务探索。

2. 引言

2.1 研究背景

• 传统网络局限：依赖线性投影（卷积/全连接）与非线性激活的组合。
• 自注意力机制问题：计算复杂度随token数量平方增长，效率低。
• Star Operation兴起：在NLP（Monarch Mixer、Mamba）、CV（FocalNet、VAN）等领域表现优异，但理论支持不足。

2.2 现有解释的不足

• 直觉性假设：如调制机制（FocalNet）、高阶特征（HorNet）、卷积注意力（VAN）等，缺乏系统性分析。
• 本文动机：揭示star operation的数学本质，证明其通过隐式高维映射提升表征能力。

3. Star Operation理论分析

3.1 单层分析

• 数学形式：$(\mathbf{W}1^T \mathbf{X} + \mathbf{B}_1) \odot (\mathbf{W}_2^T \mathbf{X} + \mathbf{B}_2)$
• 重写展开：
$$\sum{i=1}^{d+1}\sum_{j=1}^{d+1} \alpha_{(i,j)} x^i x^j$$
• 生成约$\frac{(d+2)(d+1)}{2} \approx \frac{d^2}{2}$个非线性特征项。
• 系数$\alpha_{(i,j)}$由权重矩阵决定，保持低维计算，实现隐式高维映射。

3.2 多层扩展

• 递归特性：第$l$层输出维度为$R^{(\frac{d}{\sqrt{2}})^{2^l}}$。
• 指数级增长：10层网络（宽度128）隐式维度达$90^{1024}$，接近无限维。

3.3 特殊情况

非线性变换分支（如Conv2Former）：隐式维度不变。
单分支变换（如VAN）：隐式维度降至$2d$。
无变换分支（如GENet）：仅生成平方项，维度$d$。

4. 实验验证

4.1 基础实验（DemoNet）

• 架构：各向同性网络，堆叠demo blocks（含star/sum操作）。
• 关键结果：
• Width Scaling（表2）：star操作始终优于sum，且随宽度增加优势递减。
• Depth Scaling（表3）：深度增加时star优势稳定。
• 决策边界（图2）：star与多项式核SVM相似，显著优于sum和RBF核。

4.2 激活函数分析

• 无激活网络（表4）：
• Sum操作性能崩溃（66.2%→32.4%）。
• Star操作仅下降1.2%（71.7%→70.5%），证明其自带非线性。

4.3 StarNet设计

• 架构（图3）：
• 4阶段层次结构，逐阶段下采样。
• 每个阶段堆叠改进版demo block（含DWConv、ReLU6）。
• 配置（表5）：通过调整嵌入宽度和深度构建不同规模模型。

4.4 性能对比（表6）

• ImageNet-1K结果：
• StarNet-S4：78.4% Top-1，优于EdgeViT-XS（+0.9%），延迟低3倍。
• 移动端优势：iPhone13上1.0ms延迟，3倍快于EdgeViT。
• Latency-accuracy权衡（图4）：StarNet在低延迟区域显著领先。