
推荐文章
- [论文翻译]MixNet:面向野外复杂场景文本的精准检测
- [论文翻译]结合 EfficientNet 和 Vision Transformer 进行视频深度伪造检测
- [论文翻译]STEAD:面向时间和计算敏感应用的时空高效异常检测
- [论文翻译]AudioCLIP: 将CLIP扩展到图像、文本和音频领域⋆
- [论文翻译]CFR-ICL: 基于迭代点击损失级联前向优化的交互式图像分割
- [论文翻译]FACE: 快速、准确且上下文感知的音频标注与分类
- [论文翻译]GAP: 面向知识图谱到文本生成的图感知大语言模型框架
- [论文翻译]Pix3D: 单图像3D形状建模数据集与方法
- [论文翻译]深度学习在微笑识别中的应用
- [论文翻译]声音描述:探索提示模板与类别描述以增强零样本音频分类