论文
登录后可查看剩余解析次数。
标签筛选
MAGVIT: Masked Generative Video Transformer
发表:2022/12/10
生成视频Transformer视频合成任务Kinetics-600基准测试空间-时间视觉标记多任务学习
论文提出MAGVIT,一个掩码生成式视频变换器,旨在通过统一模型解决多种视频合成任务。方法上引入3D视频tokenizer高效量化视频,并采用多任务掩码建模提升生成能力。实验显示MAGVIT在各类基准测试中表现优异,显著提升生成质量与效率。
02
Learning-based legged locomotion: State of the art and future perspectives
发表:2025/1/22
基于学习的四足机器人运动类人机器人双足运动深度学习与机器人系统模拟学习运动技能的历史与现状动作学习在机器人领域的应用
本文综述了基于学习的腿部运动的最新进展,探讨其历史、现状及未来发展。重点分析了深度学习、机器人系统模拟和硬件进步在四足和双足运动技能学习中的作用,强调了该领域的关键问题和社会影响。
01
Taming Transformers for High-Resolution Image Synthesis
发表:2020/12/18
生成对抗策略优化扩散模型图像超分辨率图像合成
本文提出了一种结合卷积神经网络(CNN)高效归纳偏置与转换器(Transformer)强大表达能力的方法,以有效合成高分辨率图像。通过先使用CNN学习图像元素的上下文丰富“词汇表”,再利用Transformer建模这些元素的组合,成功实现了百万像素级的语义引导图像合成,并取得了当时在类条件ImageNet任务中的最先进成果。
04
VideoGPT: Video Generation using VQ-VAE and Transformers
发表:2021/4/21
视频生成模型VQ-VAE 和 Transformer 联合应用BAIR 机器人数据集UCF-101 数据集自回归生成模型
本文提出了VideoGPT,采用VQVAE和简洁的Transformer架构用于自然视频的生成。模型分为两个阶段:首先通过3D卷积和轴向自注意力机制学习视频的离散潜在表示,然后使用自回归方式建模。这种方法在BAIR机器人数据集上生成的样本质量优于先进的GAN模型,在UCF101和TGIF数据集上也能生成高保真的自然视频,具有可复现性。
04
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image
发表:2025/2/18
3D高斯Splatting基于稀疏体素的3D生成模型物理信息神经网络动态图存储系统
本文提出一种名为CAST的新颖方法,用于从单个RGB图像中恢复高质量3D场景。CAST首先提取对象级的2D分割和相对深度信息,然后使用基于GPT的模型分析对象间的空间关系。接着,利用遮挡感知的3D生成模型生成每个对象的完整几何形状,并通过对齐生成模型计算变换,从而准确地将生成网格整合入场景中。最后,引入物理感知校正以保证物理一致性和空间连贯性。
03
UNGER: Generative Recommendation with A Unified Code via Semantic and Collaborative Integration
发表:2025/10/28
生成式推荐系统基于知识图谱的推荐系统个性化推荐系统多模态推荐系统在线推荐系统优化
本文提出了UNGER,一种通过将语义和协作信息整合为统一代码的生成式推荐方法,旨在解决信息过载问题及现有系统编码冗余的挑战。采用两阶段框架,该模型有效构建了可学习的模态适应层以优化编码过程,显著降低了存储与推理成本。研究发现,这种新方法不仅提高了推荐系统的效率,还充分利用了不同模态间的互补优势,为推荐系统的大规模部署提供了可行性。
06
REB-former: RWKV-enhanced E-branchformer for Speech Recognition
发表:2025/8/17
语音识别模型E-BranchformerRWKV增强机制LibriSpeech数据集注意力机制优化
本文提出了一种名为 REBformer 的模型,该模型基于 RWKV 增强的 EBranchformer,旨在解决自注意力机制的二次复杂度问题。通过交错使用 EBranchformer 和 RWKV 层,结合 GroupBiRWKV 模块,有效提升计算效率和语音建模能力,在 LibriSpeech 数据集中实现了最先进的性能,WER 降低最高达 7.1%。
03
FICLRec: Frequency enhanced intent contrastive learning for sequential recommendation
发表:2025/6/11
序列推荐系统频率增强意图对比学习用户购买行为建模数据稀疏性问题真实世界推荐数据集
本文提出了一种名为FICLRec的频率增强意图对比学习推荐模型,旨在解决现有序列推荐系统中低频意图偏好与高频意图捕获不足的问题。FICLRec通过利用用户潜在意图的频率信息和频率对比学习技术,显著提高了模型在五个真实数据集上的推荐性能,证明了其有效性。
04
WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation
发表:2025/11/15
多模态模型交互式图像理解与生成跨模态推理与记忆WEAVE-100k数据集WEAVEBench基准测试
本文提出了WEAVE,一个首个针对上下文交错的跨模态理解与生成套件,包括WEAVE100k大规模数据集和WEAVEBench基准测试。实验显示,该套件明显增强了模型的视觉理解、图像编辑和协同生成能力,并帮助模型发展视觉记忆。
07
ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation
发表:2025/11/3
统一多模态模型评估交互式跨模态推理人类标注基准测试多模态生成任务交替推理模型
本文提出了基准测试ROVER,旨在评估统一多模态模型中的互惠跨模态推理能力。ROVER结合1312个任务,通过语言增强的视觉生成和视觉增强的语言生成两种设置,测试一种模态如何引导另一种模态的输出。实验结果表明,模型在交互推理能力上表现显著,并指出其在物理推理和符号推理任务中的差异。
02
Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
发表:2025/10/31
视频模型零样本推理评估MME-CoF基准数据集视频生成模型的推理能力时序一致性建模Chain-of-Frame推理
本研究探讨了视频生成模型(以Veo3为例)作为零样本推理器的能力,提出“视频帧链”推理概念,构建MMECoF基准以评估12个推理维度。结果显示,模型在短期空间连贯性表现良好,但在长程因果推理和几何约束上存在明显局限,尚不能独立运作。
05
Spatial Context Energy Curve-Based Multilevel 3-D Otsu Algorithm for Image Segmentation
发表:2019/6/4
三维图像分割算法Otsu阈值分割上下文特征建模图像质量增强低信噪比图像处理
本文提出了基于空间上下文能量曲线的多层三维Otsu图像分割算法,针对传统方法在处理低对比度和低信噪比图像时的计算复杂度问题,通过融合像素强度与空间信息显著提升图像分割效果。实验结果显示该算法在多个指标中优于现有方法,证明了其有效性与优越性。
03
FailSafe: Reasoning and Recovery from Failures in Vision-Language-Action Models
发表:2025/10/2
视觉语言动作模型机器人操作故障恢复失败生成与恢复系统机器人操作数据集大规模机器人训练数据
论文提出FailSafe,旨在实现视觉语言动作(VLA)模型的失败推理与恢复。该系统自动生成多样的失败案例及可执行的恢复动作,显著提升机械臂的失败识别和恢复能力。通过微调LLaVAOneVision7B,FailSafeVLM在多任务上展示出最高22.6%的性能提升,展示了其在不同空间布局和视角下的泛化能力。
08
Multilevel Thresholding for Image Segmentation Using Mean Gradient
发表:2022/2/22
图像分割算法多级阈值处理梯度向量图像处理图像二值化技术参数化预处理方法
本研究提出了一种简单有效的非迭代全局及二级阈值处理技术,利用图像梯度向量将图像二值化为三个簇,同时引入参数化预处理方法用于图像复原。实验结果显示,该方法在面对高计算成本和多种图像退化时,表现优于传统的Otsu技术。
02
A Comprehensive Survey of Multi‑Level Thresholding Segmentation Methods for Image Processing
发表:2024/3/27
多级阈值分割图像处理技术元启发式算法阈值选择自动化复杂图像处理
本文全面综述了图像处理中的多级阈值分割方法,强调通过多范围强度分区来捕捉图像复杂性。重点讨论了元启发式算法在优化阈值方面的应用,同时分析了各种方法的优缺点及未来研究方向,如处理复杂图像和自动确定阈值。
03
Analysis of Image Processing Using Morphological Erosion and Dilation
发表:2021/10/1
形态学图像处理技术图像特征提取图像噪声去除形态学腐蚀与膨胀
本研究聚焦于形态学图像处理中的侵蚀和膨胀技术,通过实验分析不同结构元素对图像特征提取及噪声去除的影响,提出了一种优化的图像增强方法。关键方法包括对多种图像应用侵蚀与膨胀操作,评估其在提高图像清晰度和可解释性方面的效果。研究结果表明,适当的结构元素选择显著改善了前景与背景的分离,增强了重要结构的信息,为后续的图像处理任务提供了更高的精度和可靠性。
02
$\mathcal{D(R,O)}$ Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping
发表:2024/10/3
交互模型与机器人操作复杂环境中的灵巧抓取基于点云的抓取预测机器人手的适应性与通用性跨体态灵巧操作框架
本文提出了一种名为D(R,O) Grasp的新框架,可建模机器人手与物体的交互,实现对多种机器人手和物体几何形状的广泛泛化。该模型通过机器人手部描述和物体点云输入,能有效预测稳定的抓取,实验结果显示在仿真和实际环境中成功率分别达到87.53%和89%,显著提高了抓取多样性和推理速度。
03
A comprehensive review of slaughterhouse wastewater treatment and concomitant resource recovery
发表:2024/1/1
屠宰场废水处理水资源回收食品加工废水管理肉类加工行业工业废水处理技术
本文综述了屠宰场废水处理及资源回收,指出屠宰场是食品行业最大的水资源消耗和废水产生源。分析了废水特征及全球排放法规,评估了物理化学、生物和膜技术等多种处理技术,探讨了处理后水的再利用及资源回收的潜力,为环境管理提供了系统性解决方案。
01
Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy
发表:2025/11/27
音视频生成同步交叉任务协同训练全局-局部解耦交互模块同步增强无分类器引导联合扩散过程优化
本文提出了Harmony框架,针对生成音视频内容时的同步挑战,尤其是对应漂移、全局注意力机制低效和模态内偏置等问题。通过跨任务协同训练、全局局部解耦模块及同步增强型CFG,Harmony实现了精确的时序同步,显著提升了生成保真度和音视频对齐效果。
02
Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation
发表:2025/11/25
区块扩散视频生成世界模型模拟半自回归解码交互式视频流高质量视频合成
Inferix是一种基于块扩散的推理引擎,专为高质量、可变长度的沉浸式世界模拟而设计。其核心在于半自回归解码范式,结合了扩散和自回归的优点,克服了传统视频生成的局限。通过交互式视频流和性能分析,Inferix提升了实时交互能力,并支持精细基准测试,助力世界模型的进一步研究。
04
……