论文
登录后可查看剩余解析次数。
标签筛选
Ambiguity, Nondeterminism and State Complexity of Finite Automata
有限自动机模糊度分析有限自动机非确定性测度有限自动机构造复杂度非确定有限自动机比较
本文系统综述有限自动机中歧义性和非确定性的多种度量方法,重点分析它们对非确定性有限自动机状态复杂度的影响,揭示更高歧义或非确定性如何可能减少自动机状态数,从而深化对自动机描述复杂性的理解。
02
3DShape2VecSet: A 3D Shape Representation for Neural Fields and
Generative Diffusion Models
发表:2023/1/27
3D形状神经场表示生成式Diffusion模型基于向量集合的神经表示Transformer在3D形状编码中的应用多模态3D形状生成
提出3DShape2VecSet,一种基于向量集合的新型三维形状神经场表示,结合径向基函数及Transformer注意力机制,提升了三维形状编码与生成扩散模型性能,支持无条件、类别、文本等多模态生成及点云补全等应用。
03
Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders
发表:2024/12/24
3D形状变分自编码器锐利边缘采样策略双重交叉注意力机制几何复杂度度量基准稀疏潜空间表示
本文提出DoraVAE,通过锐边采样策略和双重交叉注意力机制增强3D形状变分自编码器的重建质量,有效保留复杂几何细节。同时引入基于锐边密度的Dorabench基准与锐法线误差指标,实现更精准的形状复杂度评估与重建性能对比。
02
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
发表:2025/3/4
单步扩散模型增强3D重建神经辐射场 (NeRF)3D Gaussian Splatting 表示新视角合成 (Novel-View Synthesis)3D重建伪训练视图净化
Difix3D提出基于单步扩散模型的创新流水线,利用训练的单步图像扩散器Difix去除3D重建中新颖视角的伪影,并通过伪训练视图的净化与蒸馏增强3D表示。该方法兼容NeRF和3DGS,实现了平均两倍FID提升及更佳3D一致性。
03
Sparc3D: Sparse Representation and Construction for High-Resolution 3D
Shapes Modeling
发表:2025/5/20
稀疏三维表示与重建稀疏卷积变分自编码器高分辨率三维形状建模隐空间扩散模型网格数据生成
Sparc3D提出稀疏可变形Marching Cubes(Sparcubes)与基于稀疏卷积的变分自编码器(SparconvVAE)结合的统一框架,实现高分辨率(1024³)任意拓扑3D模型的高保真重建与生成,显著提升细节保留和生成效率。
03
TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified
Flow Models
发表:2025/2/11
3D形状生成大规模修正流模型3D扩散模型有监督3D VAE训练高保真3D重建
本文提出TripoSG,利用大规模修正流变换器与混合监督训练策略,实现高保真3D网格合成。通过构建包含200万高质量样本的数据管道,显著提升3D形状生成的细节与输入图像对齐度,展现强泛化能力与多样性。
03
Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse
Attention
发表:2025/5/23
Spatial Sparse AttentionDiffusion Transformer稀疏体积表示3D生成框架变分自编码器 (VAE)
本文提出的Direct3DS2框架利用空间稀疏注意力机制显著提升了基于稀疏体素的Diffusion Transformer计算效率,实现了高质量千兆级3D形状生成。统一的稀疏体素变分自编码器设计提升了训练效率和稳定性,显著降低了计算资源需求,促进大规模3D生成实用化。
06
CLAY: A Controllable Large-scale Generative Model for Creating
High-quality 3D Assets
发表:2024/5/30
大规模3D生成模型3D几何与材质生成变分自编码器与扩散Transformer多模态3D条件控制物理基础渲染纹理生成
CLAY提出了一个包含多分辨率变分自编码器和潜在扩散Transformer的大规模3D生成模型,实现从多模态输入和多样的3D形式中提取丰富3D先验,生成连续完整的3D几何和高分辨率PBR纹理。采用渐进训练和超大数据集,支持多样可控的高质量3D资产创作。
05
Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal
Bridging
发表:2025/3/28
高保真3D几何生成法线桥接技术图像到法线估计法线正则化潜空间扩散学习3D数据合成管线
针对从2D图像生成高保真3D几何细节难题,Hi3DGen提出基于法线桥接的新框架,结合图像到法线估计、法线正则化潜在扩散学习及高质量3D数据合成,有效弥合域鸿沟,实现精细几何重构,超过现有技术水平。
02
Structured 3D Latents for Scalable and Versatile 3D Generation
发表:2024/12/2
结构化隐空间表示多格式3D生成视觉基础模型特征融合稀疏3D网格Rectified Flow Transformer
本文提出统一的结构化潜在表示(SLAT),结合稀疏3D网格与多视图视觉特征,实现多格式高质量3D生成。采用定制修正流变换器训练20亿参数模型,支持文本或图像条件生成,显著超越现有方法,并具备灵活输出和局部编辑能力。
14
Practical Bounds on Optimal Caching with Variable Object Sizes
发表:2018/6/12
缓存最优边界分析变对象大小缓存问题最小费用流建模离线缓存算法评估缓存系统性能限界
论文提出FOO方法,将可变大小缓存问题建模为最小成本流,实现理论最优缓存性能的紧致上下界估算。在千万级真实请求轨迹中误差极小,首次揭示可变对象大小缓存性能极限,并通过PFOO变体高效求解,证实现有在线策略仍有显著提升空间。
03
HUMAN ACTIVITY RECOGNITION AND OPTIMIZATION OF BIPED EXOSKELETES THROUGH ARTIFICIAL INTELLIGENCE: AN INTEGRATED APPROACH
发表:2025/4/25
惯性传感器人体活动识别双足外骨骼优化强化学习控制策略支持向量机与随机森林分类基于模拟环境的外骨骼训练
本文提出利用惯性传感器实现人体活动识别,并结合强化学习优化双足外骨骼控制策略。通过SVM和随机森林算法实现92%分类准确率,强化学习在模拟环境中将代谢成本降低15%,显著提升外骨骼的适应性与能效,应用前景广阔。
02
PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation
发表:2025/1/20
检索增强生成系统专业领域知识增强推理性生成模型知识分解与原子化大语言模型任务分类评估
本文提出PIKERAG框架,通过知识原子化和任务分解,增强检索增强生成系统对专业知识的提取与推理能力。基于任务复杂性分类策略,系统评估与逐步引导大语言模型生成准确响应,显著提升工业应用适应性与性能。
03
From Personas to Talks: Revisiting the Impact of Personas on
LLM-Synthesized Emotional Support Conversations
发表:2025/2/17
大语言模型情感支持对话生成人格特质注入情感支持策略建模大语言模型对话质量分析个性化情感对话生成
本研究通过心理学框架注入和测量角色特质,系统评估大型语言模型生成情感支持对话中角色特质的稳定性及其变动,揭示了角色特质影响对话质量与情感策略分布的机制,提升了个性化和同理心表达,推动情感支持对话智能化发展。
02
Thinking in Space: How Multimodal Large Language Models See, Remember,
and Recall Spaces
发表:2024/12/19
多模态大语言模型视觉空间智能基准空间认知推理视频问答系统认知地图生成
本文提出基于视频的视觉空间智能基准VSIBench,评估多模态大语言模型在空间感知、记忆和推理的能力。结果显示,模型具备初步空间意识和局部世界模型,但空间推理仍是瓶颈。生成认知地图显著提升空间距离理解,传统语言推理方法效果有限。
09
Entity Recommendation via Knowledge Graph: A Heterogeneous Networking Embedding Approach
知识图谱嵌入异构网络嵌入方法协同过滤与知识库融合文本与视觉内容表示学习推荐系统语义增强
本文提出协同知识库嵌入方法CKE,利用知识图谱中的结构化、文本和视觉信息,通过TransR异构网络嵌入与深度自编码器提取多模态语义表示,联合优化推荐系统。实验证明该方法显著优于传统协同过滤与多种融合模型。
06
ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic
Manipulation
发表:2024/3/13
3D Gaussian Splatting 表示机器人多模态学习多任务机器人操作未来场景重建动态语义传播
本文提出ManiGaussian动态高斯散点框架,通过高斯嵌入空间中的语义传播和未来场景重建,捕获场景时空动态,实现多任务机器人操作。该方法构建高斯世界模型提供丰富监督,在RLBench多任务评测中较现有方法成功率提升13.1%。
04
Emerging Properties in Unified Multimodal Pretraining
发表:2025/5/21
多模态大语言模型大规模多模态预训练多模态推理能力提升多模态生成与理解
本文提出统一多模态预训练模型BAGEL,基于大规模交错文本、图像、视频与网页数据,仅解码器架构。BAGEL在复杂多模态推理上表现出涌现能力,超越现有开源模型,支持图像操作、未来帧预测等高级任务。代码与模型开源促进多模态研究发展。
07
Chain of Strategy Optimization Makes Large Language Models Better
Emotional Supporter
发表:2025/3/7
序列策略优化大语言模型微调情感支持对话偏好偏置缓解基于MCTS的策略数据构建
本文提出链式策略优化(CSO)方法,以蒙特卡洛树搜索构建偏好数据集ESCPro,实现细粒度回合级策略选择优化。CSO显著提升大型语言模型在情绪支持对话中的策略准确性与偏好偏差缓解,增强模型同理心与响应适切性。
02
Towards Human-centered Proactive Conversational Agents
发表:2024/4/19
主动对话代理人本导向对话系统对话信息检索对话系统伦理与社会影响对话系统自适应性
本文提出以人为本的主动式对话代理设计框架,围绕智能性、适应性与礼貌性三维度,强调满足用户需求并兼顾伦理社会影响,提出五阶段系统构建中的研究挑战与机会,推动对话式信息检索领域发展。
05
……