我的研究方向包括优化RAG与多模态大模型之间的协同,聚焦于知识密集型推理、多模态对齐、噪声鲁棒性,以及大模型推理效率与可靠性的提升(如RAG幻觉检测)。
Yule Xie, Jiaxin Ding, Cheng Deng, Shiqing Gao, Junran Zhang, Sibo Zhang, Zeyuan Wang, Ke Wu, Xin Ding, Luoyi Fu, Meng Jin, Xinbing Wang. [ACL 2026 提交]
关键词:领域专属推理,大语言模型。构建包含10,000道题的GeoMC-10K地学多模态数据集,并设计GeoM2T多智能体框架将视觉任务转为文本。通过基于分组相对策略优化(GRPO)和事实奖励机制微调大语言模型,提升了5.9%和13.3%的精度。
Huawei Ji*, Junran Zhang*, Cheng Deng, Jiaxin Ding, Luoyi Fu, Xinbing Wang. [ACMMM 2026 提交]
开发了STAR轻量级即插即用模块,通过文本条件信息瓶颈框架实现自适应视觉令牌压缩。该方法融合自显著度、视觉上下文评估、跨模态语义对齐三类得分,自适应保留任务关键视觉令牌,在多个模型上验证了其有效性。
RAG Chatbot开发
开发了一个基于Transformer的大型语言模型聊天机器人,排名DataFountain竞赛前20%。
技术栈:Python, PyTorch, Transformers, Hugging Face Libraries
跨平台远程控制平台(opsorbital.github.io)
为CS/AI研究人员设计开发了一个远程服务器管理框架,支持实时监控、任务控制和通知功能。
技术栈:Python, Android Studio, Flask, SQLite, WebSockets