会议简介
CCIG 2024
中国图象图形大会(CCIG 2024)将于2024年5月24日-26日在陕西省西安市曲江国际会议中心召开,主题为“图聚智生,象合慧成”,由中国图象图形学学会主办,空军军医大学、西安交通大学、西北工业大学承办,南京理工大学、陕西省图象图形学学会、陕西省生物医学工程学会协办,陕西省科学技术协会支持。
于起峰院士、郑海荣院士、焦李成教授、王大轶研究员、虞晶怡教授将莅临CCIG 2024,并作大会主旨报告,百余位国内知名学者以及企业专家齐聚西安,开启“最强大脑”,为大家带来一场精彩的学术盛宴。同期将举办25场学术论坛、7场特色论坛和2场企业论坛,以及海报展示。大会同时设置数百平米展区作为成果展示和交流研讨的空间,预计2000人参会。
此次大会将面向开放创新、交叉融合的发展趋势,为图像图形相关领域的专家学者和产业界同仁,搭建一个展示创新成果、展望未来发展,集高度、深度、广度三位于一体的交流平台。
论坛基本信息
生成式人工智能论坛
CSIG视觉大数据专委会
论坛简介
生成式人工智能(Generative AI)通过机器学习方法从数据中学习特征进而生成全新原创的数据,是AI 从感知理解世界到生成创造世界的跃迁。生成式人工智能通过自动生成内容可以在创意、表现力、迭代、传播、个性化等方面充分发挥技术优势,进而打造新的数字内容生成与交互形态。ChatGPT是其在文本对话的商业化落地案例之一,其商业化发展方向还包括视频和动画生成等。2024年2月,OpenAI最新发布的视频生成模型Sora火爆出圈,将GAI带上新高度,人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。
生成式人工智能推动视觉内容开发、视觉艺术创作、数字孪生、自动编程等,以及新药物、新物质的预测和合成等。2023年在12月13日,《自然杂志》公布了2023年十大人物名单,破格增加了ChatGPT,用于体现生成式人工智能对科学发展进程的深刻影响。
中国科学院自动化研究所研究员
赫然,研究员,博士生导师,国际模式识别学会会士(IAPR Fellow)。主要研究方向是模式识别、图像生成和生物特征识别,并应用到异质图像合成与识别、深度伪造与鉴别。研究工作获国家优秀青年科学基金、北京杰出青年科学基金、国自然联合重点基金和中科院青年促进会优秀会员等项目支持。在本领域国际主流期刊IEEE T-PAMI和IJCV上发表论文23篇,获IEEE信号处理协会最佳青年论文奖、ICPR最佳科学论文奖、北京青年优秀科技论文一等奖,CSIG自然科学一等奖,中国科学院大学领雁奖、李佩优秀教师奖、朱李月华优秀教师奖,中国科学院优秀导师奖(2022/2023)。指导学生获得IEEE生物特征识别理事会优秀博士论文、北京市优秀博士论文、中国科学院优秀博士论文。担任IEEE TIP/TIFS/TCSVT/TBIOM、Patten Recognition和自动化学报等多个国内外期刊编委,担任NeurIPS/ICML/ICLR/CVPR/ECCV等领域主席10余次。
清华大学教授
报告题目:基于三维大模型的3D/4D内容生成
报告摘要:三维大模型与视频大模型是当前AIGC的热点,其结合是实现4D内容生成的重要路径。本报告将基于三维大模型(LRM)前沿进展,结合NeRF、3DGS、DMtet等各类三维表征方法,介绍报告人在高质量、快速三维对象生成方面的研究工作;进一步,基于Sora等视频生成模型,介绍4D人体动态生成方面的研究工作。
个人简介:刘烨斌,清华大学长聘教授,国家杰青基金获得者。研究方向为三维视觉、数字人重建、生成与交互。发表TPAMI/ SIGGRAPH/CVPR/ICCV等论文近百篇。多次担任CVPR、ICCV、ECCV领域主席,担任IEEE TVCG、CGF编委,中国图象图形学学会三维视觉专委会副主任。获2012年国家技术发明一等奖(排名3),2019年中国电子学会技术发明一等奖(排名1)。
字节跳动研究科学家
报告题目:多模态推理现状和展望
报告摘要:强人工智能(Strong AI)或通用人工智能(AGI)具备抽象推理能力,是下一代AI的目标。近期,大语言模型(LLMs)以及新兴的多模态大型语言模型(MLLMs)领域的进展展示了在广泛的多模态任务和应用中的卓越能力。特别是,不同的多模态模型,有不同的模型架构、训练数据和训练阶段,并且在不同的MLLM基准测试中进行了评估。这些研究在不同程度上揭示了MLLMs当前能力的不同方面。然而,MLLMs的推理能力尚未被系统地研究。在这次报告中,我们回顾了现有的多模态推理评估现状,分类并展示了MLLMs推理研究的前沿,介绍了MLLMs在推理任务中的应用趋势。
个人简介:尤全增目前在字节跳动担任研究科学家,主要的研究课题涉及到多模态领域的模型和推理。在加入字节跳动之前,他在Microsoft Azure Computer Vision担任研究员,主要的研究课题包含多相机多目标的检测和追踪,无人超市,单相机下多目标的追踪等。在博士期间主要研究多媒体内容理解的研究,包含情感分析,社交媒体,计算机视觉等相关的课题。
珠海金山办公软件有限公司技术总监
报告题目:知识的检索和生成 - 浅谈金山办公在文档问答领域的落地应用
报告摘要:提到AIGC生成式人工智能,大家的第一印象可能主要是文生文、文生图、文生视频等大热场景,其实还存在一个非常重要的应用场景:根据已有的文档通过大模型辅助进行文档阅读和理解,通过算法洞察用户的提问需求,结合已有的文档以及大模型的能力生成符合用户需求的答案。这个过程不像是常规的AIGC主要通过prompt控制大模型生成所需要的内容,而是把大模型当做功能链路中的一环或多环,通过结合CV和NLP小模型形成一个系统性方案,从而实现譬如chatPDF、知识库问答、客服系统等知识检索和再利用的目标。
个人简介:熊龙飞,男,研究生学历,毕业于德国基尔大学,电子信息科学与技术专业,研究生主要研究领域为:BCI(脑机接口)和图像处理,参与发表两篇IEEE EMBC文章。有过三次创业经历,现为金山办公技术总监,组建了文档AI团队。负责OCR、文档识别和理解、PDF编辑、扫描等多个重点项目的研发管理工作。团队相关技术成果已在PDF转化、拍照扫描、PDF编辑、WPS AI等多个业务上应用。申请专利二十余篇,其中七篇已获得授权。2021年起任中国图象图形学学会文档图像分析与识别专委会委员、CSIG青工委委员,珠海欧美同学会理事,2022年获得“珠海创新创业好青年”称号。
人民大学准聘副教授
报告题目:视觉扩散模型前沿进展
报告摘要:扩散概率模型逐步地对先验分布去噪恢复数据分布,可以有效地建模各类视觉数据。本次报告会介绍视觉扩散模型的前沿进展,包括基础架构设计与训练,视频生成、三维物体生成与可控编辑等方面的理论、算法和应用,并简单探讨视觉生成模型的未来发展。
个人简介:李崇轩,中国人民大学高瓴人工智能学院准聘副教授、博士生导师,2010-2019年获清华大学学士和博士学位。主要研究机器学习、深度生成模型,代表性工作Analytic-DPM、DPM-Solver作为核心采样技术部署于DALL·E 2、Stable Diffusion等。获国际会议ICLR杰出论文奖、吴文俊优秀青年奖、吴文俊人工智能自然科学一等奖、中国计算机学会优秀博士论文、ACM SIGAI 中国新星奖等。入选博新计划、北京市科技新星,主持、参与多项国家自然科学基金、科技部课题。担任ICLR 2024领域主席。
智源研究院视觉模型研究中心负责人
报告题目:生成式多模态模型:探索与实践
报告摘要:人类在上下文中轻松解决多模态任务的能力(即,只需要一些演示或简单的指令),是当前多模态系统在很大程度上难以模仿的。在这项工作中,我们证明了多模态大模型任务不可知的上下文学习能力可以通过有效的缩放来显着增强。Emu2是一个具有370亿个参数的生成式多模态模型,具有统一的自回归目标,并在大规模多模态序列上进行训练。Emu2表现出强大的多模态上下文学习能力,甚至可以解决需要即时推理的任务,比如视觉提示和基于对象的生成。该模型在少样本设置中设置了多个多模态理解任务的新记录。当对指令进行调整以遵循特定的指令时,Emu2在具有挑战性的任务上进一步实现了最先进的新技术,例如多模态大模型的问答基准测试和开放式主题驱动生成。
个人简介:王鑫龙, 智源研究院视觉模型研究中心负责人。本科毕业于同济大学,博士毕业于澳大利亚阿德莱德大学,师从沈春华教授。他的研究兴趣是计算机视觉和基础模型,近几年研究工作包括视觉感知 (SOLO, SOLOv2),视觉表征 (DenseCL, EVA),视觉通才模型(Painter, SegGPT),多模态表征(EVA-CLIP, Uni3D),多模态通才模型(Emu, Emu2)。入选Google PhD Fellowship、国家海外高层次青年人才。
论坛安排
论坛联系人
姓名:段俊贤
单位:中国科学院自动化研究所
邮箱:junxian.duan@ia.ac.cn
会议日程
CCIG 2024