3月18日,由中国图象图形学会(CSIG)主办,合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG企业行”系列活动将正式举办,通过搭建学术界与企业交流合作平台,为企业创新发展提供科技支撑,为图像图形领域高校师生提供与企业互动机会,集结产学研力量,共同推动图像图形领域的发展。此次活动以“图文智能处理与多场景应用技术展望”为主题,聚焦图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等热门话题,特邀来自上海交大、厦门大学、复旦、中科大的知名高校的学者与合合信息技术团队一道,以直播的形式分享文档处理实践经验及NLP发展趋势,探讨ChatGPT与文档处理未来。
嘉宾及议题介绍:
报告人:杨小康
报告题目:《生成式人工智能》
报告简介:生成式人工智能通过机器学习方法从数据中学习特征,进而生成全新的、原创的数据。
据Gartner预测,到2025年,生成式人工智能产生的数据将占据人类全部数据的10%,生成式人工智能技术正加速数字经济和元宇宙发展。本报告首先分享团队对元宇宙和生成式人工智能发展趋势的思考,然后介绍团队在流体现象模拟推理、物理环境持续预测学习、强化学习中世界模型表征解耦、虚拟数字人重建与驱动等方面的生成式人工智能初步成果。
报告人简介:杨小康,上海交通大学人工智能研究院常务副院长,人工智能教育部重点实验室主任,长江学者、国家杰青、IEEE Fellow。主要研究图像处理与机器学习,获国家科技进步二等奖、上海市科技进步一等奖、国家研究生教育成果二等奖。任中国图象图形学会常务理事、上海市图象图形学会理事长。
报告人:纪荣嵘
报告题目:《复杂跨媒体数据协同分析与应用》
报告简介:社交媒体包含了海量非合作、异构化、跨模态的数据,既蕴藏了大量的人类知识与高价值信息,也包含了各种自然与人为的噪声,对其分析与处理需要融合类脑计算、计算机视觉、自然语言处理等多个维度的智能技术。本报告主要关注基于深度学习的多模态内容协同分析与表示、跨模态信息融合及智能对抗攻防,介绍课题组在图像描述与视觉问答、语言指导的目标检测与分割、用户隐私保护、社交网络分析引导等方面的一些研究进展。
报告人简介:纪荣嵘,厦门大学南强特聘教授,科技处处长,人工智能研究院负责人,多媒体可信感知与高效计算教育部重点实验室主任。国家杰青、国家优青、中组部万人计划青年拔尖人才。长期从事计算机视觉与机器学习等人工智能领域前沿技术研究,近年来发表CCF-A类论文百余篇,谷歌学术引用1.9万余次,获霍英东青年科学奖及省部级一等奖4项。主持科技部科技创新2030重大项目、军科委基础加强项目、国家自然科学基金联合重点、教育部装备预研创新团队项目等。任CVPR和ACM Multimedia领域主席、中国图象图形学学会学术工委副主任、教育部电子信息类教指委委员,人工智能国家标准工作组联合组长。
演讲嘉宾:邱锡鹏
报告题目:《对话式大型语言模型》
报告简介:2022年底,美国OpenAI公司发布了ChatGPT,一个可以与人类对话交互的千亿规模参数的大型语言模型。它可以根据用户输入的指令完成各种语言相关的任务,例如写文章、写代码、回答问题、日常聊天等等,能够极大地提高人们的生产力,这归功于它所表现出的强大的意图理解能力、流畅的对话能力和丰富的世界知识。ChatGPT展现了研发通用人工智能助手广阔的研究和应用前景。目前,ChatGPT的技术细节及模型参数均未开源。本报告主要介绍对话式大型语言模型的能力评测、能力演化路线分析以及如何在下游任务中更高效利用大模型的能力。
报告人简介:邱锡鹏,复旦大学计算机学院教授,担任中国中文信息学会理事、上海市计算机学会自然语言处理专委会主任等,主要研究方向为自然语言处理基础技术和基础模型,发表CCF A/B类论文80余篇,被引用1万余次,获得ACL 2017杰出论文奖(CCF A类)、CCL 2019最佳论文奖、《中国科学:技术科学》2021年度高影响力论文奖,有5篇论文入选ACL/EMNLP等会议的最有影响力论文,主持开发了开源框架FudanNLP和FastNLP,已被国内外数百家单位使用,发布了CPT、BART-Chinese、ElasticBERT等中文预训练模型,在中文模型中下载量排名前列。曾获中国科协青年人才托举工程项目、国家优青项目、科技创新2030“新一代人工智能”重大项目课题等,2020年获第四届上海高校青年教师教学竞赛优等奖,2021年获首届上海市计算机学会教学成果奖一等奖(第一完成人),2022年获钱伟长中文信息处理科学技术奖一等奖(第一完成人)。培养学生多人次获得国家一级学会优博。
演讲嘉宾:杜俊
报告题目:《面向图像文档的复杂结构建模研究》
报告简介:近年来,随着OCR技术应用的不断深入,面向图像文档中复杂结构(如汉字结构,表格结构,文档总体结构等)的建模问题逐渐成为研究热点之一。本报告首先介绍团队基于偏旁部首建模的汉字生成、识别及书写评价方面的研究进展;其次,介绍一种基于分割-嵌入-合并框架的表格结构识别方法;最后,跟大家分享下文档结构层次化重建方面的最新进展。报告人简介:杜俊是中国科学技术大学语音及语言信息处理国家工程研究中心副教授,2009年-2013年就职于科大讯飞研究院和微软亚洲研究院,期间主导开发了语音识别、手写识别和OCR多个产品。研究方向是语音信号处理和模式识别应用,已发表论文200多篇,谷歌学术引用7200余次,获得2018年IEEE信号处理学会最佳论文奖、2019年获安徽省科技进步一等奖以及2022年ISCSLP国际会议最佳论文奖。目前是IEEE和CCF高级会员,并担任IEEE信号处理学会语音及语言处理技术委员会(SLTC)委员、亚太信号与信息处理协会(APSIPA)语音语言音频分会(SLA)技术委员会会长,曾担任语音领域顶级期刊IEEE-ACM TASLP编委。带领团队参加语音和图文领域国际评测获得40多项冠军。
演讲嘉宾:郭丰俊
报告题目:《文档图像处理中的底层视觉技术》
报告简介:底层视觉(Low-level vision)主要研究如何提高或恢复各类场景下的图像/视频内容,如清晰度提升,低质量及破损图像恢复等,是计算机视觉领域的重要研究方向之一。其理论和方法在手机图像采集与处理,医疗图像分析等领域发挥着至关重要的作用。底层视觉技术的缺陷将会导致很多high-level视觉系统(检测,识别理解)难以作为成熟产品真正落地。本次报告,旨在分享合合信息技术团队在文档图像处理系统中所做的底层视觉研究工作,从底层视觉技术的直接应用及对下游任务的影响等方面,阐述底层视觉技术在文档图像处理/识别场景下的价值与思考。报告人简介:郭丰俊,2000 年毕业于上海交通大学,模式识别与智能系统博士。长期从事文字识别(包括手写/OCR),图像处理研究,CSIG文档图像分析与识别专委会常务委员。近年来,带领团队获得过ICDAR19大会表格检测竞赛冠军,中国图象图形学会2021年度科技进步二等奖等奖项,CSIG2022中英文购物小票信息理解大赛冠军、第三届CSIG图像图形技术挑战赛决赛总冠军,现任合合信息图像算法研发总监。
扫码预约观看直播~
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net