世界人工智能创新大赛 AIWIN 做太平洋保险真实情况
1. 请注意因故障,5月 17 日1800前 B 榜的分数有异常,我们已修复,但影响到了目前已提交人员的提交次数。如下列选手之后缺少一次提交,可联络我们 it@aispacesh.com,我们可为你增补一次提交,相关ID 如下:
1
yp
3
05/17/22
2
wjn1996
3
05/17/22
antins
3
guo_chengfeng
2
05/17/22
小样本
4
luxuantao
2
05/17/22
知识工场
5
Monica_1999
2
05/17/22
消失的第四人
6
x15010470528
2
05/17/22
7
simonzsn
2
05/17/22
zsn&DT
8
xiyy
2
05/17/22
fight
9
An_Shan
2
05/17/22
2.请参赛选手们注意,5 月 17 日开始我们正式开启 B 榜,请注意当前 A、B 榜同时处于提交状态,规则如下: a. A 榜将和B 榜同样在 5 月 27 日结束, 每日仍旧保持 3 次提交的限制 b. B 榜测试集已目前上架下载页面,请大家下载使用,并请注意 B 榜设定为全流程中总共 10 次的提交限制 c. 选手仍旧需要有有效的 A 榜成绩(需完成实名认证),方能使 B 榜成绩有效 d. 最终我们还是选 20 名要求提交解决方案文档和模型代码等进入复核,并从中挑选 10 名进入终选答辩 e. 上述 20 名的选拔,以有效的 B 榜成绩为准
3. 当前大家提交时,务必注意,默认系统已经进入B 榜,所以要提交 A 榜的话,需在提交页面手动点击 A 榜切换。具体见下图示意:
4. 请注意,太保对赛题有以下两点要求:
A.“本次赛题目标为探索统一范式的多任务小样本学习,比赛提交结果的模型建议为可独立完成所有任务的单一模型,总模型大小限制在1.5G。"
B. 本次赛题不支持采用伪标签方式,无论是人工伪标签还是模型生成伪标签,均不得用于本赛题的解决方案,一经复核发现将直接取消相应分数。|
竞赛关键要点
AIWIN2023春季赛季技术挑战赛之一,由中国太平洋保险命题,提供来自一线真实业务的多任务小样本学习自然语言理解数据集,设立奖金池及提供太保实习生绿色通道奖励。该竞赛过程配套学习内容涵盖基线程序、基线讲解、技术讲座等。该竞赛分数可作为 AI 人才特训营学习考核参照,达到基线分数以上即可有资格竞争暑期实训机会。
任务介绍
训练集
280条自然语言理解任务相关数据,覆盖保险、金融、医疗三大领域,包含文本分类、文本相似度、自然语言推断、命名实体识别、及机器阅读理解等五大任务,具体包含14个任务,每个任务20条数据
测试集
5600条自然语言理解任务数据,具体包含14个任务,每个任务包含400条数据,分A/B榜各200条(2800+2800)
请在「参赛提交」-「下载」获取 A、B 榜各自的数据(A榜含训练数据+测试任务,B 榜仅测试任务)
开发与模型输出
可线下开发和模型输出,AIWIN 平台提交结果
关键节点(拟)
本竞赛采用 AB 榜模式开展:
A 榜开启:4月18日
A 榜截止:5月16日24:00 (需完成实名认证,A 榜成绩方生效)
B 榜开启:5月17日00:00 (必须在A榜有成绩,B 榜成绩方生效)
B 榜截止:5月27日24:00
解决方案 PPT 提交截止:5 月 29 日 24:00
提交限制
A榜每日最多3次提交;
B榜全程最多10次提交
奖励
依据:
赛事将以 B 榜分数为准计算技术得分,并综合解决方案的原创性和创意性,最终选拔 10 名晋级决赛答辩。决赛答辩将通过现场评审得分结合技术得分做综合考量。
奖励:
12 万元奖金池 AI 人才特训营暑期实训实践岗位直通或优先资格太保实习绿色直通车(晋级前 20 名的同学可优先考虑直通或推荐太保正式实习岗位,细则待公布)AIWIN 证书竞赛详细文案一、赛题考官
中国太平洋保险集团有限责任公司
二、赛题背景受益于大规模训练数据集,目前预训练语言模型在很多开源自然语言理解榜单上取得了接近甚至超过人类水平的性能。然而在真实保险业务场景中难以积累大规模高质量标注数据,一些在开源数据集上表现优秀的方案无法体现其先进性,且真实业务任务之间的差异性难以保证模型的迁移复用能力。针对上述问题,统一范式的多任务小样本学习方案作为一种贴合真实业务场景的技术亟待进一步研究。
三、赛题任务本次赛题将提供多任务小样本学习自然语言理解数据集,数据集从真实业务场景及网络获取,其中业务数据经脱敏得到。
多任务:赛题覆盖了保险真实业务场景中常见的保险领域、医疗领域和金融领域,包括文本分类、文本相似度、自然语言推断、命名实体识别和机器阅读理解等五大基础自然语言理解任务,具体为18个保险业务场景中的常见任务。
小样本:为了还原真实业务场景中大规模高质量标注数据积累困难的情况,训练集从18个任务中选取了14个作为训练集任务,每个任务提供20条标注样本,共计280条标注样本。测试集从18个任务中选取了14个作为测试集任务,每个任务提供400条测试样本,分A/B榜测试。
本次赛题目标为探索统一范式的多任务小样本学习,比赛提交结果的模型建议为可独立完成所有任务的单一模型,总模型大小限制在1.5G。
由于本赛题涉及多个任务,根据任务不同相应的输入输出不同,具体参考第四节赛题数据。
赛题在赛程中提供开放可下载的训练集及测试集,允许线下建模或线上使用第三方合作伙伴所提供的训练环境及算力。
任务总结:即基于训练集进行模型训练,并对于给定的测试集,输出测试集中所缺失 label 的值。
四、赛题数据A. 数据规模和内容覆盖
数据分为单文本分类、文本对分类、命名实体识别、事件抽取和机器阅读理解五大类:
任务名称
训练集
测试集
任务类别
保险意图识别-咨询意图
20条,包含投诉、转人工、报案、投保咨询、预授权项目咨询与受理5种意图
200条*2,同训练集
单文本分类
保险意图识别-查询意图
20条,包含保单详细信息查询、交费信息、理赔金额查询、定损金额查询、查勘员信息查询5种意图
200条*2,同训练集
单文本分类
保险意图识别-变更意图
20条,包括变更车辆信息、续期缴费方式变更、客户信息变更、投保人变更、报案信息修改5种意图
200条*2,同训练集
单文本分类
医疗文本分类
20条,包括疾病定义、疾病预防、疾病病因、疾病诊断、疾病治疗、疾病预后、疾病表现、疾病检查、疾病并发症9种类别
200条*2,同训练集
单文本分类
金融文本分类
20条,包括经营发展、投资融资、政策规章、重大活动、组织人事变动5种类别
200条*2,同训练集
单文本分类
金融情感极性分析
20条,包含积极、消极、中性3种情感极性
200条*2,同训练集
单文本分类
保险文本相似度
20条,包含相似、不相似两种相似度
文本对分类
医疗文本相似度
20条,包含相似、不相似两种相似度
200条*2,同训练集
文本对分类
金融文本相似度
200条*2,同训练集
文本对分类
保险自然语言推断
20条,包含蕴含、矛盾、无关三种逻辑推断结果
文本对分类
医疗自然语言推断
20条,包含蕴含、矛盾、无关三种逻辑推断结果
200条*2,同训练集
文本对分类
金融自然语言推断
200条*2,包含蕴含、矛盾、无关三种逻辑推断结果
文本对分类
保险命名实体识别
20条,包括保险、年龄、时间、疾病、药品、职业、金额7种实体
命名实体识别
医疗命名实体识别
200条*2,包括检查、疾病、症状、药物、部位5种实体
命名实体识别
金融命名实体识别
20条,包括公司、地区、时间、金额4种实体
命名实体识别
保险机器阅读理解
20条,答案为提供文本中的连续片段
200条*2,同训练集
机器阅读理解
医疗机器阅读理解
200条*2,答案为提供文本中的连续片段
机器阅读理解
金融机器阅读理解
20条,答案为提供文本中的连续片段
200条*2,同训练集
机器阅读理解
数据内容示例:
数据分为单文本分类、文本对分类、命名实体识别、事件抽取和机器阅读理解五大类,各自的数据内容格式分别示意如下:
单文本分类:输入为单独的一句话"text_a",输出为相应的标签"label"文本对分类:输入为两句话"text_a"和"text_b",输出为两句话之间的标签"label"命名实体识别:输入为一段话"context"和目标抽取的实体类型"entity_type",输出为对应类型的实体列表"entities"机器阅读理解:输入为一段话"context"和相应的问句"question",输出为对应问题的答案"answer"五、赛题赛程和提交要求本赛题共分成三个大阶段:
线上比赛(包含A/B榜) ———— 解决方案复审 ———— 终选答辩
1.线上比赛本赛题下的线上比赛将设定为两个时间上递进进行的任务。
该阶段内接受个人报名、团队登记(报名登记规则请详细阅读比赛规则)
团队创建需经管理员审核(若正式代表某机构或企业参赛,需机构或企业出具相应盖章函件证明方可建立)。
A. 赛程说明:本赛题主任务分为A/B榜,在4月 18 日正式开启,以其最终的 B 榜成绩排名为准考核进入路演答辩。请注意同一参赛个人或参赛团队, A 榜阶段必须完成实名认证(团队的话需所有队员完成) A 榜成绩方生效,A 榜有有效成绩,B 榜成绩方生效。赛题A榜和B 榜采用统一训练集,训练集选自18个tasks中的14个,每个task包含20个样本;测试集选自20个tasks中的14个,其中10个在训练集中出现(few-shots),另外4个不在训练集中出现(zero-shots),每个task包含200条样本,A榜和B榜采用不同测试集。相关数据集请在「参赛提交」——「下载」下予以下载,A 榜时仅开放训练集和 A 榜测试集,B 榜时额外提供 B 榜测试集。
A榜:4 月 18 日开启,5 月 16 日 24 点关闭B 榜:5 月 17 日 0 点自动切换开启,5 月 27日 24 点关闭
B. 结果提交的内容和要求:AIWIN平台(ailab.aiwin.org.cn)要求所有提交内容统一打包为 zip 文件上传(请参见「参赛提交」tab下「下载」板块提供的提交样例),其内包含:
模型输入测试集后输出的结果文件,文件格式统一为json,名称必须统一为answer.json
json 文件内容规范示例:
{
"MedicalClassification_TRAIN_0": "疾病定义",
"MedicalSimilarity_TRAIN_8": "相似",
"MedicalNER_TRAIN_4": [
"关节",
"肌腱",
"滑囊",
"单关节",
"关节周"
],
"InsuranceMRC_TRAIN_9": "5年、10年、15年和20年",
...
}
其中,键值为每个样本的ID字段,value值为对应任务的预测结果,注意:
1. 请根据label_mappings映射到对应标签;
2. 机器阅读理解任务如果预测为不可答的请映射为空字符串""。
C. 提交规则:A 榜设定每日最多 3 次提交,选手需在5 月 16 日24:00前完成提交B 榜设定B 榜总赛程最多 10 次提交,选手需在5 月 27 日24:00前完成提交D. 排名规则:排行榜以选手历史最佳分数为依据从高到低排序。2.解决方案验证阶段A. 赛程说明:
B 榜截止后,排名前20 的团队应向组委会提交解决方案 PPT。
B. 提交内容和要求:选手需在 2023 年 5 月 29 日24:00前(拟),向aiwin@aispacesh.com 发送解题思路 PPT和代码邮件标题提、解题思路 PPT、代码文件的命名应为「T1-选手名」,选手明对于个人参赛选手即个人 ID,团队参赛选手即为团队名。解题思路 PPT 需包含以下内容:个人简介:在职者填写当前职业和在职机构(如方便透露),在校者请填写当前年级、专业、高校团队简介:团队整体介绍,以及每个成员的介绍、成员分工
赛题理解与问题建模:清楚描述对赛题任务的理解,抽象为模型建立的策略数据探索与特征工程:针对赛题提供的数据描述必要的数据特征、数据清洗、特征工程的关键思路和方法模型训练和融合:描述模型的训练、实验对比和融合过程与方法代码依赖环境:详细列出包括整体建模采用的基础框架(含版本号)以及依赖的包等代码运行说明:对如何运行代码予以充分说明3. 终选答辩拟于 2023 年6 月6-10 日周内(拟)举办终选答辩。入选终选的选手将通过线下或线上的方式参与最终的评审答辩,综合线上排名、终选答辩及命题方考量的其他维度综合确定最终的排名和奖项归属。
六、评价方式1. 线上排名线上任务A/B榜采用统一的评价指标,各类型任务采用的指标如下:
样本预测结果:Predictions P={P1, P2, …, Pn}样本标准结果:GroundTruth A={A1, A2, …, Am}单文本分类、文本对分类指标:EM=1(P==A)
命名实体识别、机器阅读理解指标:F1=21pP,A+1rP, A, &if P≠∅ and A≠∅ and pP,ArP,A≠∅1, &if P≠∅ and A≠∅0, &otherwise
最终总分采用Macro-F1计算公式如下:
MacroF1=|TASK|iF1taski
2. 终选方式综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度(如模型思路创新性都能够),确定最后的综合排名。
七、特别说明(1)竞赛数据:赛事提供的数据仅能用于指定赛道的模型训练工作,参赛人员不得将数据用于任何商业用途。参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分;
(2)算法代码:各参赛者应按比赛设定要求提交完整的解决方案(包括代码、模型、文档等),并保证解决方案可独立自主由比赛组织方和出题单位在脱机环境下运行使用,复现结果;
(3)作品提交:作品提交规则按各赛道设定执行。作品提交由单个个人账号执行。参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,组委会将取消其比赛成绩、追回奖励(如已发放)并保留追究法律责任的权利;
(4)知识产权:参赛作品(包含但不限于结果文件、算法、模型、方案等)的相关权利由出题单位、参赛者、官方竞赛平台三方共享。
(5)上述约定已在比赛规则中载明,选手报名成功本赛事,即默认选手已阅读并同意比赛规则的所有条款。
八、赛事奖励1. 赛事奖金与奖励类型
奖项
名次
奖励(税前)
竞赛奖励
(依据综合排名 = B 榜排名 + 复审结果 + 终选答辩排名)
一等奖
第1名
60000 元
二等奖
第2名
20000 元
三等奖
第 3 名
10000 元
四等奖
第 4-6 名
6000 元
五等奖
第 7-10 名
3000 元
注:
组委会对上述奖励方案享有最终解释权和调整权以上奖金金额为税前金额,奖项获得者需承担个人所得税 20%2. 证书所有获奖选手(含学习奖励奖项与竞赛奖励奖项)将颁发盖有“世界人工智能创新大赛组委会”的赛事证书,对应赛题的证书上将同时印刻有赛事命题方的官方 logo
3. 获得 AI 人才特训营实训资格AI 人才特训营是春季赛事同步过程中,为各层级 AI 学习者、求职者所涉及的集「学习、考核、竞赛、实习实训」为一体的人才培育项目。我们第一批联动了中国工商银行、中国太平洋保险、药明生物、卫宁健康、万达信息、Arefact、SMT(SMG 技术中心)开放暑期实训岗位(6 周培训+驻厂导师带教项目制实训,有实训项目证明和实训补贴[视企业情况])。竞赛达到基线分数以上即可获得面试机会,达到前 100 名获得优先推荐,获得前10直接获得直通邀请。请注意,为参与最终实训资格的获取请在AI 人才特训营页面单独做一次报名
4. 太保科技暑期实习生绿色直通车太保科技对于赛事前 20 名的选手将给予实习生绿色直通车,将在实习招聘过程中给予一定优惠(如免笔试等,具体待进一步确定)
评价方式1. 线上排名
线上任务A/B榜采用统一的评价指标,各类型任务采用的指标如下:
样本预测结果:Predictions P={P1, P2, …, Pn}样本标准结果:GroundTruth A={A1, A2, …, Am}单文本分类、文本对分类指标:EM=1(P==A)
命名实体识别、机器阅读理解指标:F1=21pP,A+1rP, A, &if P≠∅ and A≠∅ and pP,ArP,A≠∅1, &if P≠∅ and A≠∅0, &otherwise
最终总分采用Macro-F1计算公式如下:
MacroF1=|TASK|iF1taski
2. 终选方式综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度(如模型思路创新性都能够),确定最后的综合排名。
赛事规则参赛人群:大赛面向社会各界开放,不限年龄国籍,高校、科研院所、企业从业人员均可报名参赛。参与大赛组织工作有关单位员工及直系亲属可参赛但不可获奖;账号体系:赛事平台的账号体系以个人为单位,注册平台需要提交个人的姓名、学校/单位、邮箱、手机等信息。上述信息仅用于赛事联络和运营。赛事报名:赛题报名以单个账号为单位开展。选手根据自身情况,仅可二选一选择一种身份参赛:实名认证:当前本平台已启用三要素核验的实名认证功能,竞赛若要求在特定时间点前完成实名认证的,选手应配合完成,若不完成则成绩失效或失去参赛资格。个人参赛:选手以个人身份注册账号直接参赛团队参赛:团队的每个成员均需在比赛平台注册,并通过系统在所参与的赛题上组建团队,并将各队员添加入团队作为成员。每个团队最多 5 人。 团队成员在加入团队后,各自可代表团队提交项目,且团队成员个人成绩(无论成团前后)将被统一视为团队成绩,团队成绩最终成绩取团队各成员所取得的最好成绩。同一团队仅可占 1 席晋级名额和奖项名额,如遇同一团队多名成员占有 1 席以上晋级范围的排名,则名额顺延至下一团队或个人。作品提交:作品提交规则按各赛道设定执行。作品提交由单个个人账号执行。参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,组委会将取消其比赛成绩并进行严肃处理;排行规则:排行榜以个人账号为单位,依据所提交的结果评分予以排名。如个人账号从属于某团队,则排行榜在该个人账号旁会显示其团队名称。团队的排名以团队中各团队成员的最高排名为准。排名验证:赛题出题方、大赛主办方、平台运营方有权利进一步要求参赛者提交代码、解题思路等并基于此检视判断排行分数的合理性,从而对排名进行修正。各赛事赛题的最终排名应以各赛题所发布的公告或通知为准,线上排行榜仅为参考。参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证。晋级规则:赛段晋级名额、方式由各赛题设定。若有参赛者主动弃赛,晋级名次顺延。晋级名额中以个人身份参赛的则个人选手个人晋级,如个人从属于某团队,则该团队整体晋级。公平竞技:参赛者禁止在指定考核技术能力的范围外,利用规则漏洞或技术漏洞等不良途径提高成绩排名,禁止在比赛中抄袭他人作品、交换答案、使用多个小号,经发现将取消比赛成绩并严肃处理。组织
版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。