培训认证

正则表达式匹配评测

意义

  • 本评测系统可以对符合评测要求的正则表达式匹配程序进行多维度的功能和性能评测

程序

  • 用户可以通过线上系统在线提交参赛程序
  • 评测系统在后台 自动对已提交的参赛程序进行评测,并得到评测结果,评测结果包括CPU 使用情况、预处理时间、模式匹配时间、预处理阶段内存、匹配阶段内存 、匹配的正确率(误报,漏报)等多个指标
  • 同时,本评测系统根据大赛 制定的评分体系,对所有提交的参赛程序进行综合评分和排名

评分规则

1) 可以灵活调用多个测试集

2) 系统测试分为2步:预处理测试阶段和匹配测试阶段 预处理和匹配得到的测试结果和时间性能都要进行最后的评比,预处理的测试结果所占评比的比重较小

3) 支持多种匹配模式,如单行模式、多行模式、忽略大小写模式 单行模式:更改了“.”的含义,使它与每一个字符匹配(包括换行符\n)。 多行模式:更改^和$的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配 (在此模式下,$的精确含意是:匹配\n之前的位置以及字符串结束前的位置)。 忽略大小写:匹配时不区分大小写。

4) 接口统一,命令行参数如下所示: 程序共三个参数:

  • 参数1:key,用来存放测试用数据集的共享内存对应的key文件路径
  • 参数2:规则ID,为正则表达式规则定义文件名称,rule_m 参数
  • 参数3:正则匹配的模式,SL指单行模式,ML指多行模式,IC指忽略大小写

5) 软件性能方面除了要考虑到最基本的正确性和效率问题外,还要兼顾CPU、内存等资源,这些都将考虑进最终的评比算分中

6) 对被测软件运行过程能够进行检测软件输出结果是否正确。每一条规则可能对应多个结果,要全部找到。

7) 软件输出格式 软件匹配成功的数据存到指定文件中。数据格式如下: 偏移量 长度 规则序号 0123456701234567 232 453 0123456701238867 8 32 其中,各个数据项的分割符号,必须是空格。文件的名称是result_规则ID_匹配模式,如规则ID为rule_m,匹配模式为多行模式,则文件名为result_rule_m_ML 偏移量:匹配成功的位置,距离文件开始的偏移量。为了支持大的数据文件(2-8G),偏移量应该是一个long int整数;偏移量的数值,从0始 长度:匹配数据的开始位置到结束位置的字节距离;该数据是一个2字节无符号整数(最大64K) 规则序号:匹配的模式,在规则文件中的行号,从1开始

查看

每个用户 登录线上系统即可以查看自己参赛程序的评测指标、综合得分以及排名情况

    
国家互联网应急中心实验室
北京市朝阳区裕民路甲3号
京ICP备10012421号-2  邮编: 100029
电话: (010)82992175