商务服务
获奖方案分享|恶意软件赛题 @we are family 战队解题思路
2024-10-31 21:38

2022-02-24 15:19

获奖方案分享|恶意软件赛题 @we are family 战队解题思路

基于人工智能的恶意软件家族分类

@we are family 战队方案

 

团队简介

我们是一个青春活力的团队,创新不断是我们前进的基因!团队成员有着丰富多样的专业背景,深耕于大数据分析与算法领域,我们拥有多年的数据分析与算法经验,善于在各种场景中进行数据清洗,特征提取,模型迁移和构建,在数据可视化,大数据平台架构等方面也有着丰富的经验,我们团队有不同专业的人组成,大家各有所长,其中通信工程硕士,在网络安全,用户行为分析有一些工作经验,也有数学专业硕士,一直从事算法相关工作等,也有在数据可视化,业务分析等方面的人才,擅长各种数据拆解与展示,此外,团队成员曾多次在datafountain,以及其它知名算法大赛中取得冠军等优异成绩。

图片

摘要

我们团队方案主要采用:数据降维+多分类模型进行建模,借助有效地可视化技术,对数据降维结果的分析,发现关键信息,key-value键值对,通过深度学习转化为快速特征提取,节约算力,时间开销。

 

关键词

AutoEncoder,LGB,关键词提取,可视化

 

1 赛题理解

近年来,各种勒索软件、木马、病毒、恶意挖矿程序等多种形式恶意软件不断涌现,恶意软件作者为逃避检测,在恶意软件组件中引入了多态性。虽然属于同一恶意软件“家族”的恶意文件具有相同形式的恶意行为,但由于编写者使用了各种策略不断修改和/或混淆,原本隶属同一家族的文件看起来像许多不同的文件,给检测识别的准确性带来了高度挑战。为提升海量恶意软件分析的高效性,我们需要对恶意软件的家族进行区分。

本文中,设计算法对恶意软件进行识别和家族分类,通过分析训练集中各家族恶意软件的特点,构建AI模型,对测试集中各个家族的恶意软件进行区分。数据集包含了来自10个恶意软件家族,10000多个恶意软件的PE文件(Noheader)和使用IDA Pro生成的asm文件,并将其分为训练集与测试集两部分。

-PE:去除头部信息的PE文件

-ASM: 使用IDA Pro生成的PE源文件对应的.asm文件

-train_label.csv: 标签文件,标记文件所属家族。

 

2方案思路,架构

2.1思路--asm数据探索

我们对asm数据进行了基础的探索分析,发现:

1,asm数据量大,

2,asm数据整体具有高度相似性,局部具有明显结构性;

3,asm数据字词句重复度高,上下文联系紧密;

4,asm数据有些地方,出现明显的key : value键值对,以冒号区分;

图片

图1:asm数据示例图

 

2.2思路--pe数据探索

我们对pe数据进行了基础的探索分析,发现:

1,pe数据量大,以二进制数据存在,难以阅读;

2,pe数据,以二进制读入后,依然可以发现部分文件中存在类似url形式数据存在;且有的url是可以在网页上直接访问;此外还有一些文件路径,createfile等命令

图片

图2:pe数据示例图

 

2.3思路--数据降维--AutoEncoder

通过对数据的基础探索分析发现,数据量较大,所以我们需要对asm,pe数据进行降维;AutoEncoder是一类在半监督学习和非监督学习中使用的人工神经网络,由编码和解码组成;主要功能:对原始数据进行编码,如果编码后的数据,能够通过解码还原成原始数据,我们则认为编码较好的保留了数据信息;主要用于数据的降维,特征的抽取,消除噪声等;

图片

图3:AE模型示例图

数据降维流程:

图片

图4:pe,asm数据降维流程图

但很快我们发现,模型达到瓶颈,因为要想得到一个模型精度较高AE模型,时间成本高,收益慢;一般模型训练需要24小时,加上我们多次修改AE模型网络,加入残差等多种尝试,取得的效果较慢,甚至有时,还会降低分数,如此缓慢提升整体模型精度的方式,在时间和精力上开销存在较大难度;

 

2.4数据降维--关键词抽取

对asm文件数据,按空格,‘ ’,‘ ’进行分词,然后基于统计词频,位置特征,关联信息特征,进行关键词分析,最后进行可视化展现:(部分关键词示例)

图片

图5:关键词与family特征图

图片

图6:关键词与family关系图

利用主题模型,词图模型进行关键词抽取,进行特征提取,然后对提取出来的关键词,

1,利用LSTM进行建模预测,得分:0.678

2,利用tf-idf进行构造关键词向量,结合lgb进行分类,得分:0.765

3,进行清洗关键词,剔除一些标点符号,特征权重低的关键词以及无用词等,得分:0.792

由于关键词抽取时间开销需要10个小时左右,加之我们在工作中对于时间开销追求的强迫症;我们对关键词提取结果进行了分析,

a)关键词在句中出现的位置比较靠后;

b)关键词的重复率较高;

最终发现关键词,主要是“key :value”键值对中的value,于是我们利用:正则匹配key,进行抽取value,抽取时间缩短为1小时;根据奥卡姆剃刀原理,我们选择了正则匹配进行关键词特征提取。

图片

图7:关键词出现的位置比例图

 

2.5 LGB多分类模型—特征转化,线下验证

通过对数据的关键词提取,通过可视化我们发现:关键词具有较高的区分度

asm数据,提取关键词,以及关键词组合,转化为:词频,词序;pe数据,采用tfidf进行提取词向量矩阵;然后放入lgb多分类模型,进行训练,预测;由于线上提交次数有限,我们团队构造了线下验证数据集

比赛要求提交浮点数数据,起初利用浮点数数据线下验证分数与线上差距较大,故对线下验证时,对结果进行取整处理转化为01整型值,这样,基本线下与线上的score=(1-log_loss)值同升同降;

图片

图8:线下,线上得分对比图

 

2.6模型方案重要节点

图片

图9:模型架构,算力,时间得分图

 

2.7方案模型架构图

图片

图10:最高得分模型架构图

 

3 方案总结,展望

 

方案总结:

1,我们团队方案主要采用:数据降维+多分类模型进行建模;

2,借助有效地可视化技术对文本数据进行特征理解和提取,

3,采用关键词进行数据降维,然后对结果进行二次分析,发现关键信息;

3,key-value键值对,通过深度学习转化为快速特征提取,节约算力,时间开销,有利于快速部署与应用;

4,线下评分调整,线上提交类别概率,线下我们调整为类别0,1值进行评分,比线上评分更为严格,是的模型稳定性更强。

 

展望:

1,在pe文件数据中,我们发现了有些url是可以访问的,我们可以对这些访问的url页面进行深入挖掘分析;

2,由于本赛题的对于结果输出有严格要求,所以并没有采取多模型融合策略,如果采用多模型融合,预测精度将有所提高;

 

致谢

中国计算机学会

大数据协同安全技术国家工程实验室

360集团

DataFountain

 

参考

[1] Wu S , Huang Q , Zhao L . De-noising of transientelectromagnetic data based on the long short-term memory-autoencoder[J].Geophysical Journal International, 2020(1):1.

[2] Ahmed A H , Aggarwal H , Nagpal P , et al. Dynamic MRI using deepmanifold self-learning[C]// 2020 IEEE 17th International Symposium onBiomedical Imaging (ISBI). IEEE, 2020.

[3] Gu C , Ji Z , Y Wang. The improvement of classification accuracy with denoising classautoencoder[J]. Modern Physics Letters B, 2019, 32(34n36).

[4] Leyli-Abadi M , Labiod L, Nadif M . Denoising Autoencoder as anEffective Dimensionality Reduction and Clustering of Text Data[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2017.

[5] Lee M K . Dimensionality reduction of radio map with nonlinearautoencoder[J]. Electronics Letters, 2012, 48(11):655-657.

[6] 胡昌杰. 基于Autoencoder的高维数据降维方法研究[D]. 兰州大学, 2015.

[7] Mihalcea R , Tarau P .TextRank: Bringing Order into Texts[C]// Proc Conference on Empirical Methodsin Natural Language Processing. 2004.

[8] 刘啸剑, 谢飞, 吴信东. 基于图和LDA主题模型的关键词抽取算法[J]. 情报学报, 2016, 35(6):9.

 

推荐阅读

获奖方案分享|恶意软件赛题 @Petrichor战队解题思路

获奖方案分享|恶意软件赛题 @eyaeyaeya战队解题思路

获奖方案分享|恶意软件赛题 @njnet_defender战队解题思路

获奖方案分享|短信变体字还原赛题 @大力出奇迹 战队解题思路

获奖方案分享|违规使用手机的识别赛题 @别玩手机 战队解题思路

    以上就是本篇文章【获奖方案分享|恶意软件赛题 @we are family 战队解题思路】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/3571.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多   
最新新闻
云南网络营销软件哪个好?权威推荐助您快速选择
在数字化时代,网络营销软件成为了许多企业实现营销目标的重要工具。然而,市面上网络营销软件琳琅满目,选择一个适合自己的并不
宫崎骏的时代结束了
在《你想活出怎样的人生》之前,宫崎骏一直是著名的退休诈骗犯。七次退休又七次复出,年过八旬,创作欲还是旺盛到令人害怕。然而
个人大数据信用查询平台哪个更准确一些?蘑菇画像个人大数据信用报告查询平台更好用
个人大数据信用查询平台哪个更准确一些?蘑菇画像个人大数据信用报告查询平台更好用,个人大数据信用查询平台市面上还是比较多的
小红书关键词热度查询!国风大潮下,品牌怎么玩出花样、玩出水平?
国风,是当下年轻人钟爱的潮流。汉服穿搭、文物手办、国潮仿妆……频频出圈。“民族的就是世界的”,国风的影响力可谓深远,一说
app推广接单发布平台哪个好?怎么领取任务赚钱?
最近几年,随着互联网的快速发展,利用网络兼职的赚钱方式也呈现越来越火,非常受大众欢迎的趋势。而且其种类也非常多:微商、社
【可打印】文学常识常考100题汇总,初中生练一练!(部编版初中语文)
关注本公众号,私信发送数字:2493,领取电子打印版文学常识1、成语“万事俱备,只欠东风”是根据《三国演义》________ (战役)
“迎旅发大会 游美丽望城”望城首届文旅短视频大赛,最高3万奖励等你来拿!
湘江水浩浩奔腾,流淌沧桑巨变。铜官窑静穆肃然,在这里诉说着望城的厚重历史,流传着“君生我未生,我生君已老”凄美爱情故事;落日
mysql导入大txt文件怎么打开_mysql怎么导入txt文件?
有时候我们在使用mysql数据库的时候,想导入txt文本文档,要怎么操作呢?下面本篇文章就来给大家介绍一下方法
寸头抖音短视频教程_人开始衰老的迹象是什么
岁月不饶人,我才50出头,可是许多衰老迹象已经越来越明显,惹得中医闺蜜笑话这样的我。1、觉得右后背和肩膀疼,出现“五十肩”
什么是网站页脚:以及最佳页脚设计示例
主体内容外,网站还包括页眉和页脚,用于帮助访问者的特定目的。由于我们认为网站页脚设计同样重要,我们整理了10个最佳免费网站
本企业新闻

点击拨打: