2022-02-24 15:19
基于人工智能的恶意软件家族分类
@we are family 战队方案
团队简介
我们是一个青春活力的团队,创新不断是我们前进的基因!团队成员有着丰富多样的专业背景,深耕于大数据分析与算法领域,我们拥有多年的数据分析与算法经验,善于在各种场景中进行数据清洗,特征提取,模型迁移和构建,在数据可视化,大数据平台架构等方面也有着丰富的经验,我们团队有不同专业的人组成,大家各有所长,其中通信工程硕士,在网络安全,用户行为分析有一些工作经验,也有数学专业硕士,一直从事算法相关工作等,也有在数据可视化,业务分析等方面的人才,擅长各种数据拆解与展示,此外,团队成员曾多次在datafountain,以及其它知名算法大赛中取得冠军等优异成绩。
摘要
我们团队方案主要采用:数据降维+多分类模型进行建模,借助有效地可视化技术,对数据降维结果的分析,发现关键信息,key-value键值对,通过深度学习转化为快速特征提取,节约算力,时间开销。
关键词
AutoEncoder,LGB,关键词提取,可视化
1 赛题理解
近年来,各种勒索软件、木马、病毒、恶意挖矿程序等多种形式恶意软件不断涌现,恶意软件作者为逃避检测,在恶意软件组件中引入了多态性。虽然属于同一恶意软件“家族”的恶意文件具有相同形式的恶意行为,但由于编写者使用了各种策略不断修改和/或混淆,原本隶属同一家族的文件看起来像许多不同的文件,给检测识别的准确性带来了高度挑战。为提升海量恶意软件分析的高效性,我们需要对恶意软件的家族进行区分。
本文中,设计算法对恶意软件进行识别和家族分类,通过分析训练集中各家族恶意软件的特点,构建AI模型,对测试集中各个家族的恶意软件进行区分。数据集包含了来自10个恶意软件家族,10000多个恶意软件的PE文件(Noheader)和使用IDA Pro生成的asm文件,并将其分为训练集与测试集两部分。
-PE:去除头部信息的PE文件
-ASM: 使用IDA Pro生成的PE源文件对应的.asm文件
-train_label.csv: 标签文件,标记文件所属家族。
2方案思路,架构
2.1思路--asm数据探索
我们对asm数据进行了基础的探索分析,发现:
1,asm数据量大,
2,asm数据整体具有高度相似性,局部具有明显结构性;
3,asm数据字词句重复度高,上下文联系紧密;
4,asm数据有些地方,出现明显的key : value键值对,以冒号区分;
2.2思路--pe数据探索
我们对pe数据进行了基础的探索分析,发现:
1,pe数据量大,以二进制数据存在,难以阅读;
2,pe数据,以二进制读入后,依然可以发现部分文件中存在类似url形式数据存在;且有的url是可以在网页上直接访问;此外还有一些文件路径,createfile等命令
2.3思路--数据降维--AutoEncoder
通过对数据的基础探索分析发现,数据量较大,所以我们需要对asm,pe数据进行降维;AutoEncoder是一类在半监督学习和非监督学习中使用的人工神经网络,由编码和解码组成;主要功能:对原始数据进行编码,如果编码后的数据,能够通过解码还原成原始数据,我们则认为编码较好的保留了数据信息;主要用于数据的降维,特征的抽取,消除噪声等;
数据降维流程:
但很快我们发现,模型达到瓶颈,因为要想得到一个模型精度较高AE模型,时间成本高,收益慢;一般模型训练需要24小时,加上我们多次修改AE模型网络,加入残差等多种尝试,取得的效果较慢,甚至有时,还会降低分数,如此缓慢提升整体模型精度的方式,在时间和精力上开销存在较大难度;
2.4数据降维--关键词抽取
对asm文件数据,按空格,‘ ’,‘ ’进行分词,然后基于统计词频,位置特征,关联信息特征,进行关键词分析,最后进行可视化展现:(部分关键词示例)
利用主题模型,词图模型进行关键词抽取,进行特征提取,然后对提取出来的关键词,
1,利用LSTM进行建模预测,得分:0.678
2,利用tf-idf进行构造关键词向量,结合lgb进行分类,得分:0.765
3,进行清洗关键词,剔除一些标点符号,特征权重低的关键词以及无用词等,得分:0.792
由于关键词抽取时间开销需要10个小时左右,加之我们在工作中对于时间开销追求的强迫症;我们对关键词提取结果进行了分析,
a)关键词在句中出现的位置比较靠后;
b)关键词的重复率较高;
最终发现关键词,主要是“key :value”键值对中的value,于是我们利用:正则匹配key,进行抽取value,抽取时间缩短为1小时;根据奥卡姆剃刀原理,我们选择了正则匹配进行关键词特征提取。
2.5 LGB多分类模型—特征转化,线下验证
通过对数据的关键词提取,通过可视化我们发现:关键词具有较高的区分度
asm数据,提取关键词,以及关键词组合,转化为:词频,词序;pe数据,采用tfidf进行提取词向量矩阵;然后放入lgb多分类模型,进行训练,预测;由于线上提交次数有限,我们团队构造了线下验证数据集
比赛要求提交浮点数数据,起初利用浮点数数据线下验证分数与线上差距较大,故对线下验证时,对结果进行取整处理转化为01整型值,这样,基本线下与线上的score=(1-log_loss)值同升同降;
2.6模型方案重要节点
2.7方案模型架构图
3 方案总结,展望
方案总结:
1,我们团队方案主要采用:数据降维+多分类模型进行建模;
2,借助有效地可视化技术对文本数据进行特征理解和提取,
3,采用关键词进行数据降维,然后对结果进行二次分析,发现关键信息;
3,key-value键值对,通过深度学习转化为快速特征提取,节约算力,时间开销,有利于快速部署与应用;
4,线下评分调整,线上提交类别概率,线下我们调整为类别0,1值进行评分,比线上评分更为严格,是的模型稳定性更强。
展望:
1,在pe文件数据中,我们发现了有些url是可以访问的,我们可以对这些访问的url页面进行深入挖掘分析;
2,由于本赛题的对于结果输出有严格要求,所以并没有采取多模型融合策略,如果采用多模型融合,预测精度将有所提高;
致谢
中国计算机学会
大数据协同安全技术国家工程实验室
360集团
DataFountain
参考
[1] Wu S , Huang Q , Zhao L . De-noising of transientelectromagnetic data based on the long short-term memory-autoencoder[J].Geophysical Journal International, 2020(1):1.
[2] Ahmed A H , Aggarwal H , Nagpal P , et al. Dynamic MRI using deepmanifold self-learning[C]// 2020 IEEE 17th International Symposium onBiomedical Imaging (ISBI). IEEE, 2020.
[3] Gu C , Ji Z , Y Wang. The improvement of classification accuracy with denoising classautoencoder[J]. Modern Physics Letters B, 2019, 32(34n36).
[4] Leyli-Abadi M , Labiod L, Nadif M . Denoising Autoencoder as anEffective Dimensionality Reduction and Clustering of Text Data[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2017.
[5] Lee M K . Dimensionality reduction of radio map with nonlinearautoencoder[J]. Electronics Letters, 2012, 48(11):655-657.
[6] 胡昌杰. 基于Autoencoder的高维数据降维方法研究[D]. 兰州大学, 2015.
[7] Mihalcea R , Tarau P .TextRank: Bringing Order into Texts[C]// Proc Conference on Empirical Methodsin Natural Language Processing. 2004.
[8] 刘啸剑, 谢飞, 吴信东. 基于图和LDA主题模型的关键词抽取算法[J]. 情报学报, 2016, 35(6):9.
推荐阅读
获奖方案分享|恶意软件赛题 @Petrichor战队解题思路
获奖方案分享|恶意软件赛题 @eyaeyaeya战队解题思路
获奖方案分享|恶意软件赛题 @njnet_defender战队解题思路
获奖方案分享|短信变体字还原赛题 @大力出奇迹 战队解题思路
获奖方案分享|违规使用手机的识别赛题 @别玩手机 战队解题思路
以上就是本篇文章【获奖方案分享|恶意软件赛题 @we are family 战队解题思路】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/3571.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多