Feature Importance in Machine Learning Models for Static Malware Detection

This repository contains the code and experiments for the paper Feature Importance in Machine Learning Models for Static Malware Detection.

Overview

This project analyzes which static PE file features drive malware detection decisions across different machine learning architectures. Using the EMBER 2018 dataset, we compare tree-based and neural network models with a focus on feature importance, interpretability, and robustness, rather than performance alone.

Models Evaluated

LightGBM
Random Forest
Feedforward Neural Network (FFNN)
Convolutional Neural Network (CNN)

Key Findings

Tree-based models achieve the highest accuracy on clean data.
Neural networks are less accurate but degrade more gracefully under feature perturbation.
Imports, string-based metadata, and entropy-related features consistently signal malware across models.
Different architectures rely on distinct subsets of the feature space.

Dataset

EMBER 2018 v2 feature dataset
~800k labeled samples, 2,381 features per file
Static PE features only (no execution or dynamic analysis)

Methods

Model-specific feature importance extraction
Correlation analysis of high-importance features
Robustness testing via Gaussian noise perturbation

Disclaimer

This work evaluates static, feature-based malware detection. Gaussian perturbations are used as a stress test and do not represent realistic adversarial attacks.

Authors

Raquel Ana Magalhães Bush
Brian Kade Betterton

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
FeatureAnalytics.ipynb		FeatureAnalytics.ipynb
README.md		README.md
cnn.ipynb		cnn.ipynb
cnn.py		cnn.py
cnn_ffnn.ipynb		cnn_ffnn.ipynb
cnn_output.log		cnn_output.log
cnn_output2.log		cnn_output2.log
cnn_output3.log		cnn_output3.log
ffnn.ipynb		ffnn.ipynb
ffnn.py		ffnn.py
ffnn_output.log		ffnn_output.log
ffnn_output2.log		ffnn_output2.log
ffnn_output3.log		ffnn_output3.log
lgbm.ipynb		lgbm.ipynb
lgbm.py		lgbm.py
lgbm_output.log		lgbm_output.log
lgbm_output2.log		lgbm_output2.log
lgbm_output3.log		lgbm_output3.log
malware_kfold.ipynb		malware_kfold.ipynb
rf.ipynb		rf.ipynb
rf.py		rf.py
rf_output.log		rf_output.log
rf_output2.log		rf_output2.log
rf_output3.log		rf_output3.log
run_cnn.sh		run_cnn.sh
run_ffnn.sh		run_ffnn.sh
run_lgbm.sh		run_lgbm.sh
run_rf.sh		run_rf.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Feature Importance in Machine Learning Models for Static Malware Detection

Overview

Models Evaluated

Key Findings

Dataset

Methods

Disclaimer

Authors

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Feature Importance in Machine Learning Models for Static Malware Detection

Overview

Models Evaluated

Key Findings

Dataset

Methods

Disclaimer

Authors

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages