Aprendizado de Máquina para detecção de sites de Phishing

Autores

DOI:

https://doi.org/10.22477/viii.widat.271

Palavras-chave:

golpes digitais, documentos falsos, árvores de classificação

Resumo

No meio digital, o termo Phishing se refere a materiais que simulam algum serviço com o objetivo de enganar os usuários para que enviem informações pessoais. Este artigo apresenta a utilização da técnica de árvores interpretáveis para a detecção de sites de Phishing. Essas árvores têm a característica de serem compreensíveis e possivelmente utilizadas por usuários comuns, mesmo sem o auxílio de um software especializado. Foi utilizada uma formulação em Programação Linear Inteira para encontrar árvores que classificam um conjunto de treinamento da melhor forma possível. Resultados parciais apontam que observando poucos elementos sobre um site foi possível detectar um Phishing com 87% de precisão no conjunto de testes.

Referências

AGHAEI, Sina; GÓMEZ, Andrés; VAYANOS, Phebe. Strong optimal classification trees. Operations research, [S. l.], p. 1-19, 2024. DOI: https://doi.org/10.1287/opre.2021.0034. Disponível em: https://pubsonline.informs.org/doi/10.1287/opre.2021.0034. Acesso em: 15 maio 2025.

BERTSIMAS, Dimitris; ORFANOUDAKI, Agni; WIBERG, Holly. Interpretable clustering: an optimization approach. Machine Learning, [S. l.], v. 110, p. 89-138, 2021. Disponível em: https://link.springer.com/article/10.1007/s10994-020-05896-2. Acesso em: 10 mar. 2025.

CHAND, Eswar. Phishing website detector. 2020. Disponível em: https://www.kaggle.com/datasets/eswarchandt/phishing-website-detector. Acesso em: 10 mar. 2025.

FIGUEREDO, Jader Duque. Modelos de aprendizado de máquina para árvore de decisão interpretável: otimização vs heurística. 2024. Dissertação (Mestrado em Ciência e Tecnologia da Computação) – Universidade Federal de Itajubá, Instituto de Engenharia de Sistemas e Tecnologia da Informação, Itajubá, 2024. Disponível em: https://repositorio.unifei.edu.br/jspui/handle/123456789/4191. Acesso em: 10 mar. 2025.

GREENACRE, Michael et al. Principal component analysis. Nature reviews methods primers, [S. l.], v. 2, n. 100, 2022. Disponível em: https://www.nature.com/articles/s43586-022-00184-w. Acesso em: 10 mar. 2025.

KHONJI, Mahmoud; IRAQI, Youssef; JONES, Andrew. Phishing detection: a literature survey. IEEE communications surveys and tutorials, [S. l.], v. 15, n. 4, p. 2091-2121, 2013. Disponível em: http://romisatriawahono.net/lecture/rm/survey/network%20security/Khonji%20-%20Phishing%20Detection%20-%202013.pdf. Acesso em: 10 mar. 2025.

SAFI, Asadullah; SINGH, Satwinder. A systematic literature review on phishing website detection techniques. Journal of King Saud University-Computer and Information Sciences, Saudi Arabia, v. 35, n. 2, p. 590-611, 2023. Disponível em: https://www.sciencedirect.com/science/article/pii/S1319157823000034. Acesso em: 15 maio 2025.

SHARIFANI, Koosha; AMINI, Mahyar. Machine Learning and Deep Learning: a review of methods and applications. World information technology and engineering journal, [S. l.], v. 10, n. 7, p. 3897-3904, 2023. Disponível em: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4458723. Acesso em: 10 mar. 2025.

VAN DER LINDEN, Jacobus; DE WEERDT, Mathijs; DEMIROVIĆ, Emir. Necessary and sufficient conditions for optimal decision trees using dynamic programming. Advances in neural information processing systems, [S. l.], v. 36, p. 9173-9212, 2023. Disponível em: https://proceedings.neurips.cc/paper_files/paper/2023/file/1d5fce9627e15c84db572a66e029b1fc-Paper-Conference.pdf. Acesso em: 15 maio 2025.

WOLSEY, Laurence Alexander; NEMHAUSER, George Lann. Integer and combinatorial optimization. [Hoboken]: Wiley, 1999.

WOLSEY, Laurence Alexander. Integer programming. Hoboken: Wiley, 2020.

YING, Xue. An overview of overfitting and its solutions. Journal of Physics: Conf. Series, [S. l.], v. 1168, n. 2, e022022, 2019. Disponível em: https://iopscience.iop.org/article/10.1088/1742-6596/1168/2/022022/pdf. Acesso em: 10 mar. 2025.

Downloads

Publicado

08-09-2025

Como Citar

HOKAMA, P. H. D. B.; FIGUEREDO, J. D.; CAVALHEIRO, K. C. S. Aprendizado de Máquina para detecção de sites de Phishing. VIII Workshop de Informação, Dados e Tecnologia (WIDaT) 2025, Brasília, DF, v. 8, 2025. DOI: 10.22477/viii.widat.271. Disponível em: https://widat.ibict.br/index.php/widat2025/article/view/271. Acesso em: 1 jun. 2026.