Aprendizado de Máquina para detecção de sites de Phishing

Pedro Henrique Del Bianco Hokama; Jader Duque Figueredo; Karen Cristina Soares Cavalheiro

doi:10.22477/viii.widat.271

Autores

Pedro Henrique Del Bianco Hokama Universidade Federal de Itajubá (UNIFEI) https://orcid.org/0000-0002-3734-7679
Jader Duque Figueredo Universidade Federal de Itajubá (UNIFEI) https://orcid.org/0009-0005-6281-3386
Karen Cristina Soares Cavalheiro Universidade Estadual Paulista (Unesp) https://orcid.org/0000-0003-2513-6927

DOI:

https://doi.org/10.22477/viii.widat.271

Palavras-chave:

golpes digitais, documentos falsos, árvores de classificação

Resumo

No meio digital, o termo Phishing se refere a materiais que simulam algum serviço com o objetivo de enganar os usuários para que enviem informações pessoais. Este artigo apresenta a utilização da técnica de árvores interpretáveis para a detecção de sites de Phishing. Essas árvores têm a característica de serem compreensíveis e possivelmente utilizadas por usuários comuns, mesmo sem o auxílio de um software especializado. Foi utilizada uma formulação em Programação Linear Inteira para encontrar árvores que classificam um conjunto de treinamento da melhor forma possível. Resultados parciais apontam que observando poucos elementos sobre um site foi possível detectar um Phishing com 87% de precisão no conjunto de testes.

Referências

AGHAEI, Sina; GÓMEZ, Andrés; VAYANOS, Phebe. Strong optimal classification trees. Operations research, [S. l.], p. 1-19, 2024. DOI: https://doi.org/10.1287/opre.2021.0034. Disponível em: https://pubsonline.informs.org/doi/10.1287/opre.2021.0034. Acesso em: 15 maio 2025.

BERTSIMAS, Dimitris; ORFANOUDAKI, Agni; WIBERG, Holly. Interpretable clustering: an optimization approach. Machine Learning, [S. l.], v. 110, p. 89-138, 2021. Disponível em: https://link.springer.com/article/10.1007/s10994-020-05896-2. Acesso em: 10 mar. 2025.

CHAND, Eswar. Phishing website detector. 2020. Disponível em: https://www.kaggle.com/datasets/eswarchandt/phishing-website-detector. Acesso em: 10 mar. 2025.

FIGUEREDO, Jader Duque. Modelos de aprendizado de máquina para árvore de decisão interpretável: otimização vs heurística. 2024. Dissertação (Mestrado em Ciência e Tecnologia da Computação) – Universidade Federal de Itajubá, Instituto de Engenharia de Sistemas e Tecnologia da Informação, Itajubá, 2024. Disponível em: https://repositorio.unifei.edu.br/jspui/handle/123456789/4191. Acesso em: 10 mar. 2025.

GREENACRE, Michael et al. Principal component analysis. Nature reviews methods primers, [S. l.], v. 2, n. 100, 2022. Disponível em: https://www.nature.com/articles/s43586-022-00184-w. Acesso em: 10 mar. 2025.

KHONJI, Mahmoud; IRAQI, Youssef; JONES, Andrew. Phishing detection: a literature survey. IEEE communications surveys and tutorials, [S. l.], v. 15, n. 4, p. 2091-2121, 2013. Disponível em: http://romisatriawahono.net/lecture/rm/survey/network%20security/Khonji%20-%20Phishing%20Detection%20-%202013.pdf. Acesso em: 10 mar. 2025.

SAFI, Asadullah; SINGH, Satwinder. A systematic literature review on phishing website detection techniques. Journal of King Saud University-Computer and Information Sciences, Saudi Arabia, v. 35, n. 2, p. 590-611, 2023. Disponível em: https://www.sciencedirect.com/science/article/pii/S1319157823000034. Acesso em: 15 maio 2025.

SHARIFANI, Koosha; AMINI, Mahyar. Machine Learning and Deep Learning: a review of methods and applications. World information technology and engineering journal, [S. l.], v. 10, n. 7, p. 3897-3904, 2023. Disponível em: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4458723. Acesso em: 10 mar. 2025.

VAN DER LINDEN, Jacobus; DE WEERDT, Mathijs; DEMIROVIĆ, Emir. Necessary and sufficient conditions for optimal decision trees using dynamic programming. Advances in neural information processing systems, [S. l.], v. 36, p. 9173-9212, 2023. Disponível em: https://proceedings.neurips.cc/paper_files/paper/2023/file/1d5fce9627e15c84db572a66e029b1fc-Paper-Conference.pdf. Acesso em: 15 maio 2025.

WOLSEY, Laurence Alexander; NEMHAUSER, George Lann. Integer and combinatorial optimization. [Hoboken]: Wiley, 1999.

WOLSEY, Laurence Alexander. Integer programming. Hoboken: Wiley, 2020.

YING, Xue. An overview of overfitting and its solutions. Journal of Physics: Conf. Series, [S. l.], v. 1168, n. 2, e022022, 2019. Disponível em: https://iopscience.iop.org/article/10.1088/1742-6596/1168/2/022022/pdf. Acesso em: 10 mar. 2025.

Aprendizado de Máquina para detecção de sites de Phishing

Autores

DOI:

Palavras-chave:

Resumo

Referências

Downloads

Publicado

Como Citar

Edição

Seção

Categorias

Licença

Palavras-chave