Abstract:
O câncer do colo do útero é uma doença silenciosa, que apresenta maior ocorrência em países
menos desenvolvidos. A melhor forma de prevenção e controle do câncer do colo do útero é a
detecção precoce, realizada por meio do Exame de Papanicolaou. As alterações celulares nas
células do colo do útero são as principais indicadoras de formação de tumores com suspeita de
malignidade. A identificação dessas alterações é uma tarefa que necessita bastante atenção, a
fim de minimizar erros de interpretação. Este trabalho consiste na análise do desempenho de
algoritmos de aprendizado de máquina (J48, Random Forest, Naive Bayes, Multilayer
Perceptron) na classificação de células do colo do útero e na identificação de possíveis
anomalias. O desempenho dos algoritmos foi analisado através da ferramenta de mineração de
dados Waikato Environment for Knowledge Analysis (WEKA), seguindo algumas métricas de
avaliação. Os experimentos foram realizados em uma base de dados contendo descrições
completas de células do colo do útero, bem como suas 7 possíveis classificações, fornecida pelo
Hospital da Universidade de Herlev, na Dinamarca. Além da base original, foram realizados
experimentos em uma base secundária, onde a quantidade de classificações possíveis foi
reduzida a duas: normal e anormal. Após esses experimentos, foi escolhido o algoritmo de
melhor desempenho geral para ser testado utilizando a técnica de seleção de atributos, que
analisa a base em busca dos atributos mais relevantes antes de realizar a classificação. O melhor
resultado foi obtido com o algoritmo Multilayer Perceptron, com a seleção de atributos na base
de dados secundária, que obteve uma taxa de acerto de 94,44%, com um índice de concordância
considerado excelente. A taxa de falsos positivos para normalidade foi de 3,6%, indicando que
poucas células anormais foram classificadas como células normais. Os resultados obtidos
mostram que os algoritmos de aprendizado de máquina possuem alta capacidade para identificar
padrões e para realizar tarefas de classificação, revelando grande potencial para utilização na
área médica.