В данной статье речь пойдёт о прогнозировании дефектов программного обеспечения. Прежде, чем выпустить ПО, мы должны найти дефекты в нём. Большинство автоматизированных прогнозов используют техники машинного обеспечения. Два наиболее часто использующихся подхода это Возврат и Классификация. Чтобы улучшить алгоритмы, их тренируют на различных исторических данных. По результатам экспериментов, точность алгоритмов зависит от качества исторической информации. В 2013 году была выпущена статья, которая представляет собой набор шагов по очистке от ошибочной информации с наборов данных НАССА. В первом разделе пойдёт речь о проделанной работе по очистке от ошибочной информации данных НАССА.

Проблемы данной информации: 1)Повторяющиеся или противоречивые примеры 2)Неприкосновенность информации 3)Постоянные и повторяющиеся определения 4)Не используемые значения Далее были выпущены 18 тестов для проверки на ошибочность данных. Причём они помогают разделить эти данные на две группы. Первые ошибочные, вторые просто не помогают находить дефекты.

Рассматривается доработка правил очистки. Таблица 1 показывает определения и аббревиатуры метрик LOC, используемых в изучении. Буква а-е обозначают LOC метрики, а N - число метрик. ξ - число не используемых строк в модуле. Таблица 1 показывает число N в модуле. N = a + b + c + d + ξ (1), где a - похожие строки, b - закомментированные линии, с - строки с выполняющимся кодом, d - пустые строки.

e - общее количество строк в модуле. e = a + c (2)

В таблице два показаны результаты показаний алгоритмов на выбранных сетах. Мы видим что на правиле (1) алгоритмы падают. Видно, что после очистки в JM1 и MC2 остаётся мало данных. Это означает, что они непригодны для предсказания дефектов. Кроме того, после очистки МС1 и PC4 наборы данных удалены все дефектные точки данных, что делает их непригодными для прогнозирования дефектов.

На рисунке 1 сравнивает количество экземпляров отбрасываются путем применения правил очистки и наши правила. Черная полоса обозначает экземпляры удалены из версия tera-PROMISE наборов данных NASA MDP, используя правила очистки. Точно так же, белая черта обозначает экземпляры, устранённые с помощью нашего (1) и (2) правила. JM1, MC1, MC2, PC4 и PC5 NASA MDP наборов данных сильно очищены с помощью наших правил. Кроме того, в случае DS '' The JM1, МС1, МС2 и Pc5 наборы данных остаются с затратами, меньше чем 5% от исходных точек данных.

Алгоритмы предсказаний зависят от наборов данных, на которых они построены. Часто используются данные NASA, которые должны быть очищены, чтобы увеличить точность предсказаний.