Identification of System Software Components Using Clustering Approach
Оригинал статьи: Shahmohammadi G., Jalili S., Hasheminejad S. M. H. Identification of System Software Components Using Clustering Approach, Journal of Object Technology. – 2010. – Т. 9. – №. 6. – С. 77-98.
Краткое описание
В статье предлагается использовать кластеризацию вариантов использования с целью определения компонент системы и их зон ответственности. Для определения важности признаков вариантов используется анализ чувствительности. Также для определения числа кластеров используется метрика внутренной сплоченности между кластерами и между их объединениями. Достоинства предложенного метода следующие:
- Не нужно взвешивать признаки
- Можно проводить анализ влияния признаков на точность кластеризации
- Новый точный метод идентификации компонент и их зон ответственности
Матрицы взаимоотношений объектов
Рассматриваем граф:
- вершины - объекты с наборами признаков (варанты использования)
- вершины соединяются ребрами с весами, вес ребра - коэффициент схожести объектов. Вычисляется на основе признаков.
Пусть <latex>N</latex> – число вариантов использования.
1. Матрица схожести <latex>S</latex> - матрица размера NхN, где
- <latex>s_{ij} = s_{ji},</latex>
- <latex>s_{ii} = 1,</latex>
- <latex>0 ⇐ s_{ij} ⇐ 1\ \forall 1 ⇐ i,j ⇐ N.</latex>
Матрицу схожести удобно использовать в случае, если признаки бинарные. Элементы матрицы обычно вычисляются следующим образом. Пусть <latex>n_{00}\ (n_{11})</latex> — число признаков, которые отсуствуют (присутствуют) у обоих объектов. <latex>n_{01},\ (n_{10})</latex> — число признаков, которые есть только у первого (второго) объекта. Ниже приведены формулы, использующиеся для подсчета схожести объектов: <latex> s_{ij} = \frac{n_{11} + n_{00}}{n_{11} + n_{00} + w(n_{01} + n_{10})},</latex>
<latex>s_{ij} = \frac{n_{11}}{n_{11} + w(n_{01} + n_{10})}</latex>, где параметр w берут обычно из множества <latex>\{1/2, 1, 2\}.</latex>
2. Матрица расстояний <latex>D</latex> между объектами - матрица размера NxN, где:
- <latex>d_{ij} = d_{ji},</latex>
- <latex>d_{ii} = 1,</latex>
- <latex>0 ⇐ d_{ij} ⇐ 1\ \forall 1 ⇐ i,j ⇐ N.</latex>
Матрицу расстояний удобно использовать, если признаки - числа. Элементы матрицы считаются по косинусному расстоянию: <latex>d_{ij} = 1 - \frac{\vec{v_{i}} \cdot \vec{v_{j}}}{\sqrt{||\vec{v_i}||_2 * ||\vec{v_j}||_2}}.</latex>
Методы кластеризации
- Иерархическая кластеризация. Сначала считаем, что всего N кластеров : <latex>\{C_1, \ldots, C_N \}</latex>, потом соединяем пару тех <latex>i,j</latex>, где <latex>d(C_i, C_j) = \min_{i\in C_i, j\in C_j} d_{ij}.</latex> Продолжаем итеративно, пока не останется K кластеров.
- Метод k – средних. Сначала выбирается начальное приближение из K объектов - центров кластеров. Основная идея заключается в том, что на каждой итерации перевычисляется центр масс каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь в соответствии с тем, какой из новых центров оказался ближе по выбранной метрике.
- RB - разделение. K - 1 раз разбиваем кластеры на 2, оптимизируя значение кластерной функции. Обычно берут отношение средней попарной похожести элементов внутри кластера к средней похожести элементов внутри кластера с элементами вне кластера.
- RBR - разделение. Так же, как RB, но в конце все разделения оптимизируются с одновременно.
- Прямая кластеризация. Одновременно ищутся все K кластеров.
- Fuzzy Clustering Method. Ищет разделения объектов, минимизируя функцию потерь.
- Алгоритмы из теории графов. Бинаризуем матрицу схожести S по порогу (ребро остается, если вес больше порога, иначе ребра нет), далее применяются алгоритмы поиска кластеров в графе.
- E- Neural Networks-Based Clustering. Номер кластера определятся номером нейрона, имеющего наибольшую активацию на данный объект.
Более подробное описание см. [1,2].
Методы оценки числа кластеров
1. CH - индекс. <latex> CH(K) = \frac{Tr(S_b)}{K-1} / \frac{Tr(S_w)}{N - K} \rightarrow max_{K},</latex> где <latex>Tr(S_b)</latex> — среднее расстояние внутри между точками внутри кластеров, <latex>Tr(S_w)</latex> — между точками разных кластеров.
2. Ray и Turi индекс. Пусть <latex>\{z_1, \ldots, z_K\}</latex> — центры кластеров. <latex> Validity(K) = Intra / Inter \rightarrow max_{K} </latex> <latex> Intra = \frac{1}{N} \sum_{i=1}^{k}\sum_{x\in C_i} ||x - z_i||^2</latex> — среднее расстояние до центра кластера. <latex> Inter = min(||z_i - z_j||^2), i = 1, \ldots , K - 1; j = i + 1, \ldots, K.</latex>— минимальное расстояние между центрами кластеров.
Выделение признаков вариантов использования
признаки выделяются с использованием диаграммы классов, коллобораций и диаграммы вариантов использования. Признаки:
1. Актеры. Актер, который вызывает данный вариант использования. 1 в колонке того актора, который вызывает данный сценарий, во всех остальных 0.
2. Классы-сущности. По одной колонке для каждого класса-сущности. 1 если данный класс присутствует и варианте использования, иначе 0.
3. Управляющие классы - классы, ответственные за взаимодействие между классами-сущностями и классами интерфейсов. Аналогично по колонке для каждого класса.
4. Отношения между вариантами использования.
- extend - 1 всем, кто связан данным отношением с каким-то конкретным вариантом использования и самому варианту использования.
- generalize – аналогично extend.
- include – если <latex>U_i, U_j</latex> связаны отношением include, то 1 в колонке для <latex>U_i</latex> и для всех других <latex>U_k,</latex> связанных отношением include с <latex>U_j.</latex>
5. Вес управляющего класса. <latex>WCC_i = \frac{Nec_i + Nic_i}{\sum_{j=1}^m Nec_j + \sum_{j=1}^{l} Nic_j},</latex> где <latex>Nec_i</latex> - число сущностей, находящихся под контролем класса <latex>i</latex>, <latex>Nic_i</latex> - число интерфейсов, находящихся под контролем класса <latex>i</latex>, <latex>m</latex> – предполагаемое число сущностей, <latex>l</latex> – предполагаемой число интерфейсов. 6. Ассоциативный вес варианта использования <latex>AWUC = \frac{N_{CC_j} + N_{aec_j} + N_{ec_j}}{\sum_{j=1}^{u}(N_{CC_j} + N_{aec_j} + N_{ec_j})},</latex> где <latex>N_{CC_j}</latex> – число управляющих классов, связанных с данным вариантом использования, <latex>N_{aec_i}</latex> – число отношений между сущностями и данным вариантом использования, <latex>N_{ec_i}</latex> – число сущностей, связанных с данным вариантом использования.
6. Коэффициент сходства данного варианта использования с остальными вариантами. Считается между конкретным вариантом использования и всеми остальными, используя формулу для подсчета элементов матрица похожести.
Cоздание матрицы сходства вариантов использования
При подсчете матрицы нужно учитывать, что признаки вариантов использования есть бинарные, а есть числовые. Поэтому сходство вариантов использования считается по формуле: <latex>s(i, j) = \frac{w_1s_1(i,j) + w_2s_2(i,j)}{w_1 + w_2},</latex> где <latex>s_1(i,j)</latex> – мера сходства, посчитанная только на бинарный признаках по формуле подсчета элементов матрицы похожести c <latex>w = 1,</latex> <latex>s_2(i,j) = 1 - d(i,j)</latex> – мера сходства для числовых признаков, где <latex>d_{ij}</latex> считается по формуле \ref{desim}, <latex>w_1, w_2</latex> - веса, подобраны в соответствии с важностью матриц схожести и расстояний, авторы положили <latex>w_1 = w_2 = 0.5.</latex>
Оценка предложенного метода
Сначала авторы статьи выбрали наиболее подходящий способ кластеризации. Для этого они привлекли экспертов и считали ошибку по формуле: <latex> Error = \frac{1}{2} \sum_{i=1}^{K} NC_{i} \bigtriangleup NE_{i},</latex> где кластер <latex>NC_{i}</latex> разметил метод кластеризации, <latex>NE_{i}</latex> – кластер, размеченный экспертом. Авторы усреднили ошибку между 4 различными системами:
- Education System(ES),
- Online Stock Brokerage System(OSBS),
- Chain-Store System(CSS),
- Home Appliance Control System(HACS).
По следующей формуле: <latex>QCF_i = \frac{1}{4}\sum_{j=1}^{4}\frac{NCE_{ij}}{NUC_{j}},</latex> где <latex>NCE_{ij}</latex> – ошибка <latex>i</latex>-ого метода кластеризации на j-ой системе, <latex>NUC_{j}</latex> – число вариантов использования в j-ой системе.
Далее авторы провели анализ чувствительности признаков – они удаляли поочередно признаки и смотрели, ухудшилось ли качество. Если не уменьшалось, то удаляли этот признак. Таким образом авторы получили набор признаков, достаточный для качественной кластеризации.
Результаты эксперимента
Лучшим методом кластеризации оказался метод RBR, средняя ошибка: 0.05, далее прямой поиск кластеров с результатом 0.095. Среди методов оценки числа кластеров лучше оказался метод 2 - Ray и Tury индекс, его погрешность не более одного кластера (в сравнении с экспертной оценкой числа кластеров). Анализ влияния признаков показал, что признаки на основе актеров, управляющих классов и классов-сущностей важны, при их удалении качество кластеризации ухудшалось на всех системах. Далее авторы попробовали поменять веса <latex>w_1</latex> и <latex>w_2</latex> при подсчете матрицы сходства вариантов использования. Оказалось, что веса <latex>w_1 = w_2 = 0.5</latex> оптимальны для задачи кластеризации. Авторы сравнили свой метод с методом Кима и оказалось, что их метод дает меньшую ошибку на всех рассмотренных системах.
Список литературы
- R. Xu and D. Wunsch, “Survey of Clustering Algorithms , ” IEEE Transactions on Neural Networks, Vol. 16, No. 3, MAY 2005, pp. 645- 678.
- G. Karypis, CLUTO: A Clustering Toolkit. Dept. of Computer Science, University of Minnesota, USA, 2002.