Наука про мережі

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Наука про мережі — це наукова галузь, яка вивчає складні мережі, такі як комунікаційні, комп'ютерні, біологічні, когнітивні і семантичні мережі, а також соціальні мережі, і розглядає різні елементи або учасників процесу, представлених вузлами (або вершинами), і зв'язки між елементами або учасниками, представлені зв'язками (або ребрами). Ця наукова галузь використовує теорії і методи теорії графів, статистичної механіки, інтелектуального аналізу даних і візуалізації інформації з інформатики, моделювання логічного висновку зі статистики і соціальної структури із соціології. Національна науково-дослідницька рада США[en] визначає науку про мережі як «вивчення мережевих подань фізичних, біологічних і соціальних явищ, що веде до прогностичних моделей цих явищ».[1]

Передумови та історія

Вивчення мереж зустрічається в різних дисциплінах і мережева модель використовується як засіб аналізу складних і пов'язаних даних. Найраніша стаття з цієї галузі — знаменита стаття про сім кенігсберзьких мостів, яку написав Леонард Ейлер 1736 року. Запропонований Ейлером математичний опис вершин і ребер став основою теорії графів — галузі математики, яка вивчає властивості попарних зв'язків у мережевій структурі. Теорія графів розвинулася і знайшла застосування в хімії[2].

Денеш Кеніг, угорський професор математики, написав 1936 року першу книгу з теорії графів «Теорія скінченних і нескінченних графів»[3].

Соціограма Морено 1-го класу.

У 1930-х роках Якоб Леві Морено, психолог, що працював у традиціях гештальтпсихології, прибув до США. Він розробив соціограму[en] й представив її публіці в квітні 1933 року на з'їзді студентів-медиків. Морено стверджував, що «до винаходу соціометрії ніхто не знав, як точно виглядає міжособистісна структура групи»[4]. Соціограма була поданням соціальної структури групи учнів початкової школи. Хлопці дружили з хлопцями, а дівчата — з іншими дівчатами, лише з одним винятком: один із хлопців сказав, що йому подобається одна дівчина, але почуття не було обопільним. Мережеве подання соціальної структури справило таке сильне враження, що про нього написали в газеті The New York Times[5]. Соціограми знайшли безліч застосувань, на їх основі сформувались підходи до аналізу соціальних мереж.

Застосування теорії ймовірності в науці про мережі розвивалося як відгалуження теорії графів у вигляді восьми знаменитих статей Пала Ердеша і Альфреда Реньї про випадкові графи. Для соціальних мереж експоненційна модель випадкового графу[en] або p* є чудовою основою для подання простору ймовірнісних зв'язків, що з'являються в соціальній мережі. Альтернативним підходом до ймовірнісних мережевих структур є матриця ймовірностей мережі[en], яка моделює ймовірність ребер, що виникають у мережі, ґрунтуючись на історичній присутності або відсутності ребра в мережах, що виникають.

У 1998 Девід Крекгард і Кетлін Карлі представили ідею метамережі з моделлю PCANS. Вони припустили, що «всі організації утворюють три домени: Люди, Завдання і Ресурси». В їхній статті введено концепцію, що мережі виникають у кількох доменах, а тому вони взаємозв'язані. Ця галузь виросла в іншу підгалузь науки про мережі, яка називається динамічним аналізом мережі[en].

Пізніше наукові зусилля були сфокусовані на математичному описі різних мережевих топологій. Дункан Ваттс поєднав дані на мережах з математичним поданням, яке описує граф «Світ тісний». Альберт-Ласло Барабаші і Река Альберт[en] розробили масштабно-інваріантну мережу, яка в загальних рисах визначає мережеву топологію, яка містить вузлові вершини (хаби) зі множиною з'єднань, кількість яких зростає, зберігаючи постійне відношення числа з'єднань до числа вузлів. Хоча багато мереж, такі як інтернет, зберігають це відношення, інші мережі мають довгі хвости розподілу вузлів, які лише наближено зберігають масштабну інваріантність.

Ініціативи Міністерства оборони США

Військовики США першими (1996 року) зацікавилися мережево-центричною війною як концепцією військових дій, заснованих на науці про мережі. Джон А. Парментола, керівник науково-дослідного центру і лабораторій армії США (англ. the U.S. Army Director for Research and Laboratory Management), проголосив на армійській раді з науки і техніки (англ. the Army’s Board on Science and Technology, BAST) 1 грудня 2003 року, що наука про мережі стає новою галуззю досліджень в армії. BAST, відділ інженерно-технічних та природничих наук (англ. the Division on Engineering and Physical Sciences) Національної ради з досліджень (англ. the National Research Council, NRC) державної академії наук, наділений повноваженнями організації обговорень наукових і технологічних актуальних питань для армії і здійснення нагляду за незалежними пов'язаними з армією вивченнями, які проводить академія наук. BAST вивчає, чи може допомогти визначення рамок та фінансування нової галузі науки про мережі, закрити розрив між потребами здійснення інформаційних операцій та поточним примітивним станом фундаментальних знань про мережі.

Як результат BAST випустив 2005 року дослідницьку роботу NRC, з назвою «Наука про мережі», в якій визначено нову галузь основних досліджень у науці про мережі для армії. Ґрунтуючись на отриманих у цій роботі результатах та рекомендаціях і на подальшому звіті NRC 2007 року під назвою «Стратегія для армійських центрів науки про мережі, технології й експериментів», основні армійські дослідницькі ресурси перенаправлено на ініціалізацію нових головних дослідницьких програм у науці про мережі. Щоб побудувати нові теоретичні засади для складних мереж, підтримуються деякі нові ключові моменти дослідженнь науки про мережі, адресовані армійським лабораторіям:

  • Математичні моделі поведінки мереж для прогнозування продуктивності за розміром, складністю мережі й оточенням.
  • Оптимізована продуктивність людей, необхідна для мережевої війни.
  • Організація мереж в екосистемах та в комірках на молекулярному рівні.

2004 року з подачі Фредеріка В. Мокслі і за підтримки Девіда С. Альбертса Міністерство оборони допомогло створити, спільно з військовою академією (англ. the United States Military Academy, USMA) армії США, перший Центр науки про мережі (англ. Network Science Center). Під керівництвом Мокслі і співробітників USMA створено міждисциплінарні студентські курси науки про мережі для курсантів Вест-Пойнт. Для кращого впровадження основних положень науки про мережі серед майбутніх лідерів USMA заснували також курс з п'яти дисциплін.

2006 року армія США і Велика Британія (UK) сформували Міжнародний технологічний альянс[en] (англ. International Technology Alliance) з мережевої та інформаційної науки (англ. the Network and Information Science), партнерство армійської дослідної лабораторії Міністерства оборони Великої Британії і консорціуму індустрії та університетів США і Великої Британії. Метою альянсу є здійснення досліджень з підтримки інформаційних операцій в інтересах обох націй.

2009 року армія США сформувала Спільний технологічний альянс з науки про мережі[en], альянс зі спільних досліджень Дослідницької лабораторії Армії США, CERDEC[en] і консорціуму 30 промислових дослідницьких центрів США. Метою альянсу є розробка глибокого розуміння загальних рис переплетених соціальних/когнітивних, інформаційних і комунікаційних мереж, а як результат, покращення можливості аналізувати, передбачати, розробляти і впливати на складні переплетені системи мереж багатьох видів.

Потім, як результат цих зусиль, міністерство оборони США спонсорувало численні дослідницькі проєкти, що підтримують науку про мережі.

Властивості мереж

Часто мережі мають деякі атрибути, які можуть бути обчислені для аналізу їхніх властивостей і характеристик. Поведінку цих властивостей мереж часто визначають мережеві моделі і вони можуть бути використані для аналізу, чим відрізняються одні моделі від інших. Багато визначень інших термінів, які використовуються в науці про мережі, можна знайти в статті «Словник термінів теорії графів».

Розмір

Під розміром мережі може розумітися число вузлів або, рідше, число ребер , яке (для зв'язних графів без кратних ребер) може змінюватися від (дерево) до (повний граф). У разі простого графу (мережа, в якій існує максимум одне (неорієнтоване) ребро між будь-якою парою вершин і в якій жодна з вершин не з'єднана сама з собою), ми маємо . Для орієнтованих графів (без петель) . Для орієнтованих графів з дозволеними петлями . Для випадку графу, в якому можливі кратні ребра між парою вершин .

Щільність

Щільність мережі з вузлами визначається як відношення числа ребер до числа можливих ребер у мережі і задається (у разі простих графів) біноміальним коефіцієнтом , що дає

Інше можливе рівняння — де зв'язки неорієнтовані[6][7]. Це дає краще розуміння щільності мережі, оскільки неорієнтовані зв'язки можна виміряти.

Планарна мережева щільність

Щільність мережі , в якій немає перетинів ребер, визначається як відношення числа ребер до максимального числа ребер у мережі з вузлами без перетинів ребер , що дає

Середній степінь вузла

Степінь вузла — це кількість ребер, пов'язаних з ним. Тісно пов'язана з щільністю мережі середня щільність, (або, у разі орієнтованих графів . Множник 2 в попередній рівності виникає з того, що кожне ребро в неорієнтованому графі робить внесок у степені двох різних вершин). У моделі випадкового графу Ердеша — Реньї () ми можемо обчислити очікуване значення (рівне очікуваному значенню довільної вершини) — випадкова вершина має можливих інших вершин з імовірністю з'єднання . Тоді .

Середня довжина найкоротшого шляху (або характеристика довжини шляху)

Середня довжина найкоротшого шляху обчислюється відшуканням найкоротшого шляху між усіма парами вузлів та обчисленням середньої довжини за всіма шляхами (довжиною є кількість ребер, що містяться в шляху, тобто відстань між двома вершинами в графі). Це показує нам, у середньому, число кроків, які потрібно зробити від одного вузла мережі до іншого. Поведінка математичного очікування середньої довжини найкоротшого шляху як функції числа вершин моделі випадкової мережі визначає, чи відбиває модель ефект тісного світу. Якщо вона поводиться як , модель генерує модель мереж малого світу. За зростання більшого, ніж логарифмічне, модель не дає «тісного світу». Особливий випадок зростання відомий як ефект ультратісного світу.

Діаметр мережі

Як інший засіб вимірювання графів мереж можна визначити діаметр мережі, як найдовший з обчислених найкоротших шляхів у мережі. Це найкоротша відстань між двома найвіддаленішими один від одного вузлами мережі. Іншими словами, після того, як обчислено довжину найкоротшого шляху з кожного вузла у всі інші вузли, діаметр є найдовшим з усіх обчислених довжин шляхів. Діаметр є поданням лінійного розміру мережі.

Коефіцієнт кластеризації

Коефіцієнт кластеризації є мірою властивості «всі мої друзі знають один одного». Це іноді описується як «друзі мого друга — мої друзі». Точніше, коефіцієнт кластеризації вузла дорівнює відношенню наявних зв'язків, що з'єднують сусідів вузла один з одним, до найбільшого числа таких зв'язків. Коефіцієнт кластеризації всієї мережі дорівнює середньому коефіцієнту кластеризації всіх вузлів. Високий коефіцієнт кластеризації для мережі є іншою ознакою тісного світу.

Коефіцієнт кластеризації -го вузла дорівнює

де  — число сусідів -го вузла, а  — число зв'язків між цими сусідами. Максимальна кількість можливих зв'язків між сусідами тоді дорівнює

З точки зору теорії ймовірності очікуваний локальний коефіцієнт кластеризації дорівнює ймовірності існування зв'язку між двома довільно вибраними сусідами одного вузла.

Зв'язність

Спосіб, яким мережа зв'язана, грає велику роль в аналізі й інтерпретації мережі. Мережі класифікуються на чотири категорії:

  • Кліка/повний граф — повністю зв'язна мережа, в якій кожен вузол пов'язаний з кожним іншим вузлом. Ці мережі симетричні, оскільки всі вузли мають вхідні з'єднання від всіх інших вузлів і вихідні з'єднання у всі інші вузли.
  • Гігантська компонента — одна зв'язна компонента містить більшість вузлів мережі.
  • Слабко-зв'язна компонента — набір вузлів, у якому існує шлях з будь-якого вузла в будь-який інший без урахування напрямку ребер.
  • Сильно-зв'язна компонента — набір вузлів, у якому існує орієнтований шлях з будь-якого вузла в будь-який інший.

Центральність вузла

Показники центральності породжують ранжування, яке намагається виявити найважливіші вузли в моделі мережі. Різні показники центральності кодують різні контексти слова «важливість». Центральність за посередництвом[8], наприклад, вважає вузол дуже важливим, якщо він утворює мости між багатьма іншими вузлами. На противагу, центральність за впливовістю вважає вузол дуже важливим, якщо багато інших дуже важливих вузлів пов'язані з ним. В літературі запропоновано сотні таких мір.

Ознаки центральності точні тільки для виявлення найбільш центральних вузлів. Ці міри рідко мають сенс, якщо взагалі мають, для інших вузлів мережі[9][10]. Також вони точні, тільки тоді, коли використовуються в контексті важливості вузлів і прагнуть «стати помилковими» в інших контекстах[11]. Наприклад, уявімо дві спільноти, які з'єднуються тільки ребром між наймолодшими членами кожної зі спільнот. Оскільки перехід із однієї спільноти в іншу має йти через це ребро, двоє молодших членів будуть мати високу центральність за посередництвом. Але, оскільки вони молоді (очевидно), вони мають мало зв'язків з «важливими» вузлами у власній спільноті, це означає, що їхня центральність за впливовістю буде досить низькою.

Концепцію центральності в контексті статичних мереж розширено на основі емпіричних і теоретичних досліджень до динамічної центральності[12] в контексті залежних від часу і тимчасових мереж[13][14][15].

Вплив вершин

Обмеження мір центральності призвели до розвитку більш загальних мір. Двома прикладами є досяжність, яка використовує розкид довжини випадкових маршрутів для вимірювання, наскільки досяжна решта мережі від вибраного початкового вузла[16], і очікувана сила, похідна від очікуваного значення сили інфекції, породженої вузлом[9]. Обидві ці міри можна змістовно обчислити з самої структури мережі.

Мережеві моделі

Мережеві моделі використовуються як основа для розуміння взаємозв'язків всередині емпіричних складних мереж. Різні моделі генерування випадкових графів утворюють мережеві структури, які можна використати в порівнянні зі складними мережами реального світу.

Модель випадкового графу Ердеша — Реньї

Модель Ердеша — Реньї, згенерована з вузлами. Для кожного ребра в повному графі, утвореному усіма N вузлами, генерується випадкове число і порівнюється із заданим значенням ймовірності. Якщо випадкове число менше від p, утворюється ребро.

Модель Ердеша — Реньї, названа іменами Пала Ердеша і Альфреда Реньї, використовується для генерування випадкових графів, у яких ребра утворюються між вузлами з однаковими ймовірностями. Модель можна використати в імовірнісному методі для доведення існування графів з різними властивостями або для забезпечення строгого визначення, які властивості виконуються майже для всіх графів.

Для генерування моделі Ердеша — Реньї потрібно задати два параметри — загальну кількість вузлів n і ймовірність p, з якою довільну пару вузлів має зв'язувати ребро.

Оскільки модель генерується без переваг для певних вузлів, розподіл вузлів за числом зв'язків біноміальний — для випадково вибраного вузла ,

В цій моделі коефіцієнт кластеризації дорівнює 0 майже напевно. Поведінку можна розбити на три області.

Субкритична, : Всі компоненти прості і дуже маленькі, найбільша компонента має розмір ;

Критична, : ;

Суперкритична, : , де є додатним розв'язком рівняння .

Найбільша зв'язна компонента має високу складність. Всі інші компоненти прості і малі .

Конфігураційна модель

Як вхід для конфігураційної моделі вибирається послідовність степенів вершин[17][18] або розподіл степенів вершин[19][20] (яка потім використовується для генерування послідовності вершин) і створюється випадково зв'язний граф зі збереженням усіх степенів вершин послідовності. Це означає, що для даного вибору послідовності степенів граф вибирається однорідно із множини всіх графів, які мають таку послідовність степенів вершин. Степінь випадково вибраної вершини є незалежною і однаково розподіленою випадковою змінною з цілими значеннями. При конфігураційний граф містить гігантську зв'язну компоненту необмеженого розміру[18]. Інші компоненти мають скінченні розміри, які можна виразити кількісно за допомогою розподілу розміру. Ймовірність , що випадково вибраний вузол пов'язаний з компонентою розміру визначається степенем згортки[en] розподілу степенів[21]

де означає розподіл вузлів за кількістю зв'язків . Гігантську компоненту можна зруйнувати випадковим видаленням критичної частки всіх вершин. Цей процес називається перколяцією (протіканням) на випадкових мережах. Якщо другий момент степеня розподілу скінченний, тобто , ця критична частка ребер задається рівністю[22]

і середня відстань між вершинами гігантської компоненти логарифмічно пропорційна повному розміру мережі [19].

У моделі орієнтованої конфігурації степінь вузла задається двома числами, напівстепенем входу і напівстепенем виходу , і, відповідно, розподіли степенів вершин будуть двоваріантними. Очікуване число вхідних ребер і вихідних ребер збігаються, так що . Орієнтована конфігураційна модель містить гігантську компоненту тоді й лише тоді, коли[23]

Зауважимо, що і рівні, а тому взаємозамінні в останній нерівності. Ймовірність того, що випадково вибрана вершина належить компоненті розміру , задається формулою[24]

для вхідних компонент, і

для вихідних компонент.

Модель тісного світу Уаттса — Строгаца

Модель Ваттса — Строгаца використовує для отримання структури моделі концепцію перемонтування. Генератор моделі ітерує через усі ребра у вихідній структурі ґратки. Ребро може змінити пов'язані з ним вершини з заданою ймовірністю перемонтування. В даному прикладі .

Модель Ваттса — Строгаца є моделлю генерування випадкового графу, яка дає графи з властивостями «світ тісний».

Для генерування моделі Ваттса — Строгаца використовується початкова структура ґратки. Кожен вузол мережі спочатку пов'язаний з найближчими сусідами. Інший параметр задає ймовірність перемонтування. Кожне ребро має ймовірність , що його буде перемонтовано в граф як випадкове ребро. Очікуване число перемонтованих з'єднань у моделі дорівнює .

Оскільки модель Ваттса — Строгаца починається як невипадкова ґратчаста структура, вона має дуже високий коефіцієнт кластеризації разом з високою середньою довжиною шляху. Кожне перемонтування з великою ймовірністю створює скорочений шлях між сильно зв'язними кластерами. При збільшенні ймовірності перемонтування коефіцієнт кластеризації зменшується повільніше, ніж середня довжина шляху. Як наслідок, це дозволяє середній довжині шляху мережі істотно зменшуватися за слабкого зменшення коефіцієнта кластеризації. Високі значення p приводять до більшого числа перемонтувань ребер, що в цілому робить модель Ваттса — Строгаца випадкової мережею.

Модель Барабаші — Альберт бажаних приєднань

Модель Барабаші — Альберт — це модель випадкової мережі, яка використовується для демонстрування бажаних приєднань або ефекту «багатий стає багатшим». У цій моделі ребро найімовірніше з'єднує вузли з найбільшими степенями. Мережа починається з мережі з m0 вузлами, де , а степінь кожного з вузлів початкової мережі має бути принаймні 1, в іншому випадку вузол назавжди залишиться від'єднаним від решти мережі.

У моделі Барабаші — Альберт нові вузли додаються в мережу по одному. Кожен новий вузол з'єднується з наявними вузлами з імовірністю, яка пропорційна числу вузлів, що вже існують. Формально, ймовірність , що новий вузол зв'язний з вузлом i, дорівнює[25]

де ki є степенем вузла i. Найбільш пов'язані вузли («хаби») прагнуть швидко акумулювати навіть більше з'єднань, тоді як вузли з меншим числом з'єднань навряд чи будуть вибрані для нового з'єднання. Нові вузли мають «перевагу» приєднатися до вже найзв'язніших вузлів.

Розподіл вузлів за числом зв'язків моделі Барабаші BA, яка випливає за степеневим законом. При масштабуванні за допомогою loglog функції степеневого закону отримуємо пряму[26].

Розподіл вузлів за кількістю зв'язків, що отримується з BA моделі, масштабно інваріантний, зокрема, це степеневий закон вигляду

Хаби показують високу центральність за посередництвом, дозволяючи існування коротких шляхів між вузлами. Як наслідок, модель BA прагне мати дуже коротку середню довжину шляхів. Коефіцієнт кластеризації цієї моделі також прямує до 0. Тоді як діаметр D багатьох моделей, зокрема моделі випадкового графу Ердеша — Реньї і деяких мереж «тісного світу», пропорційний log N, модель BA показує D~loglogN (ультратісний світ)[27].

Модель приєднання за допомогою посередника

У моделі приєднання через посередника[en] (MDA) новий вузол приходить з ребрами, для чого вибирається випадковим чином наявний пов'язаний вузол і новий вузол з'єднується не тільки з цим випадково вибраним вузлом, але також з його сусідами, вибраними також випадково. Ймовірність , що сусідній вузол наявного вузла вибирається, дорівнює

Множник дорівнює оберненій величині середнього гармонійного (ОСГ) степенів сусідів вузла . Велике чисельне дослідження дозволяє припустити, що при середнє значення ОСГ за великих прямує до константи, це означає, що . З цього випливає, що чим більше зв'язків (степінь) вузол має, тим вищий у нього шанс отримати більше зв'язків, оскільки їх можна отримати більшим числом способів через посередників, що, по суті, втілює інтуїтивну ідею «багаті стають багатшими» (або правило переважного приєднання моделі Барабаші — Альберт). Тому мережі MDA, як можна зрозуміти, підкоряються правилу PA, але в неявному вигляді[28].

Однак при отримуємо механізм «переможець забирає все», оскільки майже загального числа вузлів мають степінь 1, а один вузол стає супербагатим. У міру збільшення значення диспропорція між надбагатими і бідними скорочується і при спостерігаємо перехід від механізму «багатий стає супербагатим» до механізму «багатий стає багатшим».

Модель відповідності

Іншу модель, у якій ключовим інгредієнтом є природа вершини, запропонував Калдареллі[en] зі співавторами[29]. У ній зв'язок між двома вершинами створюється зі ймовірністю, що задається функцією зв'язку модель відповідності[en] залучених вершин. Степінь вершини задається формулою[30]

Якщо є оборотною зростаючою функцією від , то розподіл імовірності задається формулою

Як наслідок, якщо відповідність розподілено за степеневим законом, то так само розподілено й степені вузлів.

Менш очевидно при швидко спадному розподілі ймовірностей разом зі зв'язною функцією виду

з константою та функцією Хевісайда , що ми отримуємо масштабно-інваріантні мережі.

Така модель була успішно застосована для опису торгівлі між країнами за допомогою ВВП як міри відповідності для різних вузлів і зв'язної функції виду[31][32]

Аналіз мережі

Аналіз соціальних мереж

Аналіз соціальної мережі досліджує структуру зв'язків між громадськими суб'єктами[6]. Ці суб'єкти є часто людьми, але можуть бути також і групами, організаціями, національними державами, сайтами, науковими публікаціями.

Від 1970-х років емпіричне вивчення мереж відіграє центральну роль у соціальній науці і багато математичних і статистичних засобів, що використовуються для вивчення мереж, розроблено в соціології[33]. Серед багатьох інших застосувань аналіз соціальної мережі використовується для розуміння дифузії інновацій, новин і чуток. Аналогічно, його можна використати як для дослідження поширення хвороб, так і пов'язаної зі здоров'ям поведінки. Його застосовували для вивчення ринку, де використовували для перевірки ролі довіри в товарно-грошових відносинах і соціальних механізмів у формуванні цін. Аналогічно його використовували для вивчення залучення в політичні рухи і соціальні організації. Використовували його також для осмислення наукових розбіжностей і академічної репутації. Нещодавно мережевий аналіз (і його найближчий родич, аналіз трафіку[en]) почали інтенсивно використовувати у військовій розвідці для розкриття соціальних мереж опору, що мають як ієрархічну, так і безлідерну природу[34][35].

Динамічний аналіз мережі

Динамічний аналіз мережі[en] досліджує зміни структури зв'язків серед різних класів об'єктів у складних соціо-технічних системах і відбиває соціальну стабільність і зміни, такі як поява нових груп, дискусій і лідерів[12][13][14][15][36]. Динамічний аналіз мережі фокусується на метамережах, складених з вузлів багатьох різних видів (об'єктів) та множинних типах зв'язків[en]. Ці об'єкти можуть дуже варіюватися[12]. Прикладами можуть бути люди, організації, теми, ресурси, завдання, події, місця розташування і віри (погляди).

Техніки динамічної мережі особливо зручні для оцінки часових трендів, виділення лідерів, що з'являються, і дослідження коеволюції людей та ідей.

Аналіз біологічних мереж

При недавньому вибуховому збільшенні публічно доступних біологічних даних аналіз молекулярних мереж набув значного інтересу. Аналіз у цих умовах тісно пов'язаний з аналізом соціальної мережі, але часто фокусується на локальних закономірностях у мережі. Наприклад, мережеві мотиви — це маленькі підграфи, які надмірно представлені в мережі. Мотиви активності подібні надмірно представленим закономірностям у властивостях вузлів і ребер у мережі, які надмірно представлені в мережевій структурі. Аналіз біологічних мереж привів до розвитку мережевої медицини[en], яка розглядає ефект хвороб у интерактомі[37].

Аналіз зв'язків

Аналіз зв'язків є підмножиною мережевого аналізу, що досліджує асоціації між об'єктами. Прикладом може бути перегляд адрес підозрюваних і жертв, номерів телефонів, які вони набирали, фінансових транзакцій, до яких вони долучались у розглянутий проміжок часу, та ступеня споріднення цих об'єктів як частина поліційного розслідування. Аналіз зв'язків тут забезпечує вкрай важливі відносини і асоціацію між дуже великим числом об'єктів різних видів, які не очевидні під час розгляду частин інформації окремо. Автоматизований аналіз зв'язків все більше експлуатують банки та страхові агентства для виявлення шахрайства, оператори зв'язку для аналізу комунікаційних мереж, медичні дослідники в епідеміології та фармакології, органи охорони правопорядку для розслідувань, пошукові системи для оцінювання релевантності рейтингів (і навпаки, спамери для спамдексингу і власники бізнесу для пошукової оптимізації), а також всі, хто має потребу аналізувати зв'язки між великою кількістю об'єктів.

Стійкість мережі

Структурна стійкість мереж[38] вивчається за допомогою теорії перколяції. Коли критична частка вузлів видаляється з мережі, мережа розпадається на дрібні кластери. Цей феномен називається перколяцією[39] і являє собою тип фазового переходу «порядок-безлад» з критичним значенням.

Аналіз пандемії

SIR-модель в епідеміології належить до найвідоміших алгоритмів передбачення поширення глобальних пандемій в інфікованій популяції.

Від стану сприйнятливості до зараження

Формула вище описує силу інфекції для кожної сприйнятливої одиниці в зараженій популяції, де еквівалентне швидкості поширення хвороби.

Для відстеження змін цієї сприйнятливої одиниці в зараженій популяції:

Від зараження до одужання

З часом число таких загроз залежить від заданої швидкості одужання, поданої числом , але за середній період зараження , від числа заражених осіб і від числа змін за час .

Контагіозний період

Чи вражена популяція пандемією, з позиції SIR-моделі, залежить від значення або «середнього числа людей, заражених від інших людей».

Аналіз Web-посилань

Деякі алгоритми ранжування пошукових систем використовують засновані на посиланнях міри центральності, серед яких (у порядку появи) алгоритми Hyper Search[en] Марчіорі[en], PageRank Google, алгоритм HITS Клейнберга, CheiRank[en] і TrustRank[en]. Аналіз зв'язків може здійснюватися в інформаційній аналітиці, щоб зрозуміти і виділити інформацію з набору вебсторінок. Наприклад, це може бути аналіз зв'язків між сайтами або блогами політиків.

PageRank

PageRank працює шляхом випадкового вибору вузла або інтернет-сайту і «випадкового переходу» з деякою ймовірністю на інші вузли. Випадкові переходи на ці та інші вузли дозволяють оцінці PageRank повністю обійти мережу, оскільки деякі сторінки містяться на периферії мережі і їх складно оцінити.

Кожен вузол має PageRank, визначений як сума для сторінок обернених величин до числа сторінок, пов'язаних з вузлом вихідними дугами, або «півстепінь виходу» вузла на «важливість» або PageRank вузла .

Випадкові переходи

Як пояснено вище, PageRank здійснює випадкові переходи в спробі призначити PageRank кожній сторінці в інтернеті. Ці випадкові переходи знаходять сайти, які не можуть бути знайдені в результаті звичайних методів пошуку, таких як пошук у ширину і пошук у глибину.

Поліпшення наведеної вище формули для визначення PageRank включає компоненти цих випадкових переходів. Без випадкових переходів деякі сторінки отримають PageRank, рівний 0, що не є добре.

Першою компонентою є , або ймовірність, що випадковий перехід станеться. Протилежним є «коефіцієнт загасання», або .

З іншого боку:

Міри центральності

Інформацію про відносну важливість вузлів та ребер у графах можна отримати через міри центральності, широко використовувані в дисциплінах, таких як соціологія. Міри центральності необхідні, коли мережевий аналіз не дає відповіді на питання, такі як: «Які вузли в мережі слід залучити, щоб забезпечити, щоб повідомлення або інформація поширювалась на всі або більшість вузлів мережі?» або, навпаки, «На які вузли слід впливати, щоб зупинити поширення хвороби?». Формально визначеними мірами центральності є центральність за степенем[8], центральність за близькістю[8], Центральність за посередництвом[8], центральність за впливовістю і центральність за Кацом. Мета аналізу мережі зазвичай визначає використовуваний тип мір(и) центральності[6].

  • Центральність за степенем вузла мережі — це число зв'язків (вершин), інцидентних вузлу.
  • Центральність за близькістю визначає, наскільки «близький» вузол мережі іншим вузлам обчисленням суми найкоротших відстаней (геодезичних шляхів) між цим вузлом і іншими вузлами мережі.
  • Центральність за посередництвом визначає відносну важливість вузла шляхом вимірювання величини потоку, що протікає через цей вузол до інших вузлів у мережі. Це робиться шляхом вимірювання частки шляхів, що з'єднують всі пари вузлів і містять розглянутий вузол. Групова центральність за посередництвом вимірює величину потоку, що протікає через групу вузлів[40].
  • Центральність за впливовістю є складнішою версією ступеня центральності, коли центральність вузла не тільки залежить від числа зв'язків, інцидентних вузлу, але й від якості цих зв'язків. Цей показник якості визначається власними векторами матриці суміжності мережі.
  • Центральність за Кацом вузла вимірюється як сума геодезичних (тобто найкоротших) шляхів між цим вузлом і всіма (досяжними) вузлами мережі. Ці шляхи зважені: шляхи, що з'єднують вузол з його безпосередніми сусідами, мають більшу вагу, ніж зв'язки з віддаленішими вузлами.

Поширення вмісту в мережах

Вміст у складній мережі може розповсюджуватися двома головними способами: поширення зі збереженням і поширення без збереження[прояснити][41]. Під час поширення зі збереженням загальна кількість вмісту під час його проходження через мережу залишається сталою. Модель поширення зі збереженням можна уявити як глечик, що містить певну кількість води, яка виливається в ряд стоків, сполучених трубами. Тут глечик моделює джерело, а вода — поширюваний вміст. Ємності і з'єднувальні труби моделюють вузли і зв'язки між ними відповідно. При переході води з однієї ємності в іншу вона зникає з ємності-джерела. У поширенні без збереження кількість вмісту змінюється в міру проходження через мережу. Модель без збереження можна уявити як неперервний струмінь з водопровідного крана, що розтікається по стоках, сполучених трубами. Тут кількість води з початкового джерела не обмежена. Також будь-який стік, до якого вода дійшла, продовжує отримувати воду, навіть якщо вона проходить до інших стоків. Моделі без збереження найпридатніші для пояснення передання більшості інфекцій.

SIR-модель

1927 року В. О. Кермак[en] і А. Г. Маккендрик[en] створили модель[en], у якій вони розглядають фіксовану популяцію всього з трьома станами — сприйнятливий, , заражений, і вилікуваний, . Категорії, які використовуються в цій моделі, складаються з трьох класів:

  • подає число осіб, ще не заражених хворобою в момент часу t (сприйнятливих до хвороби);
  • означає число заражених осіб, які здатні передавати хворобу сприйнятливим особам;
  •  — категорія осіб, що перенесли хворобу і вилікувалися. Особи цієї категорії, не здатні заразитися повторно або передати інфекцію іншим особам.

Перебіг цієї моделі можна подати так:

Використовуючи фіксовану популяцію , Кермак і Маккендрик вивели такі рівняння:

Для формулювання цих рівнянь зроблено деякі припущення. Для першого рівняння імовірність зараження окремого представника популяції така ж, як і будь-якого іншого представник, зі швидкістю , яка приймається як швидкість поширення інфекції або хвороби. Отже, заражений представник контактує і здатний передати хворобу інших представників за одиницю часу і частка контактів заражених представників зі сприйнятливими дорівнює . Кількість нових інфікувань за одиницю часу на одного зараженого тоді становить , що дає швидкість нових заражень (або тих, хто залишає категорію сприйнятливих) як [42]. Для другого і третього рівнянь вважається, що особи залишають клас сприйнятливих з тією ж швидкістю, з якою входять у клас заражених. Однак, за одиницю часу цей клас залишають інфкованих ( — середня швидкість одужання, а  — середній час хвороби) і переходять до класу видужалих. Ці процеси, що відбуваються одночасно, описує закон діючих мас, поширена ідея, що швидкість контактів між двома групами в популяції пропорційна розміру кожної з двох розглянутих груп[43]. Нарешті, передбачається, що швидкість зараження і одужання значно більша, ніж народження і вмирання, а тому ці фактори в моделі не враховуються.

Більше про цю модель можна дізнатися на сторінці Полігамні моделі в епідеміології.

Метод основного рівняння

Основне рівняння описує зростання неорієнтованої мережі, в якій на кожному кроці додається новий вузол, з'єднаний зі старим вузлом (вибраним випадково і без привілеїв). Початкова мережа містить два вузли і два зв'язки між ними в момент . Така конфігурація необхідна для спрощення подальших обчислень, так що в момент часу мережа має вузлів і зв'язків.

Основне кінетичне рівняння для цієї мережі

де дорівнює ймовірності мати вузол зі степенем в момент часу , а  — часом, коли вузол додано в мережу. Зауважимо, що є тільки два способи для старого вузла мати з'єднань у момент :

  • вузол має степінь у момент і буде з'єднаний з новим вузлом з імовірністю ;
  • вузол вже має степінь в момент і не буде з'єднаний з новим вузлом.

Після спрощення цієї моделі розподіл вузлів за числом зв'язків дорівнюватиме [44].

Ґрунтуючись на цій зростальній мережі, епідемічна модель розвивається за таким простим правилом: щоразу додається новий вузол і після вибору, до якого вузла приєднувати, вирішується, буде цей вузол зараженим чи ні. Основне рівняння для цієї епідемічної моделі

де визначає зараження () або відсутність зараження (). Для цього основного рівняння отримуємо такий розв'язок:[45].

Взаємозалежні мережі

Взаємозалежна мережа — це система пов'язаних мереж, у яких вузли однієї або більше мереж залежать від вузлів інших мереж. Такі залежності посилюються розвитком сучасних технологій. Залежності можуть призвести до каскадних пошкоджень мереж і відносно малі пошкодження можуть спричинити катастрофічне руйнування системи. Відключення електрики демонструє важливість зв'язків мереж. Нещодавно[коли?] розвинулась концепція вивчення каскадних порушень у системі взаємозалежних мереж[46][47].

Багатошарові мережі

Багатошарові мережі — це мережі з декількома видами зв'язків[48][49][50][51][52][53]. Витончені спроби змоделювати системи реального світу як багатозв'язні мережі дали цінні знання в галузі аналізу соціальних мереж[49][50][54][55][56][57], економіці, історії[58], міському та міжнародному транспорті[59][60][61][62], екології[63][64][65][66], психології[67], медицині, біології[68], комерції, кліматології, фізиці[69][70], нейроінформатиці[71][72][73], управлінні операціями і фінансах.

Оптимізація мережі

Мережеві задачі, які використовують пошук оптимального шляху в будь-яких цілях, вивчаються під назвою комбінаторної оптимізації. Прикладами є потоки в мережі, задача про найкоротший шлях, транспортна задача, задача про перевезення[en], задача про розміщення об'єктів, задача про парування, задача про призначення, задачі пакування, задача маршрутизації, метод критичного шляху і PERT (метод оцінювання та аналізу проектів).

Примітки

  1. National Research Council. Network Science. — 2005-12-07. — ISBN 9780309100267.
  2. J. J. Sylvester. On an Application of the New Atomic Theory to the Graphical Representation of the Invariants and Covariants of Binary Quantics, with Three Appendices // American Journal of Mathematics. — 1878. — Т. 1, вип. 1 (31 жовтня). — С. 64–104. — ISSN 0002-9327. — DOI:10.2307/2369436.
  3. Kőnig, 1990.
  4. Moreno, 1953.
  5. Emotions mapped by new geography (PDF). The New York Times (англ.). 3 квітня 1933. с. 17. Архів оригіналу (PDF) за 12 серпня 2019. Процитовано 21 січня 2021.
  6. а б в Wasserman, Faust, 1994.
  7. http://psycnet.apa.org/journals/prs/9/4/172/
  8. а б в г Є.В. Мелешко, В.С. Гермак, С.М. Охотний. Дослідження методів визначення центральності акторіву соціальних мережах для задач інформаційної безпеки (PDF) (укр.) . Процитовано 22 січня 2021.
  9. а б Lawyer, 2015, с. 8665.
  10. Sikic, Lancic, Antulov-Fantulin, Stefancic, 2013, с. 440.
  11. Borgatti, 2005, с. 55–71.
  12. а б в Braha, Bar-Yam, 2006, с. 59–63.
  13. а б Hill, Braha, 2010, с. 046105.
  14. а б Gross, Sayama, 2009.
  15. а б Holme, Saramäki, 2013.
  16. Travençolo, da Costa, 2008, с. 89–95.
  17. Bender, Canfield, 1978, с. 296–307.
  18. а б Molloy, Reed, 1995, с. 161–180.
  19. а б Newman, Strogatz, Watts, 2001, с. 026118.
  20. Лифшиц, 2006, с. 4.2. Конфигурационная модель.
  21. Kryven, 2017, с. 052303.
  22. Kryven, 2018, с. 140–157.
  23. Kryven, 2016, с. 012315.
  24. Kryven, 2017, с. 052304.
  25. Albert, Barabási, 2002, с. 47–97.
  26. Barabási, Albert, 1999, с. 509—512.
  27. Cohen, Havlin, 2003, с. 058701.
  28. Hassan, Islam, Arefinul Haque, 2017, с. 23–30.
  29. Caldarelli, Capocci, De Los Rios, Muñoz, 2002, с. 258702.
  30. Servedio, Caldarelli, Buttà, 2004, с. 056126.
  31. Garlaschelli, Loffredo, 2004, с. 188701.
  32. Cimini, Squartini, Garlaschelli, Gabrielli, 2015, с. 15758.
  33. Newman, 2010.
  34. Toward a Complex Adaptive Intelligence Community The Wiki and the Blog. D. Calvin Andrus. cia.gov. Архів оригіналу за 14 травня 2008. Процитовано 25 серпня 2012.
  35. Network analysis of terrorist networks. Архів оригіналу за 23 листопада 2012. Процитовано 14 липня 2019.
  36. Xanthos, Pante, Rochat, Grandjean, 2016, с. 417–419.
  37. Barabási, Gulbahce, Loscalzo, 2011, с. 56–68.
  38. Cohen, Havlin, 2010.
  39. Bunde, Havlin, 1996.
  40. Puzis, Yagil, Elovici, Braha, 2009, с. 1.
  41. Newman, Barabási, Watts, 2006.
  42. Brauer, Castillo-Chavez, 2001.
  43. Daley, Gani, 2001.
  44. Dorogovtsev, Mendes, 2003.
  45. Cotacallapa, Hase, 2016, с. 065001.
  46. Buldyrev, Parshani, Paul и др., 2010, с. 1025–28.
  47. Gao, Buldyrev, Havlin, Stanley, 2011, с. 195701.
  48. Coscia, Rossetti, Pennacchioli и др., 2013, с. 434.
  49. а б De Domenico, Solé-Ribalta, Cozzo и др., 2013, с. 041022.
  50. а б Battiston, Nicosia, Latora, 2014, с. 032804.
  51. Kivela, Arenas, Barthelemy и др., 2014, с. 203–271.
  52. Boccaletti, Bianconi, Criado и др., 2014, с. 1–122.
  53. Battiston, Nicosia, Latora, 2017, с. 401–416.
  54. Mucha, 2010, с. 876–878.
  55. De Domenico, Lancichinetti, Arenas, Rosvall, 2015, с. 011027.
  56. De Domenico, Sole-Ribalta, Omodei, Gomez, Arenas, 2015, с. 6868.
  57. Battiston, Iacovacci, Nicosia, Bianconi, Latora, 2016, с. e0147451.
  58. Grandjean, 2016, с. 531–534.
  59. Cardillo, 2013, с. 1344.
  60. Boeing, 2017, с. 126–139.
  61. Gallotti, Barthelemy, 2014, с. 6911.
  62. De Domenico, Sole-Ribalta, Gomez, Arenas, 2014, с. 8351–8356.
  63. Pilosof, Porter, Pascual, Kefi, 2015.
  64. Kouvaris, Hata, Diaz-Guilera, 2015, с. 10840.
  65. Timóteo, Correia, Rodríguez-Echeverría, Freitas, Heleno, 2018, с. 140.
  66. Costa, Ramos, Timóteo и др., 2018.
  67. Fiori, Smith, Antonucci, 2007, с. P322–30.
  68. De Domenico, Nicosia, Arenas, Latora, 2015, с. 6864.
  69. Gao, Buldyrev, Stanley, Havlin, 2011, с. 40–48.
  70. De Domenico, Granell, Porter, Arenas, 2016, с. 901–906.
  71. Timme, Ito, Myroshnychenko и др., 2014, с. e115764.
  72. De Domenico, Sasai, Arenas, 2016, с. 326.
  73. Battiston, Nicosia, Chavez, Latora, 2017, с. 047404.

Література

Література для подальшого читання