Вирівнювання послідовностей

Вирівнювання послідовностей в біоінформатиці — метод порівняння нуклеотидних (ДНК, РНК) або пептидних (білки) послідовностей шляхом знаходження схожих ділянок, що може бути наслідком функціональних, структурних або еволюційних зв'язків між послідовностями. Вирівняні послідовності нуклеотидів або амінокислотних залишків зазвичай представляються у вигляді рядків в матриці. Між залишками вставляються пропуски таким чином, що залишки з ідентичними або подібними особливостями вирівнюються в послідовних колонках.

Якщо дві послідовності, що вирівнюються, мають загального предка, невідповідності можуть бути інтерпретовані як точкові мутації, а пропуски — як вставки або делеції, що виникли в одній з послідовностей з того часу, як ці гени відхилилися один від одного. У вирівнюванні послідовностей білків, ступінь схожості між амінокислотами, що займають певну позицію в послідовності, може бути інтерпретований наскільки консервативним (збереженим) є цей регіон або мотив послідовності між популяціями. Відсутність замін або присутність тільки самих консервативних замін (тобто, заміна амінокислот, чиї бічні ланцюги мають подібні біохімічні властивості) в специфічній ділянці послідовності, свідчать, що ця ділянка має структурну або функціональну важливість. Хоча основи ДНК і РНК (нуклеотиди) схожі між собою більше, ніж до амінокислот, консервативність утворення пар основ може вказувати на подібний функціональний або структурний зв'язок.

Дуже короткі або дуже подібні послідовності можуть бути вирівняні вручну; проте, найцікавіші проблеми вимагають вирівнювання довгих, надзвичайно варіабельних послідовностей або надзвичайно великого їх числа, що неможливо зробити виключно людськими зусиллями. Натомість, дослідники розроблюють алгоритми, здатні здійснювати високоякісне вирівнювання послідовностей, та іноді уточнюють результати, знаходячи деталі, пошук яких важко представити алгоритмічно (особливо у разі нуклеотидних послідовностей). Обчислювальні методи вирівнювання послідовності загалом можна поділити на дві категорії: глобальні вирівнювання і місцеві вирівнювання. Обчислення глобального вирівнювання — форма глобальної оптимізації, що «вимушує» вирівнювання охопити повну довжину всіх послідовностей у запиті. На відміну від нього, місцеве вирівнювання знаходить схожі ділянки в межах довгих послідовностей, які часто сильно відрізняються на більшій частині своєї протяжності. Місцеве вирівнювання часто є бажанішим, але може бути складнішим для виконання у зв'язку з додатковими складнощами у знаходженні потенційно схожих ділянок. Зараз створені численні обчислювальні алгоритми для вирішення проблеми вирівнювання послідовностей, включаючи повільшіті, але формальні, методи оптимізації динамічного програмування і ефективні евристичні або ймовірнісні методи для пошуку в великих базах даних.

Джерела

Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis (вид. 2nd). Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. ISBN 0-87969-608-7.

Це незавершена стаття з біології.
Ви можете допомогти проєкту, виправивши або дописавши її.

п о р Рядки
Міри схожості рядків	Відстань Дамерау — Левенштейна Подібність Джаро — Вінклера Відстань Левенштейна Відстань Геммінга
Алгоритм пошуку рядка	Алгоритм Боєра — Мура Алгоритм Бойєра — Мура — Хорспула Алгоритм Кнута — Морріса — Пратта Алгоритм Рабіна — Карпа Префікс-функція Z-функція
Множинний пошук підрядків	Алгоритм Ахо — Корасік Алгоритм Коменц-Вальтер
Вирівнювання послідовностей	Алгоритм Нідлмана — Вунша Алгоритм Сміта — Ватермана
Строкові структури даних	Суфіксний масив Суфіксний автомат Суфіксне дерево Префіксне дерево Дерево паліндромів
Інше	Синтаксичний аналіз Зіставляння зі взірцем Пошук найдовшої спільної підпослідовності Найдовший спільний підрядок