Помилки в тисячах статей. Генетики показали, як Microsoft Excel вносить похибки в дослідження

28 серпня 2021, 16:09

Автор: Антон Ходоренко

Учені з Австралії показали, що помилки автокорекції, особливо в таблицях Excel, можуть призвести до плутанини в назвах генів в генетичних дослідженнях.

Такі помилки, як відзначають автори, викликають «стурбованість з приводу наукової строгості» досліджень.

Автокорекція, або прогнозований текст, є спільною рисою багатьох сучасних технічних інструментів, від пошуку в Інтернеті до додатків для обміну повідомленнями та текстових процесорів. Автокорекція може бути благом, але коли алгоритм допускає помилки, він може кардинально змінити повідомлення.

«Ми вивчили більше 10 000 статей зі списками генів Excel, опублікованими в період з 2014 по 2020 роки, і виявили, що понад 30% містять хоча б одне ім'я гена, спотворене автокорекцією», — розповіли автори дослідження з Університету Дікіна в Австралії.

В електронних таблицях використовується інтелектуальний текст, щоб вгадати, які дані потрібні користувачеві. Якщо ви введете номер телефону, що починається з нуля, він розпізнає його як числове значення і видалить початковий нуль. Якщо ви введете «= 8/2», результат буде відображатися як «4», але якщо ви введете «8/2», він буде розпізнано як дата.

Для наукових даних просте відкриття файлу в Excel з налаштуваннями за замовчуванням може привести до пошкодження даних через автокорекцію. Можна уникнути небажаної автокорекції, якщо клітинки попередньо відформатовані перед вставкою або імпортом даних, але ці та інші поради з гігієни даних широко не застосовуються.

У генетиці ще в 2004 році було визнано, що Excel може перетворити близько 30 назв людських генів і білків на дати. Це були такі імена, як MARCH1, SEPT1, Oct-4, jun і так далі.

«Кілька років тому ми виявили цю помилку в додаткових файлах даних, прикріплених до важливої журнальній статті, і зацікавилися, наскільки поширені ці помилки. У нашій статті 2016 року підкреслено, що проблема зачіпає журнали із середнім і високим рейтингом приблизно однаково. Це підказало нам, що дослідники і журнали в основному не знали про проблему автокорекції і про те, як її уникнути», — розповіли автори роботи Марк Циманн та Мандхрі Абейсоорія.

У 2021 року автори повторили свій аналіз, але розширили його, щоб охопити більш широкий вибір журналів.

«Ми були шоковані, виявивши, що в період з 2014 по 2020 рік 3436 статей, близько 31% нашої вибірки, містили помилки в назвах генів», — підкреслили автори.

Частина авторів стверджувала, що ці помилки насправді не мають значення, тому що 30 або близько того генів — це лише невелика частина приблизно 44 000 генів всього людського геному, і ці помилки навряд чи спростовують висновки будь-якого конкретного геномного дослідження.

У відповідь Марк Ціманн згадав випадок, коли в біомедичних дослідженнях помилка при складанні таблиці зразків привела до того, що весь набір етикеток зразків був зрушений на одну позицію і повністю змінив результати геномного аналізу. Ці результати були значними, тому що вони використовувалися для обгрунтування ліків, які пацієнти повинні були отримати в наступних клінічних випробуваннях.

Раніше НВ писав, що у Великобританії майже 16 тисяч випадків коронавірусу не внесли в офіційну статистику через збій в таблиці Microsoft Excel.

Через помилки близько 50 тисячам контактних осіб не повідомили про необхідність самоізолюватись, через що ще більше британців могли заразитися.

Таблиця Excel, в якій британський Центр громадського здоров’я (PHE) вів список випадків COVID-19, розрахована на 16 тисяч стовпців і 1 048 576 рядків — в ній закінчилося місце, і далі файл обрізав нижні рядки.

Тому нові хворі COVID-19, яких вносили в список з 25 вересня по 2 жовтня, в нього не увійшли. Збій виявили тільки в ніч на 2 жовтня 2020 під час завантаження даних. Випадки, які не зареєстрували до цього, додали в статистику за 3 і 4 жовтня.

Теги: Генетика

Якщо ви знайшли помилку в тексті, виділіть її мишкою і натисніть Ctrl + Enter

Загрузка...

Увійти