Показники якості публічних даних

Показники якості публічних даних

Проблема якості даних являє собою досить серйозну тему і не тільки у зв'язку з їх обробкою та аналізом. На даних у сучасному цифровому світі побудовано безліч процесів, у тому числі і пов'язаних з безпекою. Тому від того, наскільки якісні дані використовуються в державних і комерційних організаціях залежить ефективність і результат їх роботи.


Розглянемо кілька показників, які могли б скласти інтегровану оцінку якості публічних (відкритих) даних.

Перш ніж почати.

Справжня публікація є продовженням в загальній серії за темою публічних даних. У попередніх статтях ми розглянули багато поглядів, які зустрічалися в тексті. Незважаючи на те, що мова йде про публічні (відкриті, розділені) дані, пропонований набір показників якості може використовуватися і для оцінки інших категорій даних з деякими поправками. Пропонований список є в певному сенсі гіпотезою і не претендує на звання «вичерпного».

Посилання на попередні статті

  1. Чому дані можуть бути відкритими і безкоштовними
  2. Трансфер відкритих даних
  3. Про дані відкриті, розділені і делеговані
  4. Вміст, метадані та контекст відкритих даних

Дані мають обмежений термін придатності

Первинні дані завжди актуальні на якийсь конкретний момент часу в минулому і дуже рідко актуальні протягом будь-якого тривалого періоду.

Це одна з проблем якості: цифрові дані, як реєстрація історичного стану об'єкта або системи постійно втрачають свою актуальність з часом і їх доводиться оновлювати.

Якість даних - характеристика наборів цифрових даних, що показує ступінь їх придатності до обробки та аналізу і відповідності обов'язковим і спеціальним вимогам, у зв'язку з цим до них пред'являється.

А що може становити таке поняття як «якість публічних даних»? Виділимо дев'ять показників.

1. Актуальність даних

Позначений або побічно визначений момент часу, на який дані відображають реальний стан цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо).

Актуальність даних також може бути позначена через період часу протягом якого вони зберігають свою значимість. Враховуючи постійні зміни економічних систем, публічні економічні дані мають досить короткі терміни актуальності.

Актуальність даних найчастіше встановлюється постачальником, на додаток до якої він також може «дати обіцянку» періодичного їх оновлення для її підтримки.

Одержувач даних може самостійно оцінювати їх актуальність на підставі інформації від постачальника або іншими способами.

2. Об'єктивність даних

Точність відображення даними реального стану цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо).

Об'єктивність безпосередньо залежить від застосовуваного методу і процедур збору інформації, а також від щільності реєстрованих даних. У процесі обробки наборів цифрових даних, вони втрачають свою об'єктивність і збагачуються агрегованими, округленими, наведеними та розрахунковими показниками. Однак за рахунок цього дані «насичуються» знаннями, тим самим дозволяючи в подальшому скорочувати послідовність операцій з вилучення з них значущих для практики відомостей.

Постачальник може вказати об'єктивність публічних даних охарактеризувавши їх первинність і описавши процедуру їх отримання.

Одержувач має право критично поставитися до вторинних даних, особливо якщо їх об'єктивність не доведена застосовуваними формулами і математичними розрахунковими моделями.

3. Цілісність даних

Повнота відображення даними реального стану цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо).

На відміну від об'єктивності, цілісність показує наскільки повними і безпомилковими є дані як в частині сенсового непротиворіччя, так і в частині відповідності заданій структурі або обраного формату. Цілісність залежить від коректного поділу на елементарні неподільні одиниці, збереження їх неподільності, правильної ідентифікації та взаємної зв'язаності.

Дані, які публікується сумлінним постачальником за замовчуванням, повинні бути цілісними.

Одержувач визначає цілісність спеціальними перевірочними методами оцінюючи смисловий зміст, коректність визначення структури і технічно перевіряючи формат.

4. Релевантність даних

Відповідність даних про реальний стан цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо) вирішуваного завдання (поставленої мети) і можливість їх застосування з урахуванням наявного змісту, структури та формату.

Розуміння релевантності безпосередньо пов'язується з метою користувача даних і конкретного виконуваного ним завдання, а значить і з розташованим вихідним набором даних.

Постачальник не може вплинути на релевантність даних, але може істотно спростити розуміння даного показника якості за допомогою розширених метаданих, застосування поширених форматів і традиційних структур, а також зазначенням рекомендацій щодо їх використання.

Отримувач у кожному конкретному випадку оцінює релевантність наборів даних виходячи з тематики та робочого формату (тобто використовуваних інструментів).

5. Сумісність даних

Спільна обробка даних про реальний стан цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо) з наявними в межах вирішуваного завдання (поставленої мети).

На відміну від релевантності, сумісність - це процедурний показник, який характеризує можливість включити дані в оброблюваний масив для подальшого аналізу і не пов'язаний безпосередньо з суттю і критеріями поточного завдання. З іншого боку, сумісність на змістовному рівні з тематикою виконуваного завдання важлива для ефективної обробки цифрових даних. Публічні дані повинні особливо ретельно оцінюватися на сумісність, у тому числі з точки зору їх різновиду. Чи допустимо для конкретних цілей суміщення - взаємне використання - відкритих даних і даних, що поділяються або поділяються і делегованих даних залежить від оцінки аналітика. Найчастіше необхідно дотримуватися умов роздільного зберігання та контролю різних видів публічних даних.

Постачальник публічних даних задає сумісність через метадані та посилання на контекст.

Одержувач визначає можливість спільного використання даних для кожного набору як за змістом та структурою, так і за форматом. Але на відміну від релевантності, несумісні дані можна спробувати привести до сумісного за допомогою різних операцій трансформації, перекодування, перекладу тощо.

6. Вимірювання даних

Присутність у даних оброблюваних якісних або кількісних характеристик реального стану цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо), а також підрахований кінцевий обсяг набору цифрових даних.

Змістовна вимірюваність даних є основою для виконання подальших процедур їх обробки та аналізу. Вимірювання ж загального обсягу даних необхідно для вибору інструментарію та контролю їх цілісності в процесі обробки та за підсумками аналізу.

Постачальник може явно вказувати «вимірювання», включені в дані, як кількісні, так і якісні. Як мінімум, супровід наборів публічних даних записом про підсумковий або пофайловий їх розмір у байтах майже є загальноприйнятим стандартом.

Одержувач публічних даних відновлює вимірюваність у змісті даних аналізуючи їх і досліджуючи структуру і завжди точно або побіжно перевіряє наскільки їх фізичний розмір відповідає заявленому.

7. Керування даними

Можливість цільовим і осмисленим чином обробити, передати і контролювати дані про реальний стан цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо).

Керованість обумовлена необхідністю змінювати, виправляти, структурувати, організовувати, фільтрувати, зберігати, пересилати, оцінювати, розподіляти дані. Багато в чому вона ґрунтується на правильній структурі та форматі.

Постачальник може заявити про керованість даних через супровід їх спеціальними метаданими, але одержувач, як правило, самостійно проводить її оцінку виходячи з наявних у нього компетенцій та інструментів.

8. Прив'язка до джерела даних

Пов'язана і достовірна ідентифікація ланцюжка постачання даних про реальний стан цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо).

При цьому в опис «ланцюжка постачання публічних даних» краще включити вказівки на всі суб'єкти, які виконували основні ролі трансферу даних: генератор (автор), власник, постачальник. Прив'язка до джерела дозволяє постачальнику і одержувачу послатися і відновити авторство, правовідносини, достовірність джерела, довіру до розповсюджувачів.

Публічні дані майже завжди поширюються із зазначенням власника і постачальника. І більше того, одним з обмежень використання даних є необхідність вказати першоджерело при їх подальшій публікації або використанні. Слід враховувати, що хороша прив'язка даних дозволяє за необхідності отримати її повторно з уточненнями, додатковою актуалізацією або з відновленою цілісністю, тобто - з підвищеною якістю.

9. Довіра до постачальника даних

Оцінка одержувачем ділових якостей постачальника публічних даних про цільовий стан суб'єкта (об'єкта, системи, явища, моделі, події тощо), як відповідального, авторитетного, організованого і відносно незалежного видавця цифрової інформації високої якості.

Даний показник виступає деякою інтегрованою ретроспективною оцінкою всіх попередніх трансферів даних постачальника - репутація видавця публічних даних.

Одержувач завжди виходить з внутрішньої переконаності при визначенні такого показника якості даних, але у постачальника є кілька шляхів щодо формування і підтримання потрібного йому рівня довіри. До них можна, наприклад, віднести: ретельну підготовку даних для публічного трансферу, високий рівень організації процесів видання «цифри», підтримку зворотного зв'язку з одержувачами, своєчасну актуалізацію та повідомлення про виявлені в даних проблемах, спеціальні заходи, участь у незалежній оцінці та асоціаціях.

Будь-який із зазначених показників якості даних суб'єктивний, як в частині змістового змісту даних, так і в частині його сприйняття різними постачальниками та одержувачами.

Проте всі показники можна розділити на:

  1. умовно-об'єктивні - це показники, значення яких слабо залежать від думки постачальника або одержувача даних і встановлюються відповідно до контрольованих і частково перевіряються критеріями, що перевіряються,

до них належать: актуальність, цілісність, вимірюваність, сумісність, прив'язка до джерела.

  1. умовно-суб'єктивні - це показники, значення яких безпосередньо залежать від думки постачальника або одержувача даних і встановлюються відповідно до внутрішньої «переконаності» як деяка допустима критеріальна оцінка,

до них належать: об'єктивність, релевантність, керованість, довіру до постачальника.

Формальна оцінка кожного з показників якості може здійснюватися як у балах (у заданому інтервалі), так і у відсотках. Причому бальна оцінка може даватися експертним шляхом, а відсоток може вираховуватися як частка даних, що відповідають заданому показнику якості до загального обсягу даних. В останньому випадку завдання виглядає багато більш складне і вимагає спеціальних інструментів, хоча і буде давати зважену, але все-таки експертну оцінку якості. Одним з важливих аспектів формальної оцінки показників якості є їх контроль у міру роботи з наборами цифрових даних. У динаміці якість даних не повинна погіршуватися, тобто експертна оцінка даних не повинна некеровано знижуватися після окремих операцій або цілої серії обробок.

Загальна проблема якості публічних даних залежить як від кожного з перерахованих показників, так і від інтегрованої суб'єктивної оцінки одержувача. У будь-якому випадку, якість важлива в першу чергу отримувачу, як особі виконуючої операції обробки та аналізу.

У разі завершення зворотного зв'язку стороннього результативного користувача даних з постачальником, «проблема» якості даних повертається останньому «бумерангом». Якщо дані були надані «погані» або з помилками, то очікувати від тих, хто їх використовував, наскільки-небудь хороших і адекватних підсумків не доводиться. Тоді втрачається весь сенс зусиль з вибору, підготовки та публікації даних - постачальник не отримує ніяких нових корисних рішень і знань (продуктів або сервісів).

Найважливіший показник якості даних - це їх цілісність

Він має сильний вплив на сумісність і керованість даних. А неодноразова публікація даних з порушенням цілісності обов'язково позначиться на довірі до їх постачальника. Цілісність даних не є чимось відокремленим від сенсу, структури або формату і повинна дотримуватися на всіх рівнях цифрової інформації.

Порушення цілісності даних можливе:

  • на смисловому рівні - при зборі допущена помилка в повноті або запису даних так, що ставати незрозумілим саме значення, яке описують такі дані;
  • на структурному рівні - при впорядкуванні елементів даних або при обробці даних допущена помилка в повноті або запису даних так, що ставати «незрозумілою» частина або ціла структура;
  • на рівні кодування - при записі, зберіганні або читанні даних допущена помилка на рівні перетворення окремих символів і понять так, що дані не вдається прочитати і (або) присутні пропуски;
  • на рівні нотації - при записі, зберіганні або читанні даних допущена помилка на рівні перетворення окремих елементів цифрових даних або їх сумісного запису так, що в даних неможливо правильно встановити відокремлені окремі одиниці та зв'язки між ними;
  • на рівні схеми - при записі, зберіганні або читанні даних допущена помилка на рівні логіки або формату окремих елементів цифрових даних або їх взаємозв'язку так, що з даних неможливо отримати значущу інформацію про предметну область.

Аналогічно, по кожному з рівнів - сенс, структура, формат - можна розглядати кожен показник якості даних.

За якість публікованих даних, звичайно ж, відповідає постачальник. Але одержувач змушений виконувати перевірку і за необхідності коригувати самі дані.

Якщо публічні дані виявляються низької якості, то має сенс відмовитися від їх використання і направити докладне повідомлення постачальнику. Сумлінний і зацікавлений постачальник обов'язково докладе зусиль щодо виправлення ситуації. Він як мінімум повинен закрити доступ до неякісних даних на час розгляду і маркувати їх відповідним чином.

Адресована постачальнику претензія щодо якості даних, в умовах максимальної відкритості мережевого спілкування, змушує в обов'язковому порядку поміщати спеціальну заявну відмову від прийняття претензії з обґрунтуванням такої відмови, або підвищувати якість даних і повторно їх видавати з відповідними роз'ясненнями. А в разі, якщо підтримується адресний зв'язок з одержувачами - повідомляти їх спеціальним чином.

Постачальник, який не готовий відповідати за якість даних досить швидко переходить в розряд «безвідповідальних» і втрачає всі переваги, що надаються спільнотою аналітиків і експертів, зайнятих у відповідній предметній галузі.

З вищесказаного випливає необхідність постійного контролю якості даних як з боку одержувача, так і з боку постачальника. Що в свою чергу змушує розробляти і застосовувати спеціальні контрольно-вимірювальні інструменти.

Дослідження проблеми якості цифрових даних, а особливо якості відкритих, що поділяються і делегуються даних має здійснюватися аналітиками та експертами як на мікро-рівні зацікавлених бізнесів, так і на макро-рівні спільнот і державних структур. Багато в чому безпека майбутньої цифрової економіки буде базуватися на активному моніторингу якості використовуваних даних.

Image