Об открытых данных Узбекистана (ч.2/2)

В этой части немного рассмотрим наборы данных (датасеты) с портала data.gov.uz, а также как они заполняются теми, кто вроде бы непосредственно их предоставляет. Итак, речь об пойдет об организациях, которых как выяснилось опытным путём ещё в первой части – 143, а не 134, как сообщается на главной странице портала. Каждая организация, по идее, должна иметь официальное название в 3-х формах: на русском языке, узбекском языке на кириллице и латинице. Однако, для многих, заполнение оказалось той ещё дилеммой, иначе как объяснить, что из всех 143 организаций, из общего числа валидные данные имеют менее 7%, остальные заполнены с очевидными ошибками, например, целый ряд организаций просто перепутали поля локализаций узбекской кириллицы и латиницы, среди них: центральный банк, народный банк, налоговый комитет, хокимият ташкентской области, министерство инновационного развития, министерство по инвестициям и внешней торговли, комитет по развитию туризма и другие. А так же присутствуют 26 организаций – им название на узбекском языке в латинском написании в соответствующем поле не нужно совсем. Возможно, просто не считают необходимым заполнить всё в надлежащем виде, поэтому и имеют написание только в 2х форматах, ну и не редко, в поле для узбекской кириллицы обнаруживается название на латинице. Подробнее и нагляднее всё это выглядит в таблице:

Не сложно посчитать, что 26 организаций из общего числа составляют 18% и это в общем-то совсем не мало. Например, размышляя над реализаций приложения и интеграцией с порталом, невозможно упустить из виду тот факт, что почти 1/5 часть данных по названиям организаций попросту отсутствует.

Переходим к датасетам.

Если следовать логике портала, то все датасеты распределены по 18 сферам, которые перечислены на главной странице портала (немного статистики по сферам):

Просматривая выборку всех 6387 датасетов, обнаружились несколько «test»овых датасетов любезно предоставленные комитетом по геологии и минеральным ресурсам, центром обеспечения информационной безопасности и ООО единый интегратор «UZINFOCOM», ну а почему бы и нет, вдруг в продакшене кому-то потребуется наличие тестовых датасетов – всякое может быть, правда же?

Ещё 20 датасетов, в которых указаны 3 различных идентификатора, не имеющие привязки ни к одной из сфер перечисленных на главной странице портала. Конечно, можно было бы закрыть глаза, подумаешь всего лишь 20 из 6387 – это даже не 0,5%, ведь для кого-то даже разница в 1,5% никакой не повод возиться с обновлениями, но раз нам не по пути, продолжим то, что начали. Интересным моментом является тот факт, что если 18 из 20 датасетов формально привязаны к сфере, то оставшиеся 2 – судя по данным, абсюлютно "оторваны" от какой-либо сферы. Подробнее взглянуть на это можно в таблице:

Следуя логике размышлений, возникает резонный вопрос: нарушена ли целостность данных на портале? – Да. Ответ очевидный, ведь датасеты ОАО "Узбекистон почтаси" и совета фермеров Узбекистана имеют идентификаторы сфер (SPHERE_ID) 48 и 672 соответственно, которые в свою очередь не существуют на портале. Ещё один идентификатор сферы – 11, является частично скрытым на портале. Оказывается, за данным идентификатором скрывается сфера: «Информационные технологии». Почему, сфера «ИКТ» имеет идентификатор – 13 и обозначена на главной странице портала, а сфера «Информационные технологии» не входит в «ИКТ», к тому же никак не обозначена в списке сфер на главной странице портала – этот факт остается довольно странным:

Хотя, сфера «Информационные технологии» и не отображается на главной странице портала, но присутствует в списке на странице со статистикой по сферам:

Познакомимся с "оторванными" от сфер датасетами, для начала посмотрим как это выглядит на портале, перейдем на страницу ОАО "Узбекистон почтаси" и переместимся к футеру, последний блок в списке и есть, тот самый датасет:

Код страницы подсказывает, что элемент есть, но контента нет:

Пусть так, тогда доберемся до данных по прямой ссылке. И кто бы мог подумать, но надо же, как не просто порой бывает получить «Список почтовых индексов». Собственно, api портала хоть и имеет проблемы с локализацией, но по запросу выдает, название именно этого датасета. А пока подождем, возможно скоро все методы api научат выражаться и на русском тоже...

Другой "оторванный" датасет тоже доступен по прямой ссылке. На странице совета фермеров Узбекистана, кому принадлежит или относится этот датасет, нет никакой информации о существовании каких-либо связей с данными:

Это ещё не все скрытые возможности портала открытых данных. На страницах сферы, может выводиться не весь список датасетов, а за отображение скрытых, отвечает выбранная локализация. Например, на странице уже знакомой сферы «Информационные технологии» красуется такой симпатичный чарт:

Однако, при установленной русской локализации, в списке датасетов, нет содержащего файл в pdf формате , а переключив локализацию на узбекскую, можно без особых усилий обнаружить датасет с файлом в формате pdf.

И напоследок рейтинг самых активных или самых пассивных – это как посмотреть, организаций на портале с их общим количеством опубликованных датасетов:

В заключение стоит отметить, что роль открытых данных, действительно существенна, не замечать это невозможно, а игнорировать просто недопустимо. В мире существует и отмечается «День открытых данных» (Open Data Day) — это международный проект, организованный Фондом открытых знаний (OKI) при поддержке различных международных организаций, среди которых ООН и Всемирный банк. Ряд развитых стран уделяет большое значение открытым данным, ведь в том числе на их основе создаются и улучшаются «умные города». Данные, давно обрели значение и используются как инструмент, с помощью которого люди могут решать проблемы из абсолютно разных областей: от социально-бытовых до инновационных. Цифровизация всех процессов, образует огромные базы информации. Открытость информации является важным критерием устойчивого развития государства. Многое из этого должно быть открыто для разработчиков, чтобы они могли создавать новые сервисы. Поэтому, так важно научиться правильно создавать, обрабатывать и хранить данные. Имея качественные данные, в том числе и государственные можно создавать как коммерческие, так и социальные продукты, которые помогают сделать нашу повседневную жизнь удобнее, безопаснее и приятнее.


Комментарии (0)

Авторизуйтесь, чтобы добавлять комментарии
Отправьте нам сообщение