За допомогою цього скрипта можна сконвертувати бюлетень державної реєстрації з формату PDF у формат CSV.
Архів за 2015 рік знаходиться тут або тут.
На жаль, БДР не випускається з 1 січня 2016 року.
Вам знадобиться програма pdftotext
з пакету poppler-utils
та інтерпретатор python
версії 2.7.
apt-get install poppler-utils
apt-get install python2.7
Завантажте бюлетень:
wget http://irc.gov.ua/upload/bulletin_340_35-2015.pdf
Зконвертуйте у формат txt, обрізавши колонтитули:
pdftotext -x 0 -y 55 -W 1000 -H 740 bulletin_340_35-2015.pdf
Скористайтесь скриптом для обробки отриманого файлу та конвертації:
cat bulletin_340_35-2015.txt | python convert.py > bulletin_340_35-2015_converted.csv
Поки що не обробляється інформація про категорії бюлетеня, всі записи складаються в один файл.
З 1 січня 2016 року оприлюднюються відомості про ліквідацію підприємств.
Формат: html таблиця у zip-архиві.