🏠: vmware

Последний бастион VMware

Сегодня на работе я выключил последнюю оставшуюся ноду после миграции всех виртуальных машин в кластер Hyper-V.

Последнее действие перед выключением Последнее действие перед выключением

Сервер был ProLiant DL380 G6, его уже давно пора было выводить из эксплуатации, но дело в том, что на нём крутилась пара серверов, «защищённых» USB-токеном. Несколько недель назад, наконец, купили железку, которая пробрасывает USB-устройства по сети — это местная аппаратная адаптация недорогого зарубежного решения VirtualHere.

Железка представляет собой keepalived-кластер из двух Banana Pi с веб-интерфейсом на ajenti и 32 портами USB, заключённых в едином корпусе:

# dmesg
[    0.000000] Booting Linux on physical CPU 0x0
[    0.000000] Linux version 5.15.93 (oe-user@oe-host) (arm-poky-linux-gnueabi-gcc (GCC) 9.3.0, GNU ld (GNU Binutils) 2.34.0.20200220) #1 SMP Thu Feb 9 10:26:48 UTC 2023
[    0.000000] CPU: ARMv7 Processor [410fc074] revision 4 (ARMv7), cr=10c5387d
[    0.000000] CPU: div instructions available: patching division code
[    0.000000] CPU: PIPT / VIPT nonaliasing data cache, VIPT aliasing instruction cache
[    0.000000] OF: fdt: Machine model: LeMaker Banana Pi
# lsb_release -a
LSB Version:    n/a
Distributor ID: poky
Description:    Poky (Yocto Project Reference Distro) 3.1.17
Release:        3.1.17
Codename:       dunfell

Документация написана не то чтобы очень и в настройке есть некоторые особенности, но техподдержка отвечает и в целом девайс работает хорошо.

Веб-интерфейс

На компьютерах, которым нужно подключение USB, ставится клиент, который устанавливает свои драйверы и может работать как служба. На очень старых системах, например, Windows 2003, драйверы нужно ставить самостоятельно, вытащив их из клиента с помощью командной строки. Потом, подмонтировав ключ, надо сделать так, чтобы служба сервера, зависящая от ключа (например, 1C:Enterprise 8.3 Server Agent), стартовала позже службы rhclient (USB Hub Over Network USB Sharing) — для этого нужно её перевести в режим автоматического отложенного запуска. В старых системах, где функции отложенного запуска нет, можно перевести службу сервера в ручной режим запуска и настроить планировщик задач, чтобы после загрузки ОС выполнялся скрипт наподобие

ping 127.0.0.1 -n 30
net start hwserver

Вот как выглядят устройства USB на виртуальной машине Hyper-V, где крутится 1С (напоминаю, что Hyper-V не пробрасывает USB с хоста на виртуалки, и правильно делает):

А вот так ключи выглядят с клиента:

Доступ к самим ключам и к их администрированию через клиент может быть ограничен несколькими способами, я делал по IP-адресам и подсетям.

Собственно, возвращаясь к тому, с чего я начал — после переноса токенов на железку оставалось только мигрировать все виртуалки на Hyper-V и выключить ноду VMware, что я и проделал. Теперь, наконец, зоопарка систем виртуализации больше нет.

Что сделал - 9

Отчёт по VMware ESXi

Разобрался с PowerCLI, наконец.

Изображение без описания

Также, установил веб-морду на ESXi 5.5, это гораздо удобнее отдельного клиента, и она поддерживает управление машинами версии 10.

Перевод внешних прямых DNS-зон на хостинг, а обратных c Windows DNS на BIND9

До этого в конторе было два локальных внешних DNS-сервера, где крутились все зоны. Я предложил перевести DNS на внешний хостинг, чтобы не держать эти сервера у себя, что и было после долгих согласований проделано начальником. Правда, пришлось писать на Powershell конвертер DNS-записей из формата выгрузки Windows DNS в формат, принимаемый Руцентром (там, похоже, тоже крутится BIND), потому что просто передать зоны не получалось. Я не лез в процесс переноса, просто сформировал файлики, чтобы их можно было импортировать на хостинге.

Всё прошло хорошо, но оказалось, что избавиться от локальных внешних серверов DNS полностью всё равно нельзя — у компании в собственности внешний IP-диапазон и нужно обеспечивать обратные зоны (PTR), иначе почта ходить не будет.

Тогда я поднял две виртуалки с Ubuntu Server, поставил туда BIND9, оба сервера сделал подчинёнными (кэширующими) для всех прямых зон — они синхронизировались с Руцентром, а для обратных зон один сервер первичный, а второй забирает эти обратные зоны с первичного. Ресурсов обе эти машинки едят меньше, чем один старый сервер на Windows. Всё чудесно работает, и минус 2 лицензии серверной винды. Внешний хостинг DNS в любом случае полезен — он повышает отказоустойчивость, а стоит очень недорого.

Система распознавания текста (OCR) для файлов PDF

В компании закуплены лицензии FineReader, но на всех желающих не хватает, закупать их — тема трудная и долгая, а работать как-то надо, причём, прямо сейчас. Темы закупки ПО и её методов, когда вместо корпоративной лицензии всё покупается поштучно и от случая к случаю и последствиях такого подхода затрагивать не буду, это не моя область ответственности, хотя смотреть на это иногда бывает больно. Короче говоря, нужен какой-то простой способ распознавания текста в файлах PDF по типу механизма сжатия, сделанного мною ранее. Я уже довольно давно знаю о существовании очень неплохой программы gImageReader, которая является оболочкой к OCR-движку Tesseract, который я и задействовал для решения этой задачи. Сборкой этого движка для Windows занимается Маннгеймская университетская библиотека, за что ей огромное спасибо.

Сам Тессеракт не воспринимает файлов PDF, ему картинки подавай, так что пришлось сначала прогонять файл через GhostScript, который преобразует PDF в набор картинок PNG.

& "$ghostScript" -dBATCH -dNOPAUSE -sDEVICE=pnggray -r300 "-sOutputFile=$($pdf.basename)-%04d.png" "$($pdf.fullname)"

Ну, а дальше картинки скармливаются Тессеракту, он делает из них соответствующее количество текстовых файлов, которые потом лепятся в один и выдаются пользователю.

(dir *.png) -match "$($pdf.basename)" |% {
    & "$tesseract" ".\$($_.name)" "$($_.basename)" -l rus+eng
}
gc ((dir *.txt) -match "$($pdf.basename)") -Encoding UTF8 |Out-File "$path\$($pdf.basename).txt" -Encoding default

Возьмём для теста какой-то договор из интернета:

Исходник - какой-то договор из интернета (фрагмент)

Результат распознавания:

- при производстве земляных и строительных работ соглассвывать
предполагаемые работы с Главным управлением по государственной охране
объектов культурного наследия Тверской области.

2. Срок Договора

2.1. Срок аренды Участка устанавливается с 2 ^\*\_\_ по 10.04.2019 года.
2.2. Договор вступает в силу со дня его государственной регистрации. |

3. Размер и условия внесения арендной платы

3.1. Арендатор ежегодно уплачивает Арендодателю арендную плату.
3.2. Размер арендной платы за Участок определяется в соответствии с
Расчетом арендной платы, являющимся неотъемлемой частью настоящего
Договора (приложение № 2).
3.3. Порядок определения размера арендной платы за пользование земельными
участками, устанавливается органом государственной власти Тверской области.
3.4. Арендная плата вносится следующими частями:
3.4.1. юридическими лицами:
- не позднее 15.04. - 1/4 годовой суммы;
- не позднее 15.07. - 1/4 годовой суммы;
- не позднее 15.10. - 1/2 годовой суммы.
путем перечисления на реквизиты, указываемые Арендодателем в асчете
арендной платы на текущий год. Арендатор обязан ежегодно до внесения
первого арендного платежа в текущем году уточнять у Арендодателя реквизиты,
на которые перечисляется арендная плата. :
В случае заключения Договора аренды после 15 сентября (в первый год
аренды) арендная плата за период до конца года, в том числе сумма,

По-моему, для бесплатного движка это очень круто.

Для ускорения обработки можно применить Powershell 7, где есть параллельный цикл, чтобы выжать из железа всё, на что оно способно.

Движемся дальше.

P. S. Чуть позже доделал скрипт, теперь он, помимо PDF, работает с TIF-TIFF (в т. ч., многостраничными), JPG-JPEG и PNG. Тут проще, потому что Тессеракт сам умеет работать с этими форматами без предварительных преобразований. Также, сделал вариант под Powershell 7 с параллельными циклами, что работает гораздо быстрее на одном и том же компьютере.