Help:PDF/ru: Difference between revisions
←Created page with 'Следующая команда ImageMagick преобразует все файлы .jpg в папке в двухцветные TIF-файлы с использованием сжатия Group 4 и помещает их в папку с именем «bitonal»:' |
No edit summary |
||
Line 92: | Line 92: | ||
</div> |
</div> |
||
Следующая команда ImageMagick преобразует все файлы .jpg в папке в двухцветные TIF-файлы с использованием сжатия Group 4 и помещает их в папку с именем «bitonal»: |
Следующая команда ImageMagick преобразует все файлы .jpg в папке в двухцветные TIF-файлы с использованием метода сжатия Group 4 и помещает их в папку с именем «bitonal»: |
||
: <code>mogrify -format tif -compress Group4 -path bitonal/ -threshold 50% *.jpg</code> |
: <code>mogrify -format tif -compress Group4 -path bitonal/ -threshold 50% *.jpg</code> |
Revision as of 11:18, 10 December 2024
- (en) PDF
Wikidata contains data entry Q42332 related to these Wikipedia articles.
PDF это файловый формат документов. На странице собраны советы по использованию PDF.
Поиск файлов PDF на Викискладе
Кнопка поиска (выше) ищет только среди PDF-файлов. Это можно сделать путём добавления ключевого слова filemime:pdf
в строку поиска.
Использование PDF-файлов в проектах Викимедиа
Номер страницы
Обычно для создания миниатюры используется первая страница из файла PDF или DjVu. С параметром |page=
можно использовать другую страницу: [[File:IMSLP01578-Ravel - Bolero Full Score Durand 1929.pdf|thumb|page=2|''Boléro'': вторая страница партитуры]]
:
Программы для работы с PDF
См. в списке программ для работы с PDF. Например, вы можете использовать бесплатное программное обеспечение Okular для чтения PDF-файлов, LibreOffice Draw для редактирования PDF-файлов и ImageMagick для работы с PDF-файлами.
Создание PDF-файлов
Обработка изображений со сканеров
Изображения, полученные со сканеров, обычно требуют некоторой обработки перед созданием из них PDF или DJVU: обрезка, поворот, разделение, уменьшение размера, преобразование в TIFF и т. д. Для этой цели предназначено приложение с открытым исходным кодом ScanTailor-Universal. Его можно скачать со страницы релизов проекта.
Создание PDF-файла из изображений
- Если у вас установлен ImageMagick, вы можете запустить команду
convert ./page*.png ./output.pdf
для преобразования изображений, например, с именами вида page_1.png, в PDF-файл в соответствии с их сортировкой.
- img2pdf, программа для командной строки с открытым исходным кодом, предназначеная для преобразования без потерь изображений в PDF. Она также может устанавливать метаданные (например, название и автора) и то, как полученный PDF-файл должен быть представлен программой для просмотра PDF.
Следующая команда преобразует все файлы в текущей папке в один PDF-файл с именем test.pdf
и метаданными заголовка и автора:
img2pdf --title "My First PDF" --author "Jack Example" --output test.pdf *
Note that this assumes the current directory does not contain non-image files or sub-folders. If all your source files are of a single type, such as JPEGs, you can specify *.jpg
as the input instead. You can also specify multiple input files individually.
См. img2pdf --help
чтоб узнать всё, что может делать img2pdf.
img2pdf is available from the Python Package Index and is also included in the repositories of many Linux distributions. A Windows executable is also available via the project's Appveyor.
- Также, если установлен GhostScript, для преобразования изображений в PDF-файлы можно использовать ImageMagick и GraphicsMagick.
Следующая команда использует инструмент mogrify из ImageMagick для преобразования всех файлов JPEG в отдельные PDF и поместит их в подпапку с именем «pdf»:
mogrify -format pdf -path pdf/ *.jpg
On some Linux distributions, the default ImageMagick security policy will block the program from handling PDF files. See this StackOverflow question for how to change the security policy.
Создание PDF-файла из чёрно-белых изображений
Bitonal images (i.e. images that only contain a single shade of black and white) are a very efficient way of storing scanned documents that only contain text or other simple elements that only need two colors to be clearly represented. A high-quality bitonal text page is commonly only tens of kilobytes in size.
There are two bitonal compression methods used in PDF files, namely the CCITT Group 4 Fax compression and the JBIG2 compression. The latter is more efficient but has some perceived patent issues associated with it, resulting in JBIG2 encoding functionality often being missing or disabled in PDF creation software. However, it is sometimes possible to enable such functionality by installing the encoder yourself.
There are a number of tools for converting images to use bitonal compression. ScanTailor-Universal is an open-source tool for processing scanned pages that can output bitonal images. ImageMagick and GraphicsMagick are also able to do this with the -threshold
option.
Следующая команда ImageMagick преобразует все файлы .jpg в папке в двухцветные TIF-файлы с использованием метода сжатия Group 4 и помещает их в папку с именем «bitonal»:
mogrify -format tif -compress Group4 -path bitonal/ -threshold 50% *.jpg
Поэкспериментируйте со значением -threshold
, чтобы найти то, которое даст подходящий результаты для вашего содержимого.
Преобразование JBIG2
OCRmyPDF is an open-source command line program mainly designed to add an OCR text layer to scanned PDF files. One of its additional features is its ability to optimize PDF files, which includes the conversion of other bitonal image formats to JBIG2. This requires the installation of the jbig2enc encoder. Compilation and installation instructions for Linux users are available here, and a third-party Windows executable is available here. The MacOS version packaged in Homebrew already includes jbig2enc.
See here for how to install OCRmyPDF on Windows. Many Linux distributions come with an OCRmyPDF package included in the repositories, though this may be outdated. OCRmyPDF is also available on pip.
The following command uses OCRmyPDF to add an OCR text layer to a PDF and arranges the PDF in a way that allows a web browser to start displaying it before it has been fully downloaded:
ocrmypdf --output-type pdf --fast-web-view 0 test.pdf test-OCR.pdf
OCRmyPDF по умолчанию оптимизирует PDF-файл без потерь, поэтому двухтональные изображения автоматически преобразуются в JBIG2, если установлен jbig2enc.
Если вы хотите пропустить процесс распознавания текста, поскольку вам не нужно его распознавать, используйте --tesseract-timeout 0
, чтобы пропустить этот шаг.
См. документацию OCRmyPDF для получения дополнительных примеров использования.