Help:PDF/ru: Difference between revisions

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
Content deleted Content added
Created page with 'В PDF-файлах используются два метода битонального сжатия, а именно сжатие {{w|Group 4 compression|CCITT Group 4 Fax}} и {{wr|JBIG2}}. Последнее более эффективно, но с ним связаны некоторые предполагаемые патентные проблемы, в результате чего функциональность кодиров...'
Created page with 'Следующая команда использует OCRmyPDF для добавления текстового OCR-слоя в PDF-файл и упорядочивает содержимое PDF-файла таким образом, чтобы веб-браузер мог начать отображать его до того, как документ будет полностью загружен:'
Line 94: Line 94:
Инструкцию по установке OCRmyPDF на Windows см. [https://ocrmypdf.readthedocs.io/en/latest/installation.html#installing-on-windows здесь]. Многие дистрибутивы Linux поставляются с пакетом OCRmyPDF, включённым в репозитории, хотя там он может быть устаревшим. OCRmyPDF также доступен [https://pypi.org/project/ocrmypdf/ через pip].
Инструкцию по установке OCRmyPDF на Windows см. [https://ocrmypdf.readthedocs.io/en/latest/installation.html#installing-on-windows здесь]. Многие дистрибутивы Linux поставляются с пакетом OCRmyPDF, включённым в репозитории, хотя там он может быть устаревшим. OCRmyPDF также доступен [https://pypi.org/project/ocrmypdf/ через pip].


Следующая команда использует OCRmyPDF для добавления текстового OCR-слоя в PDF-файл и упорядочивает содержимое PDF-файла таким образом, чтобы веб-браузер мог начать отображать его до того, как документ будет полностью загружен:
<div lang="en" dir="ltr" class="mw-content-ltr">
The following command uses OCRmyPDF to add an OCR text layer to a PDF and arranges the PDF in a way that allows a web browser to start displaying it before it has been fully downloaded:
</div>


: <code>ocrmypdf --output-type pdf --fast-web-view 0 test.pdf test-OCR.pdf</code>
: <code>ocrmypdf --output-type pdf --fast-web-view 0 test.pdf test-OCR.pdf</code>

Revision as of 08:06, 13 December 2024

 The article PDF/ru on Wikipedia projects:
 Wikidata contains data entry Q42332 related to these Wikipedia articles.

PDF — файловый формат документов. На этой странице собраны советы по использованию PDF.


Поиск PDF-файлов на Викискладе

Кнопка поиска (выше) ищет только среди PDF-файлов. Это можно сделать путём добавления ключевого слова filemime:pdf в строку поиска.

Использование PDF-файлов в проектах Викимедиа

Номер страницы

Boléro: вторая страница партитуры

Обычно для создания миниатюры используется первая страница из файла PDF или DjVu. С параметром |page= можно использовать другую страницу: [[File:IMSLP01578-Ravel - Bolero Full Score Durand 1929.pdf|thumb|page=2|''Boléro'': вторая страница партитуры]]:


Программы для работы с PDF

См. список программ для работы с PDF. Например, вы можете использовать бесплатное программное обеспечение Okular для чтения PDF-файлов, LibreOffice Draw для редактирования PDF-файлов и ImageMagick для работы с PDF-файлами.

Создание PDF-файлов

See also: Help:Converting.

Обработка изображений со сканеров

Изображения, полученные со сканеров, обычно требуют некоторой обработки перед созданием из них PDF или DJVU: обрезка, поворот, разделение, уменьшение размера, преобразование в TIFF и т. д. Для этой цели предназначено приложение с открытым исходным кодом ScanTailor-Universal. Его можно скачать со страницы релизов проекта.

Создание PDF-файла из изображений

  • Если у вас установлен ImageMagick, вы можете запустить команду convert ./page*.png ./output.pdf для преобразования изображений, например, с именами вида page_1.png, в PDF-файл в соответствии с их сортировкой.
  • img2pdf, программа для командной строки с открытым исходным кодом, предназначеная для преобразования без потерь изображений в PDF. Она также может устанавливать метаданные (например, название и автора) и то, как полученный PDF-файл должен быть представлен программой для просмотра PDF.

Следующая команда преобразует все файлы в текущей папке в один PDF-файл с именем test.pdf и метаданными заголовка и автора:

img2pdf --title "My First PDF" --author "Jack Example" --output test.pdf *

Обратите внимание, что это предполагает, что текущий каталог не содержит подпапок или файлов, не являющихся изображениями. Если все ваши исходные файлы имеют один тип, например JPEG, вы можете в качестве входных данных указать *.jpg. Вы также можете указать несколько исходных файлов по отдельности.

См. img2pdf --help, чтоб узнать всё, что может делать img2pdf.

mg2pdf доступен в Python Package Index, а также включен в репозитории многих дистрибутивов Linux. Исполняемый файл Windows также доступен через Appveyor проекта.

  • Также, если установлен GhostScript, для преобразования изображений в PDF-файлы можно использовать ImageMagick и GraphicsMagick.

Следующая команда использует инструмент mogrify из ImageMagick для преобразования всех файлов JPEG в отдельные PDF и поместит их в подпапку с именем «pdf»:

mogrify -format pdf -path pdf/ *.jpg

В некоторых дистрибутивах Linux политика безопасности ImageMagick по умолчанию блокирует обработку программой PDF-файлов. См. этот вопрос на StackOverflow для того, чтобы узнать, как изменить политику безопасности.

Создание PDF-файла из чёрно-белых изображений

Двухцветные (битональные) изображения (т. е. изображения, содержащие только один оттенок чёрного и белого) являются очень эффективным способом хранения отсканированных документов, содержащих только текст или другие простые элементы, которым для чёткого представления требуется всего два цвета. Высококачественная битональная текстовая страница обычно имеет размер всего лишь в десятки килобайт.

В PDF-файлах используются два метода битонального сжатия, а именно сжатие CCITT Group 4 Fax и JBIG2. Последнее более эффективно, но с ним связаны некоторые предполагаемые патентные проблемы, в результате чего функциональность кодирования JBIG2 часто отсутствует или отключена в программном обеспечении для создания PDF. Однако иногда такую ​​функциональность можно включить, установив кодировщик самостоятельно.

Существует ряд инструментов для преобразования изображений с использованием битонального сжатия. ScanTailor-Universal — инструмент с открытым исходным кодом для обработки отсканированных страниц, который может выводить битональные изображения. ImageMagick и GraphicsMagick также могут делать это с параметром -threshold.

Следующая команда ImageMagick преобразует все файлы .jpg в папке в двухцветные TIF-файлы с использованием метода сжатия Group 4 и помещает их в папку с именем «bitonal»:

mogrify -format tif -compress Group4 -path bitonal/ -threshold 50% *.jpg

Поэкспериментируйте со значением -threshold, чтобы найти то, которое даст подходящий результаты для вашего содержимого.


Преобразование JBIG2

OCRmyPDF — программа для командной строки с открытым исходным кодом, в основном предназначенная для добавления текстового OCR-слоя к отсканированным PDF-файлам. Одной из её дополнительных функций является возможность оптимизации PDF-файлов, в том числе преобразование других форматов битональных изображений в JBIG2. Для этого требуется установка jbig2enc-кодировщика. Инструкции по компиляции и установке для пользователей Linux доступны здесь, а сторонний исполняемый файл для Windows доступен здесь. Версия для MacOS, упакованная в Homebrew, уже включает jbig2enc.

Инструкцию по установке OCRmyPDF на Windows см. здесь. Многие дистрибутивы Linux поставляются с пакетом OCRmyPDF, включённым в репозитории, хотя там он может быть устаревшим. OCRmyPDF также доступен через pip.

Следующая команда использует OCRmyPDF для добавления текстового OCR-слоя в PDF-файл и упорядочивает содержимое PDF-файла таким образом, чтобы веб-браузер мог начать отображать его до того, как документ будет полностью загружен:

ocrmypdf --output-type pdf --fast-web-view 0 test.pdf test-OCR.pdf

OCRmyPDF по умолчанию оптимизирует PDF-файл без потерь, поэтому двухтональные изображения автоматически преобразуются в JBIG2, если установлен jbig2enc.

Если вы хотите пропустить процесс распознавания текста, поскольку вам не нужно его распознавать, используйте --tesseract-timeout 0, чтобы пропустить этот шаг.

См. документацию OCRmyPDF для получения дополнительных примеров использования.

См. также