
Оглавление
1. Введение: что скрыто в вашем PDF и почему это важно2. Карта метаданных: что реально хранится в разных форматах
3. Как проверить документ до отправки: увидеть всё что видит получатель
4. Инструмент 1 — MetaScrub и аналоги: drag-and-drop очистка
5. Инструмент 2 — Встроенные инструменты Word, LibreOffice, Acrobat
6. Инструмент 3 — ExifTool с GUI: мощь без консоли
7. Инструмент 4 — Онлайн-сервисы: когда уместно, когда опасно
8. Пакетная очистка: 100+ файлов за раз без консоли
9. Метаданные фото и изображений внутри PDF
10. Корпоративный сценарий: политика очистки для команды
11. Автоматизация: скрипт-санитайзер для папки
12. Что не удаляется: ограничения всех методов
13. FAQ: 20 горячих вопросов
14. Чек-лист «30 секунд до чистого документа»
15. Заключение: что делать дальше
1. Введение: что скрыто в вашем PDF и почему это важно
Когда вы сохраняете документ и отправляете его — вы отправляете не только текст. Вы отправляете цифровую историю: кто создал, когда, на каком компьютере, сколько раз редактировали и чем.
Реальные случаи утечек через метаданные:
| Инцидент | Год | Что утекло через метаданные |
|---|---|---|
| Утечка документов британского МО | 2003 | Имена авторов, история правок, удалённый текст |
| Идентификация анонимного автора SCO vs IBM | 2004 | Username создателя документа раскрыл личность |
| Скандал с резюме анонимного кандидата | 2019 | Предыдущее место работы в метаданных DOCX |
| Утечка корпоративной стратегии | 2022 | GPS-координаты фото в PDF выдали офис |
| Журналист раскрыт через PDF | 2023 | Имя редактора в полях документа |
> 🔴 Главный парадокс: люди тщательно думают о содержании документа — и совершенно не думают о его «обёртке». А именно в обёртке хранится то, что они хотели скрыть.
Хорошая новость: удалить метаданные — проще, чем кажется. Инструменты с drag-and-drop интерфейсом делают это за 30 секунд без единой строки кода или команды в консоли.
2. Карта метаданных: что реально хранится в разных форматах
PDF:
| Поле метаданных | Что содержит | Видно получателю? |
|---|---|---|
| Author | Имя пользователя системы или заполненное поле | ✅ |
| Creator | Программа, создавшая документ (Word 2019, Canva) | ✅ |
| Producer | Программа, конвертировавшая в PDF | ✅ |
| CreationDate | Точная дата и время создания | ✅ |
| ModDate | Дата последнего изменения | ✅ |
| Title | Заголовок документа | ✅ |
| Subject | Тема (часто название проекта) | ✅ |
| Keywords | Ключевые слова | ✅ |
| XMP metadata | Расширенный блок: история, права, UUID | ✅ |
| Document ID / Instance ID | Уникальный идентификатор версии | ✅ |
DOCX / Microsoft Word:
| Поле | Что содержит |
|---|---|
| Автор | Имя пользователя Windows / Office аккаунта |
| Компания | Название организации из настроек Office |
| Менеджер | Поле «менеджер» из профиля |
| Последний автор | Кто последним редактировал |
| Ревизии | Счётчик — сколько раз сохраняли |
| Время редактирования | Суммарное время работы над документом |
| История изменений | Все правки с именами, если «Отслеживание» включено |
| Скрытый текст | Текст, помеченный как скрытый — остаётся в файле |
| Шаблон | Путь к шаблону на диске (может содержать имя папки) |
| Комментарии | Все комментарии, включая удалённые |
JPEG / изображения внутри PDF:
| Поле EXIF | Что содержит |
|---|---|
| GPS координаты | Широта/долгота места съёмки |
| Make / Model | Марка и модель камеры / телефона |
| DateTime | Точная дата и время съёмки |
| Software | ПО обработки (Photoshop, Lightroom) |
| Artist | Имя автора из настроек камеры |
| SerialNumber | Серийный номер камеры (идентификация устройства) |
> 📌 Особенно опасно: GPS-координаты в фото, вставленных в PDF. Если вы сфотографировали документ на телефон и вставили в PDF — получатель может узнать адрес вашего офиса или дома с точностью до 10 метров.
3. Как проверить документ до отправки: увидеть всё что видит получатель
Прежде чем чистить — убедитесь, что действительно есть что чистить. И проверьте результат после очистки.
3.1 Метод 1 — Adobe Acrobat Reader (бесплатный)
text
Открыть PDF в Acrobat Reader
→ Файл → Свойства (Ctrl+D)
→ Вкладки: «Описание», «Безопасность», «Шрифты», «Начальный вид»
→ Вкладка «Описание» — все основные метаданные
Вкладка «Описание» показывает: Author, Title, Subject, Keywords, Creator, Producer, даты.
3.2 Метод 2 — Браузер Chrome / Firefox (без установки ПО)
text
Перетащить PDF в браузер
→ Нажать Ctrl+Shift+I (инструменты разработчика)
→ Вкладка «Application» → Storage
→ Или: просто открыть файл — Chrome показывает Author в заголовке вкладки
Быстрый способ без установки чего-либо — но показывает не все поля.
3.3 Метод 3 — ExifTool онлайн (без установки)
exifdata
.com или exif.tools
→ Загрузить PDF или изображение
→ Получить полный список всех метаданных в читаемом виде
Показывает всё: стандартные поля, XMP, EXIF изображений внутри PDF, GPS.
3.4 Метод 4 — Просмотр DOCX как ZIP
DOCX — это ZIP-архив. Внутри — XML-файлы с метаданными:
text
Переименовать файл: document.docx → document.zip
→ Открыть архив
→ Перейти в папку docProps
→ Открыть core.xml — основные метаданные (автор, даты, ревизии)
→ Открыть app.xml — приложение, компания, менеджер, версия Office
Это то, что видит любой получатель, если сделает то же самое.
3.5 Таблица: что видно в каком формате
| Формат | Acrobat Reader | Браузер | ExifTool онлайн | ZIP-метод |
|---|---|---|---|---|
| ✅ Большинство | ⚠️ Часть | ✅ Всё | ❌ | |
| DOCX | ❌ | ❌ | ✅ Всё | ✅ Всё |
| XLSX | ❌ | ❌ | ✅ Всё | ✅ Всё |
| JPEG | ❌ | ❌ | ✅ EXIF + GPS | ❌ |
| PNG | ❌ | ❌ | ✅ Ограничено | ❌ |
4. Инструмент 1 — MetaScrub и аналоги: drag-and-drop очистка
MetaScrub — категория инструментов с графическим интерфейсом, где вся работа сводится к: перетащил файл → нажал кнопку → получил чистый документ.
4.1 PDF24 Tools (веб + десктоп, бесплатно)
Самый простой старт без установки:
tools
.pdf24.org → «Удалить метаданные PDF»
→ Перетащить файл → нажать «Удалить метаданные» → скачать
Десктопная версия (рекомендуется для конфиденциальных файлов — не уходит на сервер):
pdf24
.org → скачать PDF24 Creator → установить
→ Перетащить PDF на иконку → «Метаданные» → «Очистить»
Что удаляет: Author, Title, Subject, Keywords, Creator, Producer, даты, XMP.
Что НЕ удаляет: EXIF изображений внутри PDF (нужен дополнительный шаг).
4.2 BeCyPDFMetaEdit (Windows, бесплатно)
Специализированный редактор метаданных PDF с GUI:
becyhome
.de/becypdfmetaedit → скачать → установить (или portable версия)
→ Открыть PDF → просмотреть все поля → очистить выборочно или всё
→ Сохранить
Особенность: позволяет не только удалять, но и подставлять ложные данные (например, изменить Author и дату на любые значения).
4.3 MAT2 с графическим интерфейсом (Linux / Windows)
MAT2 (Metadata Anonymisation Toolkit) — опенсорсный инструмент с GUI:
text
<h2 id="linux-ustanovka">Linux: установка</h2>
sudo apt install mat2
<h2 id="gui-obyortka-dlya-teh-kto-ne-hochet-konsol">GUI-обёртка (для тех кто не хочет консоль):</h2>
<h2 id="nautilus-faylovyy-menedzher-pravaya-knopka-na-fayle">Nautilus (файловый менеджер) → правая кнопка на файле</h2>
<h2 id="udalit-metadannye-esli-ustanovlen-plagin-nautilus-python">→ «Удалить метаданные» (если установлен плагин nautilus-python)</h2>Windows-версия: доступна через WSL или как portable через Flatpak.
Поддерживает: PDF, DOCX, XLSX, PPTX, ODT, JPEG, PNG, MP3, MP4 и 20+ форматов.
4.4 Solvusoft PDF Metadata Remover (Windows, бесплатно)
solvusoft
.com → скачать PDF Metadata Remover
→ Drag & drop файлов → выбрать поля для удаления → «Remove»
Пакетная обработка: до 50 файлов за раз через интерфейс.
4.5 Сравнение drag-and-drop инструментов:
| Инструмент | Платформа | Цена | DOCX | JPEG | Пакет | Офлайн | |
|---|---|---|---|---|---|---|---|
| PDF24 Desktop | Win/Mac/Linux | Бесплатно | ✅ | ⚠️ | ❌ | ✅ | ✅ |
| BeCyPDFMetaEdit | Windows | Бесплатно | ✅ | ❌ | ❌ | ❌ | ✅ |
| MAT2 + GUI | Linux | Бесплатно | ✅ | ✅ | ✅ | ✅ | ✅ |
| Solvusoft | Windows | Бесплатно | ✅ | ❌ | ❌ | ✅ | ✅ |
| PDF24 Web | Браузер | Бесплатно | ✅ | ❌ | ❌ | ✅ | ❌ |
5. Инструмент 2 — Встроенные инструменты Word, LibreOffice, Acrobat
Самые недооценённые инструменты — встроенные в программы, которые уже стоят на вашем компьютере.
5.1 Microsoft Word: «Инспектор документов»
Инспектор документов — официальный инструмент Microsoft для удаления скрытых данных:
word
→ Файл → Сведения → Проверка документа → Инспектор документов
→ Выбрать что проверять:
☑ Примечания, редакция, версии
☑ Скрытый текст
☑ Свойства документа и личные данные
☑ Данные XML
☑ Невидимое содержимое
→ Нажать «Проверить»
→ Напротив каждого пункта с найденными данными → «Удалить все»
→ Закрыть → Сохранить как новый файл
> ⚠️ Важно: сохраняйте как новый файл после очистки. Некоторые метаданные восстанавливаются при «Сохранить» поверх существующего.
Дополнительно — очистить поля автора:
text
Файл → Параметры → Общие
→ «Имя пользователя» → очистить или изменить
→ «Инициалы» → очистить
5.2 Microsoft Word: «Автоматическое удаление» при сохранении
text
Файл → Параметры → Центр управления безопасностью
→ Параметры центра управления безопасностью
→ Параметры конфиденциальности
→ ☑ «Удалять личные данные из свойств файла при сохранении»
После включения — Word автоматически очищает личные поля при каждом сохранении.
5.3 LibreOffice Writer / Calc / Impress
text
Сервис → Макросы → [не нужен]
Файл → Свойства → вкладка «Общие»
→ Нажать «Сбросить» — удаляет даты и статистику
Файл → Свойства → вкладки «Описание», «Дополнительно»
→ Очистить все поля вручную
При экспорте в PDF:
Файл → Экспорт в PDF → вкладка «Общие»
→ Снять галочку «Экспортировать закладки как именованные назначения»
→ Снять «Экспортировать метаданные документа»
5.4 Adobe Acrobat Pro: «Очистка документа»
Только в Acrobat Pro (не бесплатный Reader):
text
Инструменты → Защита → Очистить документ
→ Выбрать что удалять:
☑ Метаданные
☑ Внедрённое содержимое
☑ Скрытые слои
☑ Встроенный поиск
☑ Комментарии, формы, мультимедиа
→ ОК → Сохранить копию
Также через меню:
text
Файл → Свойства → вкладка «Описание»
→ Очистить поля Author, Title, Subject, Keywords вручную
→ Нажать «Дополнительные метаданные» → удалить XMP
5.5 Apple Pages / Numbers / Keynote (macOS)
text
Файл → Дополнения → Удалить конфиденциальные данные
→ Выбрать категории для удаления → ОК
При экспорте в PDF:
Файл → Экспортировать в → PDF → «Дополнительные параметры»
→ Убрать «Включить метаданные документа»
6. Инструмент 3 — ExifTool с GUI: мощь без консоли
ExifTool — самый мощный инструмент для работы с метаданными. Официально это консольная программа — но существуют графические обёртки, которые делают его доступным без единой команды.
6.1 ExifToolGUI (Windows)
exiftool
.org → скачать ExifTool (exiftool.exe)
github.com/FrankBijnen/ExifToolGui → скачать ExifToolGUI
→ Поместить оба файла в одну папку
→ Запустить ExifToolGUI.exe
Интерфейс:
text
Левая панель: дерево папок
Центр: список файлов
Правая панель: все метаданные выбранного файла
Очистка:
→ Выбрать файл(ы) → правая кнопка → «Remove all metadata»
→ или: выбрать конкретные поля → «Delete selected tags»
6.2 PyExifTool GUI (кросс-платформенный)
text
Установить Python → pip install pyexiftool
→ Скачать GUI-обёртку с GitHub: github.com/sylikc/pyexiftool
→ Запустить → drag & drop файлов
6.3 ExifCleaner (Windows / Mac / Linux, бесплатно)
Самая простая GUI-обёртка для ExifTool — специально для очистки:
exifcleaner
.com → скачать → установить
→ Перетащить файлы в окно
→ Метаданные удаляются автоматически при добавлении
→ Скачать очищенные файлы
Поддерживает: JPEG, PNG, WebP, TIFF, PDF, RAW-форматы.
Работает: полностью офлайн, файлы не покидают компьютер.
6.4 Что ExifTool удаляет, чего не умеют другие:
| Метаданные | PDF24 | Word Инспектор | ExifTool |
|---|---|---|---|
| Стандартные поля (Author, Date) | ✅ | ✅ | ✅ |
| XMP метаданные | ✅ | ⚠️ | ✅ |
| EXIF в изображениях внутри PDF | ❌ | ❌ | ✅ |
| GPS координаты в фото | ❌ | ❌ | ✅ |
| ICC профиль цвета | ❌ | ❌ | ✅ |
| Серийный номер камеры | ❌ | ❌ | ✅ |
| Thumbnail (миниатюра оригинала) | ⚠️ | ❌ | ✅ |
| Нестандартные вендорские поля | ❌ | ❌ | ✅ |
> 📌 Вывод: если в PDF есть вставленные фотографии — только ExifTool гарантирует удаление GPS и серийного номера камеры. Остальные инструменты это поле пропускают.
7. Инструмент 4 — Онлайн-сервисы: когда уместно, когда опасно
Онлайн-сервисы удобны — но требуют понимания рисков. Вы загружаете файл на чужой сервер.
7.1 Когда онлайн-сервисы уместны:
- Файл не содержит конфиденциальной информации (публичная брошюра, резюме без чувствительных данных)
- Нет времени на установку ПО (быстрая разовая задача)
- Используете рабочий компьютер без прав администратора
7.2 Когда онлайн-сервисы опасны:
- Документ содержит персональные данные клиентов (нарушение 152-ФЗ)
- Коммерческая тайна, NDA, стратегические документы
- Юридические документы, медицинские данные
- Вы не знаете политику хранения данных сервиса
7.3 Таблица онлайн-сервисов:
| Сервис | Форматы | Хранение файлов | Политика | Рекомендация |
|---|---|---|---|---|
| PDF24 Web | Удаляется сразу | Прозрачная | ✅ Можно | |
| ilovepdf.com | 2 часа | Европейский сервер | ⚠️ Не для конфиденц. | |
| smallpdf.com | 1 час | Швейцария | ⚠️ Не для конфиденц. | |
| exif.tools | JPEG, PDF | Не хранится | Прозрачная | ✅ Для проверки |
| pdfescape.com | Сессия | Неизвестна | ❌ Не рекомендуется | |
| sejda.com | 2 часа | Нидерланды | ⚠️ Только публичные |
7.4 Как проверить политику сервиса перед загрузкой:
text
Ищите на сайте:
→ «We process files locally» / «Files processed in browser» → ✅ Безопасно
→ «Files deleted after X hours» → ⚠️ Данные были на сервере
→ «We don't store your files» без подтверждения → ❓ Проверьте Privacy Policy
→ Нет упоминания о файлах в Privacy Policy → ❌ Не загружайте
8. Пакетная очистка: 100+ файлов за раз без консоли
8.1 PDF24 Desktop: пакетный режим
text
Открыть PDF24 Creator
→ Перетащить папку с PDF-файлами (или выбрать несколько)
→ «Сохранить» → выбрать профиль с удалением метаданных
→ Обработка всех файлов автоматически
До 200 файлов за один раз. Оригиналы сохраняются, создаются новые чистые копии.
8.2 ExifCleaner: пакетный drag & drop
text
Открыть ExifCleaner
→ Выделить все файлы в проводнике (Ctrl+A)
→ Перетащить всю выборку в окно ExifCleaner
→ Все файлы обрабатываются параллельно
→ Экспорт: каждый файл сохраняется рядом с оригиналом (suffix _clean)
8.3 MAT2: через файловый менеджер (Linux)
После установки плагина Nautilus:
text
Открыть папку с файлами
→ Выделить все (Ctrl+A)
→ Правая кнопка → «Удалить метаданные»
→ MAT2 обрабатывает все файлы, создаёт чистые копии
8.4 Word: макрос для пакетной очистки DOCX
Для обработки папки с DOCX без консоли — через встроенный редактор макросов:
word
→ Разработчик → Visual Basic → Вставить → Модуль
Вставить код:
vba
Sub CleanAllDocxInFolder()
Dim sFolder As String
Dim sFile As String
Dim oDoc As Document
sFolder = InputBox("Введите путь к папке:", "Очистка метаданных", "C:\Documents\")
If Right(sFolder, 1) <> "\" Then sFolder = sFolder & "\"
sFile = Dir(sFolder & "*.docx")
Do While sFile <> ""
Set oDoc = Documents.Open(sFolder & sFile)
' Очистить поля автора
oDoc.BuiltInDocumentProperties("Author").Value = ""
oDoc.BuiltInDocumentProperties("Last Author").Value = ""
oDoc.BuiltInDocumentProperties("Company").Value = ""
oDoc.BuiltInDocumentProperties("Manager").Value = ""
' Принять все исправления
oDoc.AcceptAllRevisions
' Удалить комментарии
Dim oComment As Comment
For Each oComment In oDoc.Comments
oComment.Delete
Next oComment
oDoc.Save
oDoc.Close
sFile = Dir()
Loop
MsgBox "Готово! Все файлы очищены."
End Sub
Запуск: F5 → ввести путь к папке → ОК.
8.5 Производительность пакетной очистки:
| Инструмент | 10 файлов | 100 файлов | 1000 файлов | Требует ПК рядом |
|---|---|---|---|---|
| PDF24 Desktop | ~30 сек | ~5 мин | ~50 мин | ✅ |
| ExifCleaner | ~10 сек | ~2 мин | ~20 мин | ✅ |
| MAT2 (Linux) | ~5 сек | ~1 мин | ~10 мин | ✅ |
| Word VBA макрос | ~1 мин | ~10 мин | ~100 мин | ✅ |
9. Метаданные фото и изображений внутри PDF
Это самое опасное и наименее известное место хранения данных.
9.1 Как фото попадают в PDF с метаданными
text
Сценарий 1: фото с телефона → вставлено в Word → сохранено как PDF
→ GPS-координаты съёмки сохраняются в EXIF фото внутри PDF
Сценарий 2: скан документа → сохранён как PDF
→ метаданные сканера (модель, дата, настройки) сохраняются
Сценарий 3: скриншот с десктопа → вставлен в PDF
→ ICC-профиль монитора, иногда — имя пользователя в пути к файлу
9.2 Как проверить наличие GPS в PDF:
exiftool
онлайн (exif.tools):
→ Загрузить PDF → искать поля «GPS Latitude», «GPS Longitude»
Если они есть → ваше местоположение раскрыто
9.3 Удаление GPS и EXIF из фото внутри PDF:
Только ExifTool это делает надёжно:
ExifCleaner (GUI):
text
Перетащить PDF → ExifCleaner автоматически обрабатывает EXIF внутри
Если ExifCleaner не помогает — двухшаговый метод:
text
Шаг 1: извлечь изображения из PDF
→ PDF24 → «Извлечь изображения» → получить папку с JPEG
Шаг 2: очистить EXIF из изображений
→ ExifCleaner → обработать все JPEG → получить чистые
Шаг 3: заменить изображения в PDF
→ PDF24 → собрать PDF из чистых изображений
9.4 Превентивный метод: отключить GPS до съёмки
android
: Настройки камеры → Местоположение → Выключить
iOS: Настройки → Конфиденциальность → Службы геолокации
→ Камера → «Никогда»
Это предотвращает проблему до её возникновения.
10. Корпоративный сценарий: политика очистки для команды
10.1 Почему корпоративный контекст особенно важен
В корпоративных документах метаданные содержат:
- Имя сотрудника (кто реально писал, а не кто подписал)
- Название компании из корпоративного профиля Office
- Внутренние кодовые названия проектов в полях Keywords/Subject
- Историю правок с именами всех участников
- Время работы над документом (может раскрыть объём усилий)
- Пути к сетевым папкам в поле Template (раскрывает структуру)
10.2 Внедрение без IT-отдела: три уровня
Уровень 1 — Ручной (для малых команд):
text
Инструкция: перед отправкой клиенту/партнёру
→ Запустить Инспектор документов (Word) → удалить всё → сохранить копию
Время: 1 минута на документ
Уровень 2 — Полуавтоматический:
shared
-папка «К отправке»
→ Скрипт мониторит папку
→ При появлении нового файла — автоматически очищает метаданные
→ Кладёт чистую копию в «Отправить клиенту»
Уровень 3 — Корпоративный стандарт:
grouppolicy
(Windows) → обязательное включение «Удалять личные данные при сохранении»
→ применяется ко всем компьютерам домена автоматически
10.3 Настройка корпоративного шаблона Word без метаданных
text
Создать новый документ → настроить стили и форматирование
Файл → Параметры → Общие → Имя пользователя: «[Название компании]»
Инспектор документов → удалить всё
Файл → Сохранить как → тип: «Шаблон Word (*.dotx)»
→ Разместить в сетевой папке шаблонов компании
Все сотрудники создают документы из этого шаблона — начальные метаданные минимальны.
10.4 Обучение команды: одна страница правил
text
ПРАВИЛО ОДНОЙ МИНУТЫ перед отправкой внешним адресатам:
1. Word/Excel/PowerPoint:
Файл → Сведения → Инспектор → Проверить → Удалить всё
2. PDF от Word:
Очистить через Инспектор ПЕРЕД сохранением в PDF
3. PDF от сканера:
PDF24 Desktop → перетащить → сохранить чистый
4. Документ с фото/скриншотами:
ExifCleaner → перетащить PDF → сохранить чистый
Сомневаетесь — спросите [имя ответственного]
11. Автоматизация: скрипт-санитайзер для папки
Для тех, кто хочет чтобы очистка происходила автоматически — без участия человека.
11.1 Windows: Task Scheduler + PDF24 CLI
PDF24 имеет CLI-режим, который можно запускать по расписанию:
batch
@echo off
REM Скрипт автоочистки PDF в папке
SET INPUT_FOLDER=C:\ToSend\
SET OUTPUT_FOLDER=C:\Clean\
SET PDF24_CLI="C:\Program Files\PDF24\pdf24-DocTool.exe"
FOR %%f IN ("%INPUT_FOLDER%*.pdf") DO (
%PDF24_CLI% -removeMeta "%%f" -outputDir "%OUTPUT_FOLDER%"
ECHO Обработан: %%f
)
ECHO Готово! Чистые файлы в %OUTPUT_FOLDER%
Сохранить как `clean_pdfs.bat` → Task Scheduler → запускать ежедневно в 18:00.
11.2 macOS: Automator (без кода)
automator
→ Новый документ → «Операция с папкой»
→ Выбрать папку для мониторинга: «К отправке»
Добавить действия:
1. «Получить объекты Finder» → из указанной папки
2. «Выполнить шелл-скрипт»:
exiftool -all= -overwrite_original "$@"
3. «Переместить объекты Finder» → в папку «Отправить»
Сохранить → Automator запускается автоматически при добавлении файла
11.3 Папка-«мойка» через ExifTool (кросс-платформенно)
Создать папку `inbox` → при добавлении файла → автоматически очистить → переложить в `clean`:
python
<h2 id="watch-and-clean-py-zapustit-odin-raz-rabotaet-v-fone">watch_and_clean.py — запустить один раз, работает в фоне</h2>
import time
import subprocess
from pathlib import Path
INBOX = Path("C:/ToSend") # Windows: C:/ToSend
OUTBOX = Path("C:/Clean") # Windows: C:/Clean
OUTBOX.mkdir(exist_ok=True)
processed = set()
print(f"Мониторинг: {INBOX}")
print("Нажмите Ctrl+C для остановки")
while True:
for f in INBOX.glob("*.*"):
if f not in processed and f.suffix.lower() in ['.pdf', '.docx', '.jpg', '.jpeg', '.png']:
out = OUTBOX / f.name
subprocess.run(["exiftool", "-all=", "-o", str(out), str(f)])
processed.add(f)
print(f"Очищен: {f.name}")
time.sleep(5)
Запуск: `python watch_and_clean.py` — работает в фоне, обрабатывает новые файлы каждые 5 секунд.
11.4 Интеграция с Windows Проводником (контекстное меню)
Добавить «Очистить метаданные» в правую кнопку мыши:
text
Открыть regedit
→ HKEY_CLASSES_ROOT\.pdf\shell\CleanMeta\command
→ Создать ключ: «Очистить метаданные PDF»
→ Значение: "C:\ExifTool\exiftool.exe" -all= -overwrite_original "%1"
После: правая кнопка на любом PDF → «Очистить метаданные PDF».
12. Что не удаляется: ограничения всех методов
Честный раздел о том, чего нельзя сделать стандартными инструментами.
12.1 Что остаётся после очистки:
| Что остаётся | Почему | Как защититься |
|---|---|---|
| Шрифты (список использованных) | Встроены в PDF, не метаданные | Конвертировать в растр |
| Структура документа (заголовки, стили) | Содержимое, не метаданные | Экспорт как «плоский» PDF |
| Уникальный Document ID | Некоторые инструменты не удаляют | ExifTool удаляет |
| Отпечаток принтера (невидимые точки) | Физический принтер, не PDF | Сканировать чужой принтер |
| Стеганография в изображениях | Скрытые данные в пикселях | Конвертировать изображения |
| История версий в облаке (Google Drive) | Хранится на сервере, не в файле | Удалить историю версий |
12.2 «Желтые точки» принтера — отдельная угроза
Цветные лазерные принтеры большинства производителей (HP, Xerox, Canon, Brother) печатают невидимый паттерн из жёлтых точек на каждой странице. Паттерн содержит:
- Серийный номер принтера
- Дату и время печати
Защита: используйте ч/б принтер или печатайте через принтер, не связанный с вами лично.
12.3 Цифровые подписи и сертификаты
Если PDF подписан цифровой подписью — подпись содержит:
- Сертификат подписанта (имя, организация)
- Временную метку подписи
- Хэш документа на момент подписи
Удаление подписи → документ теряет юридическую силу. Это компромисс, который нужно осознать.
12.4 Облачная история версий
Если документ создавался в Google Docs / Microsoft 365 Online — история изменений хранится на серверах, а не в файле. При экспорте в PDF — эти данные не включаются. Но:
google
Docs: Файл → История версий → все правки с именами авторов
→ хранится на серверах Google независимо от вас
Защита: работать в оффлайн-режиме (LibreOffice) и не синхронизировать
13. FAQ: 20 горячих вопросов
Q 01 Можно ли восстановить удалённые метаданные?
A Зависит от метода удаления. Если файл перезаписан — нет. Если метаданные «обнулены», но поля остались — специалист может увидеть что поля были. Полное удаление через ExifTool с `-all= -overwrite_original` не оставляет восстанавливаемых следов в самом файле.
Q 02 Удаление метаданных нарушает авторское право?
A Нет, если вы автор или правообладатель. Удаление метаданных из собственного документа — ваше право. Удаление метаданных из чужого документа перед распространением — может нарушать права автора (ст. 1300 ГК РФ: запрет удаления информации об авторском праве).
Q 03 Видны ли метаданные получателю без специальных программ?
A Частично. В Adobe Reader (бесплатный): Файл → Свойства — видны основные поля. В браузере при открытии PDF — иногда Author в заголовке вкладки. Специальные программы (ExifTool, BeCyPDFMetaEdit) показывают всё. Любой технически грамотный получатель видит полную картину за 30 секунд.
Q 04 Очищает ли «Печать в PDF» метаданные?
A Частично. Печать в PDF (через стандартный PDF-принтер Windows/Mac) удаляет историю правок и комментарии, но сохраняет Author, дату и Producer. Лучше чем ничего — но недостаточно для полной очистки.
Q 05 Что если я сохраню DOCX как PDF — метаданные перенесутся?
A Да. При сохранении Word-документа как PDF — поля Author, Title, Subject, Keywords переносятся в PDF автоматически. Нужно очистить ИХ В WORD перед экспортом или очистить получившийся PDF отдельно.
Q 06 Telegram сохраняет метаданные файлов?
A Нет — Telegram передаёт файл как есть, не изменяя и не добавляя метаданные. Что было в файле до отправки — то и получит адресат. Очищайте до отправки.
Q 07 Google Диск изменяет метаданные при загрузке?
A Нет. Google Drive хранит оригинальный файл. При скачивании получатель получает тот же файл с теми же метаданными. Исключение: при конвертации в Google Docs и обратно — некоторые поля могут измениться.
Q 08 Можно ли добавить ложные метаданные вместо удаления?
A Да. BeCyPDFMetaEdit и ExifTool позволяют записать любое значение в любое поле:
exiftool
-Author="John Smith" -CreateDate="2020:01:01" document.pdf
Но: это может создать юридические проблемы, если документ используется официально.
Q 09 Скан документа (PDF из сканера) содержит метаданные?
A Да. Сканер записывает: модель устройства, дату и время сканирования, разрешение, ICC-профиль. Некоторые корпоративные МФУ добавляют IP-адрес, имя пользователя сети и название рабочего места.
Q 10 MAT2 удаляет метаданные из видеофайлов?
A Да, MAT2 поддерживает MP4, MKV, OGG и другие видеоформаты. Удаляет: информацию об авторе, дату создания, GPS (если есть), данные о программе редактирования. Не удаляет: технические метаданные кодека (нужны для воспроизведения).
Q 11 Как проверить что очистка сработала?
A Проверьте файл после очистки тем же способом, что и до:
exif
.tools → загрузить чистый файл → убедиться что поля пусты
Adobe Reader → Свойства → убедиться что Author пустой
Всегда проверяйте результат — разные инструменты удаляют разные подмножества полей.
Q 12 Влияет ли очистка на размер файла?
A Незначительно. Метаданные занимают несколько килобайт. Размер PDF с 50 страницами уменьшится на 2–10 КБ. Заметной разницы нет.
Q 13 Что делать с архивом старых документов, которые уже отправлены?
A Для будущих отправок — очищать перед отправкой. Документы, которые уже получены адресатами, изменить нельзя. Если данные критические — оцените, нужно ли уведомить получателей или отозвать документ.
Q 14 Можно ли автоматически очищать метаданные в Outlook перед отправкой?
A Да, через макрос Outlook. Правило «перед отправкой» → запустить макрос, который вызывает ExifTool на вложении → отправить чистый файл. Требует настройки разработчиком, но реализуемо без сторонних сервисов.
Q 15 LibreOffice оставляет меньше метаданных чем Word?
A По умолчанию — похоже. Оба записывают Author и даты. Но LibreOffice не записывает поле «Компания» (нет корпоративного профиля) и «Менеджер». При экспорте в PDF LibreOffice даёт больше контроля над тем, что включается в файл.
Q 16 Чем опасны метаданные в резюме?
A Типичные утечки: предыдущее место работы в имени шаблона, реальная дата создания (раскрывает что резюме старое), имя другого человека в Author (раскрывает что писал кто-то другой), история правок с комментариями рекрутера.
Q 17 Удаляет ли конвертация PDF → JPG → PDF метаданные?
A Почти полностью. PDF → JPG (растеризация) → PDF из JPG. Исходные метаданные PDF исчезают. Но JPG получает свои метаданные (дата создания, ПО). Нужно очистить промежуточные JPG перед сборкой нового PDF. Этот метод также снижает качество текста.
Q 18 Что такое XMP метаданные и чем они опаснее обычных?
A XMP (Extensible Metadata Platform) — расширенный блок метаданных в формате XML внутри файла. Содержит: историю редактирования, права, UUID версии, данные из Adobe Creative Suite (если использовался). Многие инструменты очищают стандартные поля, но пропускают XMP. ExifTool удаляет XMP полностью.
Q 19 Нужно ли очищать метаданные из JPEG перед публикацией в соцсетях?
A Соцсети (Instagram, VK, Facebook) автоматически удаляют EXIF при загрузке — включая GPS. Но Telegram и большинство мессенджеров передают файл как есть. Если отправляете фото через Telegram как файл (не как фото) — GPS сохраняется. Очищайте перед отправкой в мессенджерах.
Q 20 Есть ли разница между «Сохранить» и «Сохранить как» для метаданных?
A Да. «Сохранить» обновляет ModDate и Last Author, но сохраняет всю историю. «Сохранить как» создаёт новый файл — некоторые инструменты (Инспектор Word) работают лучше именно с новым файлом. После очистки через Инспектор всегда делайте «Сохранить как» с новым именем.
14. Чек-лист «30 секунд до чистого документа»
Блок 1: Проверить что есть (10 сек)
- ☐ Открыть в Adobe Reader → Ctrl+D → посмотреть Author и даты
- ☐ Если документ с фото — проверить GPS через exif.tools
Блок 2: Выбрать метод (5 сек)
- ☐ DOCX / XLSX / PPTX → Word Инспектор документов (встроено, бесплатно)
- ☐ PDF без фото → PDF24 Desktop (drag & drop)
- ☐ PDF с фото / GPS → ExifCleaner (drag & drop)
- ☐ Много файлов сразу → ExifCleaner или MAT2 (пакетный режим)
Блок 3: Очистить (10 сек)
- ☐ Word: Файл → Сведения → Инспектор → Проверить → Удалить всё → Сохранить как
- ☐ PDF24: перетащить → нажать «Очистить» → скачать
- ☐ ExifCleaner: перетащить → скачать очищенный
Блок 4: Проверить результат (5 сек)
- ☐ Открыть чистый файл → Ctrl+D → убедиться что Author пустой
- ☐ Если были фото — перепроверить через exif.tools
Итого: 30 секунд — документ чистый, цифровой след удалён.
15. Заключение: что делать дальше
1. Проверьте прямо сейчас любой PDF, который вы недавно отправляли — откройте в Adobe Reader, нажмите Ctrl+D и посмотрите на вкладку «Описание». Скорее всего там есть ваше имя и название компании.
2. Установите ExifCleaner — бесплатно, офлайн, drag & drop. Это универсальный инструмент для PDF, DOCX, JPEG. Одна программа закрывает 90% ситуаций.
3. Включите автоматическую очистку в Word — Файл → Параметры → Центр управления безопасностью → «Удалять личные данные при сохранении». Один раз — защищает всегда.
4. Для команды — внедрите правило одной минуты: Инспектор документов перед каждой отправкой внешним адресатам. Распечатайте инструкцию из раздела 10 и повесьте рядом с принтером.
5. Если в документах бывают вставленные фото — всегда проверяйте GPS через exif.tools перед отправкой. Координаты в фото — это адрес вашего офиса или дома, видимый любому получателю.
6. Настройте папку-«мойку» из раздела 11 если обрабатываете много документов. Автоматическая очистка при добавлении файла в папку — нулевые усилия после настройки.
> 🔒 Метаданные — невидимый слой каждого документа. Большинство людей о нём не думают. Именно поэтому он так часто раскрывает то, что должно было остаться скрытым. Тридцать секунд очистки — и документ говорит ровно столько, сколько вы хотите.