MD Converter 使用文档
欢迎使用 MD Converter!这是一款强大的桌面端工具,能够将任意文件、网页、甚至包含复杂表格的图像一键转换为结构化的 Markdown 格式,同时支持接入 AI 大模型进行本地智能润色。
🚀 快速开始
下载 .exe 绿色便携版并解压后,双击运行即可使用,无需安装其他依赖(若首次使用图像 OCR 功能,程序会自动在后台下载必要的轻量级模型)。
🛡️ 100% 本地隐私安全承诺
MD Converter 采用严苛的“本地优先”架构设计,捍卫您的数据主权:
• 文件零泄露:所有的 PDF 解析、Office 文档转换、提取操作完全依托您电脑的硬件在本地闭环完成。
• 完全离线 OCR:图像识别和表格还原采用内置的深度学习模型,断网状态下依然可用,绝不将您的敏感图片上传至任何云端接口。
• 凭据绝对安全:如果您配置了用于智能润色的大模型 API 密钥,该密钥及所有的抓取历史记录,仅保存在您本地硬盘的 config.json 和 SQLite 数据库中,没有任何字节会被发送到第三方的遥测服务器。
📖 功能使用指南
1. 文件转换 (支持 20+ 格式)
- 操作方法:点击左侧导航栏的“文件转换”标签,将您的 PDF、Word (docx)、PPT (pptx)、Excel (xlsx)、图片等文件拖拽到中间区域,或点击上传。
- 核心亮点:
- 默认启用智能图片提取:会自动将 Word、PDF 中内嵌的图片提取出来,并调用本地 OCR 识别上面的文字。
- 批量处理:支持同时拖入数十个文件,后台采用多线程高并发处理,互不阻塞。
2. 深度网页爬虫
- 操作方法:切换到“网页爬虫”标签,输入需要抓取的文章或网页 URL。支持同时输入多个 URL(每行一个)。
- 核心亮点:
- SPA 动态渲染支持:如果目标网站(如 Vue/React 单页应用)需要加载 JavaScript 才能显示内容,请勾选“启用 JS 动态渲染”。
- 智能去噪:内置算法会自动剔除网页上的广告、导航栏、底部版权信息,仅提取最纯粹的正文内容。
3. 工业级图像 OCR 与表格还原
- 操作方法:在“图像 OCR”标签页导入您的扫描件或截图。
- 核心亮点:
- 表格结构识别 (PP-Structure):勾选该选项后,程序将精准识别图片中的网格和表格,并在 Markdown 中完美生成对应的
| 字段 | 字段 |语法结构。 - 支持中英文、日文、韩文、法文等多种语言的自由切换。
- 表格结构识别 (PP-Structure):勾选该选项后,程序将精准识别图片中的网格和表格,并在 Markdown 中完美生成对应的
4. 文档无缝合并
- 操作方法:在“文档合并”页面导入多个
.md文件。您可以上下拖动调整合并顺序。 - 核心亮点:
- 合并后会自动在文章开头生成 TOC 全局目录。
- 自动检测文档中的本地绝对/相对路径图片,并将其转换拼接为 Base64 内联格式。合并后的单文件发送给任何人,都不会出现图片裂掉的情况!
5. AI 智能润色排版
- 操作方法:进入“设置”页面,配置您自己的大模型 API Key 和 Base URL(完全兼容 OpenAI 接口)。并在文件转换页面勾选开启排版功能。
- 核心亮点:转换完成的初步 Markdown 会自动投喂给本地/云端大模型,修正错别字、统一中英文混排空格间距、优化排版格式。
⚠️ 注意事项
首次启动加载:由于内置了多个深度学习引擎,首次执行图像 OCR 或表格识别时,可能会花费较长时间初始化或下载模型文件,请耐心等待。