Docker安装Papermerge开源OCR数字文档管理系统
Docker安装Papermerge开源OCR数字文档管理系统
介绍
Papermerge DMS 或简称 Papermerge 是一种开源文档管理 设计用于处理扫描文档(也称为数字文档)的系统 档案)。它使用 OCR 从扫描中提取文本,为它们编制索引,以及 为全文搜索做好准备。Papermerge 提供 现代桌面文件浏览器。它具有双面板文档等功能 浏览器、拖放、标签、分层文件夹和全文搜索等 您可以有效地存储和组织您的文档。
它支持 PDF、TIFF、JPEG 和 PNG 文档文件格式。Papermerge 是 长期存储文档的完美工具。
Papermerge 的主要用例是数字档案的长期存储。
这是基于 Web 的软件。这意味着没有可执行文件(又名 no .exe文件),并且它必须在 Web 服务器上运行并通过 Web 访问 浏览器。
功能亮点
支持 PDF、JPG、PNG、TIFF 格式的文档
类似桌面的用户界面
OCR - 用于提取文本以编制文档索引
全文搜索
文档版本控制(对文档的所有操作都是非破坏性的)
标签 - 为文档或文件夹分配彩色标签
文档和文件夹 - 用户可以组织文件夹中的文档
多用户
REST API
不需要 GPU,因为 Tesseract 完全在您的 CPU 上运行 OCR。
如果想要更快速的处理效果,请更换更好的CPU和内存容量。
安装教程
docker-compose方式安装
演示以在群晖NAS系统上安装为例
打开群晖的SSH功能,使用终端软件进行连接,并切换到root状态下。
进入群晖的docker文件夹(你想将容器数据存储到哪就进哪个文件夹)
cd /volume1/docker
创建Papermerge文件夹
mkdir Papermerge
创建子文件夹
#media_root是媒体文件夹 #solr_data是solr搜索引擎数据文件夹 #postgres_data是数据库文件夹 mkdir media_root solr_data postgres_data
编辑docker-compose.yml文件
vi docker-compose.yml
按字母 i 键进入编辑模式,复制并修改下面的配置文件,粘贴到终端,按Esc键退出编辑模式,输入 :wq 退出并保存。
version: "3.9" x-backend: &common image: papermerge/papermerge:3.1 environment: PAPERMERGE__SECURITY__SECRET_KEY: 1234 # top secret PAPERMERGE__AUTH__USERNAME: admin PAPERMERGE__AUTH__PASSWORD: admin PAPERMERGE__DATABASE__URL: postgresql://coco:kesha@db:5432/cocodb PAPERMERGE__REDIS__URL: redis://redis:6379/0 PAPERMERGE__SEARCH__URL: solr://solr:8983/pmg-index volumes: - media_root:/core_app/media depends_on: db: condition: service_healthy redis: condition: service_healthy services: web: <<: *common ports: - "12000:80" #12000是容器外部访问端口,可以自己更改。 worker: <<: *common command: worker redis: image: redis:6 healthcheck: test: redis-cli --raw incr ping interval: 5s timeout: 10s retries: 5 start_period: 10s solr: image: solr:9.3 ports: - "8983:8983" volumes: - solr_data:/var/solr command: - solr-precreate - pmg-index db: image: postgres:16.1 volumes: - postgres_data:/var/lib/postgresql/data/ environment: POSTGRES_PASSWORD: kesha POSTGRES_DB: cocodb POSTGRES_USER: coco healthcheck: test: pg_isready -U $$POSTGRES_USER -d $$POSTGRES_DB interval: 5s timeout: 10s retries: 5 start_period: 10s volumes: postgres_data: solr_data: media_root:
执行命令,启动docker-compose文件,拉取镜像并创建容器。
docker-compose up -d
查看正在运行的容器
docker-compose ps
访问Papermerge
打开浏览器,以群晖的IP+设置的端口进行访问。
以本机为例:http://172.16.19.6:12000
启动需要加载一会,账号密码都是admin登录成功
具体的使用功能请查看官方文档,有详细说明。
默认情况下,Papermerge docker 镜像包括英语、德语、法语、意大利语、西班牙语、荷兰语、 罗马尼亚语和葡萄牙语 OCR 语言。(其他语言可以另外安装,群晖NAS系统不支持apt,所以无法构建。)
下面是文件夹、文档、文档版本关系的图形示例:其他的请翻看官方文档!!!
项目地址
GitHub项目地址:https://github.com/ciur/papermerge
官方详细文档地址:https://docs.papermerge.io/3.1/setup/docker-compose/
👇👇👇
- 感谢你赐予我前进的力量