0成本打造私人文档管理系统,这个开源工具让你省下万元订阅费
yuyutoo 2025-01-07 16:59 2 浏览 0 评论
在这个数字化时代,我们每天都在处理大量的文件和文档,随着时间推移,这些纸质文件不断堆积,不仅占用大量空间,查找起来非常让人头疼。
你是否也曾因为找不到重要文件而焦虑不已?或是被满屋子的文件弄得焦头烂额?
而今天要介绍的这款开源神器 Paperless-ngx,带来了一站式的文档管理解决方案:智能OCR识别让所有扫描文件变得可搜索,强大的全文检索帮你快速定位文档,机器学习还能自动分类和打标签。
更赞的是,它支持多用户权限管理和文件安全分享,所有数据都在自己的服务器上。最重要的是,它完全免费,没有用户数限制,没有存储空间限制,帮你轻松省下每年上万元的订阅费用。
项目地址
https://github.com/paperless-ngx/paperless-ngx
项目特性
- 强大的文档管理:支持标签、关联方、类型等多维度文档组织
- 智能OCR识别:可识别100多种语言,将扫描文档转换为可搜索的文本
- 全文检索:支持关键词提示、相关性排序、结果高亮显示
- 本地存储:所有数据保存在您自己的服务器上,确保隐私安全
- 机器学习:自动添加标签、识别文档类型
- 批量处理:支持多核并行处理文档
- 邮件导入:可配置多个邮箱账户自动导入文档
- 文件格式:支持PDF、图片、Office文档等多种格式
群晖部署
下面一起来看看怎么通过群晖部署Paperless-ngx。
如果你了解命令行以及SSH,可以直接通过运行官方脚本进行部署。
bash -c "$(curl -L https://raw.githubusercontent.com/paperless-ngx/paperless-ngx/main/install-paperless-ngx.sh)"
或者直接下载官方仓库的compose文件来部署。
因为 Paperless-ngx 项目需要数据库,而群晖中自带 MariaDB,所以我们可以复用数据库,不需要再单独创建数据库容器。
通过群晖 phpAdmin 套件,登录到数据库管理界面,在账户菜单下新增账户并同时创建数据库。
如果不了解phpAdmin套件以及MariaDB数据库相关的配置,可以参阅这篇文章。
高级玩家必备 - 使用phpMyAdmin管理群晖中的数据库
配置完数据库后,在 File Station 套件中新增 paperless-ngx 项目的文件夹paperlessNgx。
并创建子文件夹comsume、data、exprot、media、redis五个文件夹。
分别进入属性界面,修改它们的权限为Everyone可读写。
下面来看看docker-compose文件,这里老宁修改了官方的compose文件,去掉了下载MariaDB 数据库的操作。我们只需把它复制粘贴保存为docker-compose.yml文件即可。
version: '3.4'
services:
broker:
image: docker.io/library/redis:7
restart: unless-stopped
volumes:
- ${REDIS_DATA_DIR:-./redis}:/data
webserver:
image: ghcr.io/paperless-ngx/paperless-ngx:latest
restart: unless-stopped
depends_on:
- broker
- gotenberg
- tika
ports:
- "${PORT:-8000}:8000"
volumes:
- ${DATA_DIR:-./data}:/usr/src/paperless/data
- ${MEDIA_DIR:-./media}:/usr/src/paperless/media
- ${EXPORT_DIR:-./export}:/usr/src/paperless/export
- ${CONSUME_DIR:-./consume}:/usr/src/paperless/consume
environment:
PAPERLESS_REDIS: redis://broker:6379
PAPERLESS_DBENGINE: mariadb
PAPERLESS_DBHOST: ${DB_HOST:-localhost}
PAPERLESS_DBUSER: ${DB_USER:-paperless}
PAPERLESS_DBPASS: ${DB_PASSWORD:-paperless}
PAPERLESS_DBPORT: ${DB_PORT:-3306}
PAPERLESS_TIKA_ENABLED: 1
PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000
PAPERLESS_TIKA_ENDPOINT: http://tika:9998
gotenberg:
image: docker.io/gotenberg/gotenberg:8.7
restart: unless-stopped
command:
- "gotenberg"
- "--chromium-disable-javascript=true"
- "--chromium-allow-list=file:///tmp/.*"
tika:
image: docker.io/apache/tika:latest
restart: unless-stopped
对应的环境变量文件如下,同样把它复制粘贴下来并保存为.env文件。
PORT=8200
DATA_DIR=/volume1/test/paperlessNgx/data
MEDIA_DIR=/volume1/test/paperlessNgx/media
EXPORT_DIR=/volume1/test/paperlessNgx/export
CONSUME_DIR=/volume1/test/paperlessNgx/consume
REDIS_DATA_DIR=/volume1/test/paperlessNgx/redis
DB_HOST=192.168.2.99
DB_NAME=paperless
DB_USER=paperless
DB_PASSWORD=12345678
DB_PORT=3307
PAPERLESS_TIME_ZONE=Asia/Shanghai
- 如果要修改 paperless-ngx 服务的端口,可以PORT对应的值。
- DATA_DIR 这五个变量对应的值为前面创建文件夹的路经。
- DB_HOST为数据库配置,需对应开始在 MariaDB 中创建的 paperless 数据库相关值。
- 至于 PAPERLESS_TIME_ZONE 等其他的配置可以参考官方文档进行配置。
修改完毕后,把docker-compose.yml和.env文件都上传到paperlessNgx文件夹下。
打开群晖 Container Manager 套件,在项目菜单中新增一个项目paperless-ngx,选择路径为前面创建的文件夹并选择使用已有的docker-compose文件创建。
接着点击下一步直接进行构建。
可以查看paperless-webserver容器的日志来观察构建状态。因为要创建数据库操作,所以过称较慢。
还有种方法更简单:尝试用浏览器打开【群晖ip:8200】,如果界面出现则构建成功。
构建完毕后在paperless-webserver容器中打开终端机进行账户配置。
需要先点击新增才能输入命令。
输入python3 manage.py createsuperuser创建用户。(输入用户名、邮箱和密码,邮箱可选,密码输入会看不见)
再用浏览器打开【群晖ip:8200】,输入用户名和密码就可以登录。
使用
首页点击右侧的浏览文件即可上传文档到 paperless-ngx 中。
paperless-ngx 支持多种文档格式。
支持联系人、标签、自定文档类型创建。
可以直接对文档内容进行搜索。文档在上传时,已经被OCR识别转为了PFD,所以可以直接搜索文档的内容。
除了网页上传,我们也可以通过各平台客户端把文档上传到 paperless-ngx 中。
具体细节可以查看官方文档:https://github.com/paperless-ngx/paperless-ngx/wiki/Related-Projects。
后记
paperless-ngx 这个项目是非常强大的,使用的人群也非常广泛。它可以把我们平时用到的文档进行分类管理,并且还支持内容级别的搜索,极大解决了文件杂乱的问题。
这篇文章其实写的不是很全,很多用法、高级功能都没有进行介绍,因为它的反代配置我搞了几个小时都没有成功,所以把我整不会了。
如果哪位小伙伴的反代配置成功了,麻烦告诉我是如何配置的。
我是老宁
一个热爱技术的程序员和极客,群晖NAS深度玩家!
专注NAS相关技术分享,原创!干货!
觉得老宁的文章对你有帮助,记得点赞、收藏、加关注!
相关推荐
- 史上最全的浏览器兼容性问题和解决方案
-
微信ID:WEB_wysj(点击关注)◎◎◎◎◎◎◎◎◎一┳═┻︻▄(页底留言开放,欢迎来吐槽)●●●...
-
- 平面设计基础知识_平面设计基础知识实验收获与总结
-
CSS构造颜色,背景与图像1.使用span更好的控制文本中局部区域的文本:文本;2.使用display属性提供区块转变:display:inline(是内联的...
-
2025-02-21 16:01 yuyutoo
- 写作排版简单三步就行-工具篇_作文排版模板
-
和我们工作中日常word排版内部交流不同,这篇教程介绍的写作排版主要是用于“微信公众号、头条号”网络展示。写作展现的是我的思考,排版是让写作在网格上更好地展现。在写作上花费时间是有累积复利优势的,在排...
- 写一个2048的游戏_2048小游戏功能实现
-
1.创建HTML文件1.打开一个文本编辑器,例如Notepad++、SublimeText、VisualStudioCode等。2.将以下HTML代码复制并粘贴到文本编辑器中:html...
- 今天你穿“短袖”了吗?青岛最高23℃!接下来几天气温更刺激……
-
最近的天气暖和得让很多小伙伴们喊“热”!!! 昨天的气温到底升得有多高呢?你家有没有榜上有名?...
- CSS不规则卡片,纯CSS制作优惠券样式,CSS实现锯齿样式
-
之前也有写过CSS优惠券样式《CSS3径向渐变实现优惠券波浪造型》,这次再来温习一遍,并且将更为详细的讲解,从布局到具体样式说明,最后定义CSS变量,自定义主题颜色。布局...
- 你的自我界限够强大吗?_你的自我界限够强大吗英文
-
我的结果:A、该设立新的界限...
- 行内元素与块级元素,以及区别_行内元素和块级元素有什么区别?
-
行内元素与块级元素首先,CSS规范规定,每个元素都有display属性,确定该元素的类型,每个元素都有默认的display值,分别为块级(block)、行内(inline)。块级元素:(以下列举比较常...
-
- 让“成都速度”跑得潇潇洒洒,地上地下共享轨交繁华
-
去年的两会期间,习近平总书记在参加人大会议四川代表团审议时,对治蜀兴川提出了明确要求,指明了前行方向,并带来了“祝四川人民的生活越来越安逸”的美好祝福。又是一年...
-
2025-02-21 16:00 yuyutoo
- 今年国家综合性消防救援队伍计划招录消防员15000名
-
记者24日从应急管理部获悉,国家综合性消防救援队伍2023年消防员招录工作已正式启动。今年共计划招录消防员15000名,其中高校应届毕业生5000名、退役士兵5000名、社会青年5000名。本次招录的...
- 一起盘点最新 Chrome v133 的5大主流特性 ?
-
1.CSS的高级attr()方法CSSattr()函数是CSSLevel5中用于检索DOM元素的属性值并将其用于CSS属性值,类似于var()函数替换自定义属性值的方式。...
- 竞走团体世锦赛5月太仓举行 世界冠军杨家玉担任形象大使
-
style="text-align:center;"data-mce-style="text-align:...
- 学物理能做什么?_学物理能做什么 卢昌海
-
作者:曹则贤中国科学院物理研究所原标题:《物理学:ASourceofPowerforMan》在2006年中央电视台《对话》栏目的某期节目中,主持人问过我一个的问题:“学物理的人,如果日后不...
-
- 你不知道的关于这只眯眼兔的6个小秘密
-
在你们忙着给熊本君做表情包的时候,要知道,最先在网络上引起轰动的可是这只脸上只有两条缝的兔子——兔斯基。今年,它更是迎来了自己的10岁生日。①关于德艺双馨“老艺...
-
2025-02-21 16:00 yuyutoo
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- mybatis plus (70)
- scheduledtask (71)
- css滚动条 (60)
- java学生成绩管理系统 (59)
- 结构体数组 (69)
- databasemetadata (64)
- javastatic (68)
- jsp实用教程 (53)
- fontawesome (57)
- widget开发 (57)
- vb net教程 (62)
- hibernate 教程 (63)
- case语句 (57)
- svn连接 (74)
- directoryindex (69)
- session timeout (58)
- textbox换行 (67)
- extension_dir (64)
- linearlayout (58)
- vba高级教程 (75)
- iframe用法 (58)
- sqlparameter (59)
- trim函数 (59)
- flex布局 (63)
- contextloaderlistener (56)