以往博客都是直接将文件粘贴到文件夹,但是其不是很方便,并且也不方便转移(到其他平台上)。最后综合几个选择,选择自建 MinIO 当作图床,同时也实验一下 MinIO 的文件压缩功能。
目前的Fastgpt,Dify(或者其他同类产品),目前知识库召回的本质上还是分片块的文本,召回的还是文本信息。不过,我们可以进行一些预处理,提升其召回精度的同时,使其也能同时召回将图片与公式表格等内容。
巨硬最近新出了个 graphrag ,号称其能提取有意义的结构化数据,不过遗憾的是默认情况下其只能读取txt或者csv数据。这次就让我们用我搓的外部库pdfdeal
将PDF转换为带格式化的txt,再结合更便宜的deepseek进行构建。
使用gpt_academic + searxng搜索,进行网页或者学术论文的快速检索。实验下来使用超级便宜的deepseek-chat
也能有相当好的效果。不过由于要处理的文本量偏多,原版的llama3
处理这种任务就有点力不从心了,可能需要使用上下文更大的本地模型才能有更好的效果。
UV,作为新一代的,性能极佳的Python的包安装器和解析器,其网上中文教程却寥寥无几...
由于其目前并不支持自行下载多版本的Python,这篇文章记录下我借用conda的多版本Python支持,与uv结合,使得能实际使用中完全替代conda。
也算半个UV使用教程了把(大概)。
记录下运用Dify + xinference + ollama打造带重排序(Rerank)步骤的知识库问答,更好的是----即使在我的3060M上其也能完全本地运行并有不错的效果!3060M本地运行llama3-9B
的生成速度参照前文。
Ollama + llama3-8B基本可以满足基本的翻译工作了,并且其也能 流畅 地在我的残血3060M上运行。当然,正如标题所言,这个流畅的前提是不在Windows下运行。
其实标题也不怎么准确,应当是说,主要的笔记现在都是使用Obsidian写,但是部分需要手写的笔记依然是在使用OneNote编写。毕竟Obsidian并没有官方的手写支持。
而Self-hosted LiveSync配置的难点在于HTTPS(以及域名),没有HTTPS的话移动设备可能不能同步。不过幸运的是,使用(免费版的)tailscale,不需要域名以及公网IP即可完成这一切!
这么多年的(插件)发展之后,实际上在VSCode中配置C/C++语言已经不是一件很困难的事情了,一般而言,所需要做的仅仅是安装C/C++
插件,理论上其会自动检测编译器并生成响应的配置文件。
当然这只是理论,一旦涉及到跨平台同步(例如自带的设置同步,或者共用一个文件夹)就麻烦起来了,因为Linux和Windows的设置并不通用。此外微软开发的C/C++
插件还存在一些问题,例如只会显示错误(Error)不会显示警告(Warning)等等,不过好在VSCode的众多插件提供了解决方案,其即能跨平台同步设置又补足了之前的缺点,同时在Windows和Linux下使用起来简单快捷。
众所周知,在windows上配置一些软件(例如GCC,openGL,make...)是相当困难繁琐的,不过好在也不是没有解决方法。比如MSYS2,它提供了一个类Unix的构建环境,可以像在linux上一样安装软件包,而不需要你一个一个手动设置环境变量等等工作(不过是windows平台的)。
这次就使用MSYS2进行配置GCC/make/openGL以及flex/bison的开发环境。相比手动安装每一个工具,这种方法尤为简便快捷。