博客再再开张

大概在两年前,我写了一篇《博客再开张》的文章,记录了我的博客迁移之旅。 最近,我的博客再次迁移。 迁移到了github,使用hugo + papermod 强力驱动☺️ 为什么要迁移 说到底,就是维护成本 之前的维护成本为什么高 1,服务器 需要自己购买服务器,自运维,运维对象包括服务器续费,web服务维护(运行在docker中) 2,数据 博客数据需要定期备份, 写脚本定时dump下来,推送到github中存储起来 3,备案 之前有个备案站点,每年需要重新审核一次,而且我不太喜欢备案,现在已将备案信息删除,域名和服务器不再具有备案信息。 4,证书 免费证书每3个月需要维护一次,自动续期的话需要单独跑个进程。使用cloudflare服务的话,国内响应速度太慢。 所以,维护成本相对还是比较高的,加上平时业余时间不是很多,时间长了人就乏了,迫切需要维护成本低的博客方案。 为什么要写博客 有一天,我看到了别人的博客,看到他们写的文字,记录自己的想记录的东西。 我知道,那是我一直想做的事情,我必须继续做下去。 不写博客,当我回过头来,我会失落,会后悔,就这么感性的原因。 博客能记录自己文字,让自己的思绪有个干净的地方停留,以后能够回顾自己的心路历程。如果能给别人带来一些思考或者帮助,那也是极好的。 迁移之后维护成本为什么低 1,serverless 都是静态文件,no backend, no fucking logic. 2, continus deploy I just need write a fucking markdown and git push. 为什么一开始没有使用这个方案 一开始是在CSDN上写,写了110多篇,记录自己日常学习时候的小收获,包括刷的算法题,解决过的case等,那是最初纯粹的初衷。 然后,想自己徒手写博客,锻炼自己的工程能力,项目经验等,于是自己徒手撸了一个简单博客,前后端都自己写。 然后,感觉功能比较弱,想要一个类似wordpress的博客,于是选了typecho建立博客 然后,i have no much time. 想简单点,just write something. 但是又不想用CSDN这样的平台,因为感觉平台不纯粹, 我自己写的东西,被平台免费拿走去赚广告费,还因为用了他们免费的博客服务沾沾自喜,no. 于是到了现在这一步,serverless,纯静态站. 后续计划 1,博客迁移,将之前写的博客迁移到这个站点(不包括CSDN) 2,完善站点功能,评论,站点统计,可能还会加个adsence😋 朋友,你也开始写博客吧,You need it.

July 15, 2023 · 1 min · Egbert Ke

Hello World

Hello World

July 9, 2023 · 1 min · Egbert Ke

汉字在屏幕上的显示过程以及乱码的原因

一、计算机中的显示原理 要想在计算机的显示器上显示文字,首先你得写一个程序,这个程序的任务就是就是把文字的显示信息发给显卡,显示信息包括在这个屏幕上的输出位置、字的大小等等。然后显卡就知道怎么显示这个字符了。 屏幕上是如何显示文字的原理是什么呢? 屏幕上其实有很多个小灯,小到肉眼看不见,当他们不亮时,屏幕就是黑色的,当他们亮了一部分,如果那一部分刚好是个文字的形状,那么屏幕上就显示文字了。这个原理就跟军训时人摆文字显示字符一样。如下图,通过led灯的开和关显示出了123。放到显示器上,小灯会变得特变小,肉眼很难看到,当一部分红色的小灯亮了,那一部分刚好摆成123的形状,那么红色的123这三个字符就在屏幕上显示出来了。 如何让显示器得知道是那个灯亮那个灯灭,这就是显卡的作用了,操作系统会根据文字的编码,去字库中找到要显示的字符的点阵数据,点阵数据指明了哪个灯应该亮起,亮起的颜色是什么颜色。显卡会结合点阵数据和其他显示信息,进行计算(比如按照一定比例扩大等),然后发给显示器控制显示器的显示! 注意:这一部分的具体细节我不确定,但是大概的思路应该是没错的。 通过以上得知,关键点在于文字的编码,只要知道了文字的编码,就能找到字库的点阵数据。众所周知,文字的编码有很多种,而乱码的根本原因是文件保存时采用的编码和打开文件时用于解码的编码不一致,从而找到了错误的点阵数据,显示了错误的输出!。 二、从键盘输入开始理解编码的存在形式 以window系统为例,假设你刚刚打开了记事本。 1.你在键盘上按下了’a‘。 2.你的按下触发了电路,键盘扫描到你a被按下,于是键盘形成了’a’的扫描码,发送到了存在于键盘上的寄存器,同时给CPU发送了一个中断信号,告诉CPU我这有活动了! 3.CPU根据键盘的中断线路号检测到是键盘发出的中断信号,于是根据中断号计算出键盘的中断处理程序在内存中的地址,转到键盘的中断处理程序去执行。 4.键盘的中断处理程序找到键盘的驱动程序代码,转到键盘的驱动程序执行。 5.键盘的驱动程序去读取键盘上的保存扫描码的寄存器,把‘a’的扫描码读到内存中。 6.驱动程序把扫描码转换成虚拟码。为什么要转换呢,因为不同的键盘由于厂家不同,型号不同、设计不同的原因,‘a’这个按键产生的扫描码在不同的键盘上是不一样的,为了统一管理,驱动程序得把不同键盘按下的‘a’转换成统一的表示。比如把不同键盘按下的‘a’产生的扫描码统一转换成一个字节的0x41。驱动程序要进行转换,那么驱动程序得知道这是哪种类型的键盘,不然没有转换的依据,原理是键盘的相关信息比如生产厂家、键盘型号等会保存在键盘上的一些只读寄存器中,计算机通过这些只读寄存器就知道这是哪种键盘。从而就知道该键盘的扫描码对应的虚拟码。 7.驱动程序把0x41交给操作系统上自带的且在后台默默运行的的IMM进程。 8.IMM进程把0x41交给系统当前使用的的输入法编辑器。比如搜狗输入法或者百度输入法。系统上所有的输入法,都由IMM管理。 9.输入法收到了0x41,对0x41进行处理,霹雳巴拉一顿操作,首先查到0x41这个值对应的可能的文字,比如可能是‘啊’、‘阿’、‘吖‘…等。首先查询系统当前的代码页是哪一个,也就是系统默认编码,若你没有修改系统的默认编码,则查找的结果为GBK(相当于GB2312)编码的。于是通过GBK的代码页这些可能的文字的GBK编码找出来,通过操作系统从字库中寻找这些可能文字的字库数据,交给显卡,显卡把他们显示出来。 10.显卡把他们显示出来后,屏幕上显示了好多个文字让你选择,那么你通过键盘的左移右移回车等操作选中了一个字,这个键盘操作又产生扫描码,最后还是输入法接收到了你的键盘按键输入情况,然后,输入法就可以根据你的键盘输入情况确定你选中了哪个文字,假设你选中了’啊’,于是输入法把‘啊’这个字的GBK码交给操作系统,操作系统把这个GBK码放进指定内存中,这指定内存被称为输入缓冲区。 11.记事本可以扫描缓冲区有没有内容,当检测到了缓冲区有了内容后,记事本至少需要两个操作,一是把‘啊’这个文字显示到记事本的窗口里面,二是把"啊"的编码放到自己的内存空间。 12.记事本接收到的是GBK编码,这个编码保存在了记事本的内存空间,并把“啊”输出到了记事本的窗口中。这时你的输入操作已经结束了(如果你不再进行输入),接下来就是保存这个记事本的内容了,如果想要保存这个“啊”,你的应用程序就得向操作系统申请一个文件,把“啊”的编码写进文件中。如果你不作任何操作,硬盘上就会默认保存的是‘啊’的GBK编码,如果你想保存的是’啊’的其他编码,那也可以,转换一下编码格式,然后放进文件中保存。放进文件中保存,那c语言来说,有二进制方式的写和文本文件方式的写,该用什么方式呢?首先说明什么是文本文件,文本文件就是保存文本的文件,里边都是一些字符(也就是文本)的编码,解析出来后都是文字,你用utf-8格式保存的,里边就是utf-8格式的字符的编码,你用GBK格式保存的,里边就是GBK的编码,总之里边保存的是文字信息。另一个就是二进制文件,一般来说我们编程很少用到。二进制文件里边保存到不是文本,比如视频文件、图片文件、3D模型等。其实二进制文件和文本文件在文件中的保存形式都是0和1的二进制流,既然都是0和1的二进制流,为什么要区分他们呢,因为他们有点区别,比如文本文件以EOF(值为-1)作为文件结束标志,因为不管是什么编码,都没有哪个字符的编码值是-1。而二进制流就不一样了,里边完全有可能有一段字节代表着-1,因此不能以-1作为文件的结束标志,一般来说二进制文件应该是通过比较文件长度来判断结束标志的。在c语言中,我们通常是使用fwrite()和fread()函数来读写文件,那么我们并没有指明以什么编码方式来读出或写进文件啊,别忘了,两个函数会是系统调用相关的,而系统默认的编码格式就是GBK,因此这两个函数都是按GBK来进行读或取的。如果你想使用其他编码比如UNICODE,就得使用其他读写的函数了,比如fgetwc()、fwscanf();这些函数会把GBK编码转换成UNICODE编码再进行读和写。 13.记事本默认保存的编码是ANSI,ANSI也叫多字节字符集,ANSI其实不是一种编码方式,是所有使用不定长字节来表示字符的编码格式的统称,在简体中文Windows操作系统上,ANSI指的是GBK编码,在繁体中文Windows操作系统中,ANSI编码代表Big5;在日文Windows操作系统中,ANSI 编码代表 JIS 编码。当然你用可以更改记事本的保存格式。Unicode同理,Unicode是一个字符集,不是一个编码方式,在windows这边,Unicode指的是UTF-16,在其他环境下,可能指的是UTF-8或UTF-32,比如linux上指的是utf-8. | | | | | 三.缕一缕编程的过程 1.首先,现在我们简化一下VS2013这个软件,把VS2013看成是记事本(编辑器)+编译器的结合体。它只有编写文本进行保存和对文本文件进行编译的功能。如果你使用的是中文操作系统的Windowsd的VS2013编写源代码,在你编写完成后,运行之前或者按下CTRL+S,那么你的源代码就会保存起来。跟记事本的保存一样,那么它默认应该是使用GBK编码格式来保存你的代码源文件,那我不想按GBK来保存怎么办呢?可以在文件->高级配置选项里修改源代码的保存格式。 2.假设你的源代码里有一个字符"你好",在你把你的源代码保存了之后,硬盘上你的源代码文件中存在着"你好,世界!“的GBK编码:C4E3(你) BAC3(好) 。 3.你的打印文件里面有打印"你好"这个中文字符的语句,你想在屏幕上显示"你好” 4.你点击了运行按钮,首先,编译器的做的工作就是启动它的编译器对你的源代码进行编译,要进行编译,首先得解析源代码文件,要解析一个文件,得先知道它是什么编码,否则解析要出错啊,那么编译器是按什么编码格式来解析你的源文件呢,不用想就知道,那肯定是GBK编码嘛,毕竟编辑器的默认编码就是GBK的。那我要是把编辑器的编码格式换了怎么办呢,没事,编译器改成一样的不就完事了。修改的方式为项目 -> 属性 -> 配置属性 -> c/c++ -> 命令行 -> 其他选项。在其他选项里输入你所需要的编码,比如utf-8。 一般这一行是空的,我们只需把“从父级或项目默认设置继承”选上就好了。这样它就会根据你项目的编码格式主动更改相同的编码进行解析。 4.等等,你好像记得有个地方也能修改项目的编码属性?就在项目 -> 属性 -> 配置属性 -> 常规 ->字符集那,有个使用多字节字符集和使用Unicode字符集?它默认也不是GBK啊,它默认是Unicode呢。这又是什么玩意?首先,在这里,多字节字符集=ANSI=GBK,Unicode=utf-16。这玩意是这样的,它不是设置你写的代码的编码格式,但是他能控制你使用的API的版本。什么意思呢?你写的程序肯定有#include<“xxx”>的代码,#号说明这是一个预编译命令,c语言里可没有#这个操作符。预编译命令是给编译器看的,编译器检测到了预编译命令后,在链接的时候就会把#include<“xxx”>删掉,把#include<“xxx”>原本的代码复制过来放到这个地方。预编译指令还有一个较为常见的就是#ifndef。完整意思就是if not define,字面上来理解就是如果没有定义。而在vs上编程你经常#incluide<“xxx”>里边的代码里经常有和以下类似的代码: ifndef Unicode typedef MessageBox MessageBoxA #endif typedef MessageBox MessageBoxW 翻译如下: 如果没有定义 Unicode MessageBox 就是MessageBoxA 结束 MessageBox 就是 MessageBoxW...

July 20, 2022 · 1 min · Egbert Ke

分布式理论的简单理解

一个分布式系统里面,节点组成的网络本来应该是连通的。然而可能因为一些故障,使得有些节点之间不连通了,整个网络就分成了几块区域。数据就散布在了这些不连通的区域中。这就叫分区。 当你一个数据项只在一个节点中保存,那么分区出现后,和这个节点不连通的部分就访问不到这个数据了。这时分区就是无法容忍的。 提高分区容忍性的办法就是一个数据项复制到多个节点上,那么出现分区之后,这一数据项就可能分布到各个区里。容忍性就提高了。 然而,要把数据复制到多个节点,就会带来一致性的问题,就是多个节点上面的数据可能是不一致的。要保证一致,每次写操作就都要等待全部节点写成功,而这等待又会带来可用性的问题。 总的来说就是,数据存在的节点越多,分区容忍性越高,但要复制更新的数据就越多,一致性就越难保证。为了保证一致性,更新所有节点数据所需要的时间就越长,可用性就会降低。 转载自知乎

January 7, 2022 · 1 min · Egbert Ke

生命的意义

生命在于运动,及早睡早起 运动代表生命的活力和激情 早睡代表自律 早起代表积极的生活态度,精进

October 20, 2021 · 1 min · Egbert Ke