Markdown blog example(md格式博客写法例子)

原文: https://github.com/guodongxiaren/README
md原文件内容: md_src
网上有一些在线的md编辑工具,比如 mdeditor
可以将md_src的内容复制到工具上,对比查看

Read more »

Install and config Hexo (simple)

The process of my Hexo with github installation!
OS: Centos 7 64bit in Linode vps

Read more »

centos libc.6.so 链接出错修复

服务器用的是centos 5.8,出现过几次libc.6.so的基础库在用yum安装软件时候链接被替换了,然后所有系统命令都不能使用了。提示如下图:

Linux许多命令都是依赖这个C语言的动态链接库,在centos里,这是一个软链,被替换后,被替换到新版本的动态库时,会出现这个问题。我这里是从版本2.5被换成了2.12(截图时已修复)。

Read more »

简单的Python抓取框架

写了比较久的爬虫了,前段时间将一些比较常用的python抓取模块整理成库, 通用配置控制抓取。代码并不多,但对于快速布一些简单的爬虫还是挺方便的。(git地址)

下图是一整体的一个流程:

框架是以mysql为存储系统建立的, 主要模块有dispatcher(任务调度模块)crawler(抓取模块)picker(提取模块)updater(更新模块,暂无)。另外还有辅助的网络模块net,数据库模块sqld, 辅助工作模块tools。 抓取跟提取的配置是按域名分配,每个域名有一个配置文件,配置着页面的信息,url识别正则,提取xpath配置等,主配置文件是/test/config.py,是一些模块的基本配置。而域名配置在/test/etc/webset里,这个webset被当成一个python包,增加的页面配置要添加到init.py中。

spiderlib里的模块都只是代码库,并不能直接执行,可执行程序在test里,可以直接复制出来修改。

下面详细地记录下模块功能。

Read more »

抓取总结与优化

也算是写了比较久的爬虫了,一直没有时间总结一下,前不久写了一个比较通用的抓取框架,可以比较方便地配置抓取。今天写一下相关的一些简单的优化的点。

Read more »

mongodb知识点总结

还是为了那个搜索的自动化框架,在学习mongodb,记一下mongo的一些主要知识点。

##数据结构
1,键值队是有序的,有区分大小写的
2,集合是无模式的,可以存合法的任意类型的键值队文档
5,mongodb的数据很灵活,值可以是文档和数组
6,_id自动生成,但不是递增

1
2
0,1,2,3|4,5,6|7,8|9,10,11
时间戳 |机器 |pid|计数器

7,插入的数据转成bson,只验证是否有_id和文档数据有没有超过4mb就直接存入,这样允许插入无效数据,不过数据更安全,不执行代码,避免了注入的问题。
9,以数组为值的数据,有点像redis,可以pop和push(当成队列用)
25,固定集合,环形结构,会删除较早的数据。(用来存日志或缓存少量文档)
26,GridFS,mongodb中存大二进制的机制

Read more »

mongodb与mysql对比

最近与同事在整一个通用的搜索框架,基于coreseek。主要结构是通过接口导入数据到mongodb,在后台配置搜索参数,由服务程序自动建立搜索服务。这里面用到了mongodb是之前比较少接触的,一直用的都是mysql,网上找了一些资料,对比下两者的区别。

Read more »

mysql数据库主从同步修复

维护一个主从读写分离的mysql库,一台运行主库,一台运行从库。遇到了几次问题,做下记录。

Read more »