Big Bug Ban

兴趣 创新 践行

python版网页抓取器railgun

 

实在受困于主机资源,跑个java几百M的内存就去了。

所以用python重新写了一份railgun。

比java版的更简洁,去掉了一些用不上的部分。包括抓取后的全文索引和数据库mapping部分。

现在它只是一个简单的抓取框架了,一个python的简单抓取网页的工具。

可以让用python抓取网页更加方便,轻松+愉快。

使用方式详见里面的有个现有所有功能的demo

项目主页:
https://github.com/princehaku/pyrailgun

下载地址:
https://pypi.python.org/packages/source/P/PyRailgun/

也可以从pipi安装
https://pypi.python.org[......]

继续阅读

Written by princehaku

二月 28th, 2013 at 12:32 上午

136 views

Posted in python

Tagged with

with 4 comments

安全的rm

 

一个不小心rm掉文件了吧?

后悔莫及了吧!

把这段代码加入你的home目录的.bashrc或者.zshrc就可以了

  1. ### by 3haku.net
  2. function saferm() {
  3.     ops_array=($*)
  4.     if [[ -z $1 ]] ;then
  5.         echo 'Missing Args'
  6.         return
  7.     fi
  8.     J=0
  9.     offset=0
  10.     # for zsh
  11.     if [[ -z ${ops_array[0]} ]] ; then
  12.         offset=1
  13.     fi
  14.     while [[ $J -lt $# ]] ;[......]

继续阅读

Written by princehaku

二月 1st, 2013 at 12:47 上午

128 views

Posted in linux

Tagged with

with 3 comments

复制百度文库内容chrome插件

 

百度也太恶心了,又把它自己的文库权重提高了。

进去又是用flash来加载的,没法复制,文档下载又要积分。

于是做了一个插件,作用是让百度文库内的内容可以直接进行复制粘贴。

用之前效果

用了插件后效果如下。

不过带来两个问题,一个是排版没了。二个是下载按钮不能点击了。

当然其实不用插件也可以,把wenku.baidu.com该成wk.baidu.com即可

聊胜于无,呵呵,原理是修改request的referer。

源码 https://github.com/princehaku/wenkupaster

下载 wenkupaster (514)

 

Written by princehaku

八月 7th, 2012 at 11:17 下午

649 views

Posted in webbuild

Tagged with

with 5 comments

MVC in php -- 控制器(Controller)

 

控制器,有的地方又称之为Action。

它是MVC中的C,控制视图展现

它会担负很多任务。要接受请求,要选择M处理,最后选择V来显示。
 
一般在php中大多数情况下他都作为业务的处理层了。
 
比如对传入参数进行处理,对显示元素进行组装。
 
它的实现一般也两类
 
通过对象的映射或者是通过文件包含的形式
 
最简单当然就是通过文件包含的形式。
 
比如访问index.php/aa/bb/cc
 
可以让程序加载aa目录下的bb文件
 
然后之后的作为参数注入,这个过程在路由模块中实现
 
另外的一种就是通过类的方式
 
一般说来以类方式实现的控制[......]

继续阅读

Written by princehaku

八月 3rd, 2012 at 6:29 下午

527 views

Posted in php

Tagged with

with one comment

pafetion1.5版本发布

 

pafetion从2010年开始到现在快两年了。

上次1.4发布也是半年前了,居然也一直能用,稳定性由于移动的问题还算一般。

但是上上周开始有很多同学反馈不能发送消息了。

周末看了下,发现登陆的验证码现在会默认出现了。

没法跳过,所以这样的接口调用方式也就失败了。

然后最近按照http://blog.quanhz.com/的建议,跳过了登陆验证码。

然后给发送他人也加上了csrfToken,暂时又能用了。

调用方式都没有变化,参见【1.4版本】

下载地址

pafetion1.5 (541)

 2012年8月2号  不能使用

Written by princehaku

七月 26th, 2012 at 9:56 上午

1,180 views

Posted in php

Tagged with

with 20 comments

MVC in php -- 路由(Router)

 

前面提到了控制器(C)和视图(V)

依据我们前面介绍的方式,主入口是index.php

不是通过对物理文件的映射来访问,而通过用户输入的URL来实现访问,依据用户输入的url指定到对应的控制器上。

这个部分就叫路由器(Router),它的存在目的就是实现单一入口

一个超级简陋的的url分发器如下

include $ROOT . "/action/" . $_GET['action'] . ".inc.php";

没错~ 这一句话也可以看做是一个router。它实现了单一入口

但是它存在什么问题呢?

第一,它不安全

如果我传入index.php?action=../../../../../../home/bzw/1

我的1.php将被[......]

继续阅读

Written by princehaku

七月 4th, 2012 at 11:12 下午

338 views

Posted in php

Tagged with

with 3 comments

MVC in php -- 框架的成型

 

一个框架是怎么成型的呢?为什么又要用MVC呢?

传统的php三层架构大致是页面显示,业务逻辑,数据库。

image

php联通后端数据源(数据库或者其他)然后经过业务逻辑渲染成html给用户(浏览器)

这一做法无可厚非,也是传统CRUD的核心,尽可能将他们拆开,优化,层次分离,便是一个框架需要做到的事情。

还拆?对

最最开始的时候,很多刚入门的程序员都比较钟爱传统的PHP嵌入式开发。

比如

<html>
<head>
<title>My Page</title>
</head>
<body>
Hello, <?php echo "Michael";?>
&[......]

继续阅读

Written by princehaku

六月 27th, 2012 at 8:41 下午

223 views

Posted in php

Tagged with

without comments

MVC in php -- why framework?

 

长久以来,编写php程序最大的一个问题就是php太灵活了。

没有类约束,可以随意引用脚本文件,允许全局变量等等。

直接的结果就是对于相同的功能每个人都可以有一套自己的实现方法。

对语言本身来说或许不是什么大事,但是对于一个项目来说就比较致命了。

编程就像写小说,每个人都会忠于自己的情节,当项目逐渐庞大,各种代码杂乱一通,后续的重构已经不能解决问题的时候,项目本身的维护成本将越来越高。

如何降低一个项目的维护成本呢,一般说来有两种方式解决这个问题。

其一是通过软件工程中的方法,以管理学的思维控制项目质量,比如codereview,svn,利用外部控制软件质量。

其二是通过对现有软件进行改进,包括语法,业务逻辑,效率优化,比如从以前的cgi到php,提升[......]

继续阅读

Written by princehaku

六月 27th, 2012 at 8:30 下午

119 views

Posted in php

Tagged with

without comments

小草的成长

 

4月26号上午

4月26号下午

长了很多啊!

然后是昨天的

Written by princehaku

五月 16th, 2012 at 5:11 下午

44 views

Posted in things goes by

without comments

wordpress插件html5player

 

自己做的小插件.用于wordpress中插入音频或者视频

已经和wp自带的那个添加媒体进行了高度融合

当你点插入文章的时候,如果是音频或者视频会自动用html5标签进行标记

效果如下

http://3haku.net/2012/05/14/%E6%BA%80%E5%A4%A9.html

下载地址

html5player_1.0 (454)

 

Written by princehaku

五月 15th, 2012 at 10:17 上午

52 views

Posted in php

Tagged with ,

without comments

Pages: 1 2 3 4 5 6 7 8 9 10 ... 28 29 30 Next