Filed under: 电影电视
Filed under: 电影电视
“登基十几天后,突厥颉利可汗想要趁唐王朝更替之机入侵,李世民派尉迟敬德大败突厥。几天后,不死心的颉利又率军进逼,直抵渭水便桥。李世民得知消息怒不可遏,在唐军出发之前便先行带着房玄龄等六人骑马先行抵达渭河,隔河与颉利相会并对他加以斥责。不久唐军陆续抵达,颉利可汗既见李世民凛然无惧,又见唐军严整,不禁大惧请和。第二天,李世民再次亲抵便桥,与颉利可汗设盟,突厥退兵。返回的颉利可汗越想越是害怕,立刻又派人送来三千骏马、万头肥羊示好。李世民拒绝接受突厥的礼物,下令他必须立即归还历年掳掠的大唐子民。”
Filed under: 电影电视
Filed under: 八卦杂谈
Filed under: 八卦杂谈
Filed under: 电影电视
这个片的编导似乎想说明,夫差好歹算是一个有情有义的大丈夫,这比称王称霸重要,现在电视的访谈节目上衣冠楚楚的企业家都喜欢说“要做事,先做人”,貌似主旋律都一样,不过且慢,人家叫你学会做人,没说让你学会做好人啊:) 做事都要有个基本道德,企业的基本道德就是赚钱,国家的基本道德就是强大,所以就有必要刺探对手的情报,攫取别人的信息,企业尚有法律约束,国家之间无所不用其极,输了就是输了,有情有义的loser也是loser。
Filed under: 山河好大
上周六去郊区滑雪,滑雪场在平谷区,虽然还是北京地界,但还要借道河北才到。
北京今年就没怎么下雪,雪场的雪都是人造的,和真雪没什么差异。据说“暖冬”气候重创了欧洲阿尔卑斯山地区的旅游业,虽然他们也有造雪机,但是欧洲人讲究,不是真雪还不乐意去,所以滑雪场门可罗雀,但是在中国就是另外一番景象。到雪场就有一个感受——中国人真是多啊!虽然拥挤得很显得不方便,但是好歹有这么多中国人出来休闲,说明至少文明进步了一些。
这是我第一次滑雪,这运动上手还是比较快,平地滑没什么问题,兜了几圈就想上初级道玩把带坡度的。上初级道排队等托纤就要半天,然后抓着托纤滑好几分钟才到坡顶。上面不少人跃跃欲试又扭扭捏捏怕摔着,叨叨叨在那里光说不练,我瞅个空隙,直接出发了。看别人滑感觉很容易,但是自己一上道,就被速度吓了一跳,一出发就收不住,越来越快,要停下来只好侧过来翻倒,就这样摔了两次,也滑了一半的路程,差不多适应了速度,然后一气滑到坡底,虽然速度快,但是咬牙坚持住不要怕撞着人,也就没问题了:) 第二次又摔了一次,如果有第三次,按照等差数列应该就不会摔了,不过排队等托纤实在太无聊,还是在平地上玩了。
Filed under: 八卦杂谈
Filed under: 技术体会
海底光缆被台湾地震绷断之后,工作受的影响很小,公司有专线连到国外出口的proxy,访问国外网站没问题,但是通过这个proxy访问国内网站稍慢,IT提供了北京出口的proxy,通过这个代理访问国内网站就好了。
前几天需要Crawl很多中文、日文、韩文的网页进行统计分析,用perl写的脚本,以几个CJK门户网站为种子开始扒。一开始使用外国出口的proxy,拿日韩的网页嗖嗖的,但是啃国内的网页相对就很慢,要是换成国内proxy那下日韩网页又不行了。一个简单的解决办法,对进入waiting list的URI,不光记录深度(depth)和序列号(Sequence ID),还记录referer encoding,从waiting list里面拿出一个待crawl的URI记录的时候,根据referer encoding推测出referer的语言,GB2312对应中文简体,EUC-JP和SHIFT-JIS对应日语,EUC-KR对应韩语,BIG-5对应中国台湾繁体,但是似乎台湾网站用什么代理访问都慢,而且语言使用习惯和简体中文没有什么区别,所以不作特殊考虑。如果referer是某种语言,那么它所包含的link也很有可能是这种语言,而且如果是中文网页,很有可能它是在中国大陆,就是用北京出口的代理,其余的用国外代理。一个特殊情况时,如果referer是UTF-8 encoding,理论也可以推导出语言,但是我Crawl这些网页目的就是为了实现这种推导方法,鸡和蛋的关系:) 似乎中国特色的网站还是普遍使用GB2312及其兼容编码,所以referer是UTF-8的情况,还是用国外代理。实验了一晚上,效果还真不错。
Filed under: 技术体会
用Perl这么一整子,今天要夸一夸这头骆驼。要获得一个hash中所有value,不要重复,比如有
%hash = qw (gb2312 CN big5 TW euc-jp JP euc-kr KR shift-jis JP);
想要获得一个list包含CN,JP,KR,可以用List Module,不过ActivePerl 5.8.6缺省没有,还是自己动手,丰衣足食,两行就搞定了
my %count; @list = grep { ! $count{$_}++ } values %hash;
用values获得所有value的list,但是这是包含重复值的,然后用grep函数筛选,第二个参数是一个block,$_是后面value %hash中每个元素的alias,用一个hash表示是否曾经有重复value。