Archive

Archive for the ‘Technology’ Category

搜索引擎的内容提取

June 18th, 2009 No comments

搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。

对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。

HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式等。提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。

Read more…

Categories: Technology Tags:

蜘蛛 Web Spider

June 18th, 2009 No comments

搜索引擎一直专注于提升用户的体验度,其用户体验度则反映在三个方面:准、全、快。

用专业术语讲是:查准率、查全率和搜索速度(即搜索耗时)。其中最易达到的是搜索速度,因为对于搜索耗时在1秒以下的系统来说,访问者很难辨别其快慢了, 更何况还有网络速度的影响。因此,对搜索引擎的评价就集中在了前两者:准、全。

中文搜索引擎的“准”,需要保证搜索的前几十条结果都和搜索词十分相关,这 需由“分词技术”和“排序技术”来决定。中文搜索引擎的“全”则需保证不遗漏某些重要的结果,而且能找到最新的网页,这需要搜索引擎有一个强大的网页收集器,一般称为“网络蜘蛛”,也有叫“网页机器人”。

Read more…

Categories: Technology Tags:

你那不是搜索引擎

June 18th, 2009 No comments

有很多人认为搜索引擎就是一个简单的搜索框加提交按钮,站内搜索就是搜索引擎……对此我非常无语,但往往混沌的思绪以及拙劣的言辞,限制我没办法完成扫盲工作。遂搜集了部分材料来彻底的阐述一下:

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。

数据量达到亿、单次查询毫秒级、每日查询总数能支持千万级、数量庞大的服务器硬件和速度巨快的网络环境

Read more…

Categories: Technology Tags: , ,

PHP小游戏《你找我借钱》

June 14th, 2009 10 comments

我也是最近才开始学习PHP的,不知道又会不会半途而废。但坚持一天是一天吧。觉得吧程序比人单纯多了,对就是对,错就是错,特分明。

今天学到PHP的流程控制结构部分,讲到选择分支结构的if…else格式和if…elseif…else格式。研究了一下,写了个小程序,我给它取名叫《你找我借钱》。毕竟是我的PHP第一次,留个记录吧。

其实表单的外部结构我们可以再通过xhtml+css进一步润色,程序部分我们也可以添加更多elseif来使其表现更加丰富。程序是客观的,我们可以给它附会上各种含义,比如我这里给它取名叫《你找我借钱》。

你也可以用它和女朋友做一个《爱我有多深测试》,替换掉相应文字内容即可!在表单中输入相应数字就会生成对应情景,elseif区间越小,内容表现也就越丰富。

2011-2-9日更新:学习PHP的计划在2009年底就无疾而终了,我明白没有实践的理论学了也白学。

Categories: Technology Tags:

Cms-火车头对应kingcms采集模块下载

June 5th, 2009 No comments

CMS是Content Management System的缩写,意为“内容管理系统”。

CMS is an acronym for Content Management System, which means “content management system.”

CMS具有许多基于模板的优秀设计,可以加快网站开发的速度和减少开发的成本。

CMS has a template based on a number of excellent design, you can speed up the pace of development of the site and reduce the cost of development.

Read more…

Categories: Technology Tags:

实用谷歌查询技巧

June 4th, 2009 1 comment

查软件注册码:在谷歌搜索框直接输入*** 94fbr或者*** FP876即可,***替换成你要查询的软件名称。

手机号码的归属地查询:Google中直接输入手机号码即可查询。

搜索的关键字包含在URL链接中:inurl语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。

Read more…

Categories: Technology Tags:

Ewebeditor漏洞

June 4th, 2009 No comments

inurl:ewebeditor
现在eWebSoft在线编辑器用户越来越多,危害就越来越大~

首先介绍编辑器的一些默认特征:
默认登陆admin_login.asp
默认数据库db/ewebeditor.mdb
默认帐号admin 密码admin或admin888

搜索关键字:"inurl:ewebeditor" 关键字十分重要
有人搜索"eWebEditor – eWebSoft在线编辑器"
根本搜索不到几个~

baidu.google搜索inurl:ewebeditor

几万的站起码有几千个是具有默认特征的~那么试一下默认后台
http://www.xxx.com.cn/admin/ewebeditor/admin_login.asp
试默认帐号密码登陆。

Read more…

Categories: Technology Tags: