智•火花 Z•Spark
好网搜索与数据挖掘开源工程 – 智•火花 (Z•Spark)
工程介绍:
智•火花 (Z•Spark) 是好网搜索与数据挖掘开源工程的名称。“智•火花”是其中文名称。“Z•Spark” 是其英文名称。这个工程是一个开源工程,是可扩展的中文Web网页的搜索与数据挖掘工程。是一个中文垂直搜索与数据挖掘的开源工程。
工程目标:
最终希望通过Z•Spark完成下面的目标:
1.Z•Spark可以轻松的在单服务器上,在中小型数据域上建立智能索引和垂直搜索引擎。
2.Z•Spark支持可扩展性,支持分布式数据处理,可以轻松的把一台服务器加入到Z•Spark的集群中,Z•Spark可以在大型海量数据上一样高速高效的工作,建立智能索引和垂直搜索引擎。
工程背景信息:
Z•Spark 完全基于开源项目。其实是对现在这个领域中开源项目的一次中文支持的整合。Z•Spark依托于下面的开源工程:
1. Lucene http://lucene.apache.org/ 索引与搜索开源工程。
2. Nutch http://lucene.apache.org/nutch/ 基于Lucene的垂直搜索引擎开源工程。
3. Hadoop http://hadoop.apache.org/core/ 类似与Google File System的分布式文件与数据处理开源工程。
4. Heritrix http://crawler.archive.org/ 网页抓取开源工程。
5. NutchWAX http://archive-access.sourceforge.net/ 使Nutch可以在ARC文件上建立索引。
6. Paoding http://code.google.com/p/paoding/ 中文分词器。
7. Compass http://www.compass-project.org/ 一个搜索引擎框架。
Z•Spark 希望基于上面的这些开源工程,搭建一个支持中文的垂直搜索引擎。
Z•Spark 成员如何沟通
Z•Spark 现在主要通过成员的邮件地址进行沟通,当Z•Spark基本上可推出0.1版本的时候会,会去sourceforge.net申请开源工程,现在只在Google申请了Z•Spark的讨论区http://groups.google.com/group/zspark。
Z•Spark “Hello World”
你可以在下面的地址Download到Z•Spark所需要的所有背景工程,同时其中大部分工程中都加入了一个build.bat Windows下的build批处理。你可以在Windows平台下进行对应你JRE的Build。运行一下这些背景工程。
加入Z•Spark
如果你热爱编程。每天早上当手指触摸到键盘的时候,当屏幕进入编程IDE环境的时候,如果你感觉你在告诉你说 Yeah. It’s my world, it’s my show time. 那么Z•Spark 将会是 It’s our world, we build our platform to show ourselves.
>> 如果你对搜索引擎技术感兴趣,想要对搜索引擎进行更加深入的学习和研究,平时花费很多的时间在网上学习知识和获取经验。Z•Spark 很适合你。
>> 如果你熟悉 OOP 面向对象程序设计,熟悉 Java 语言 ,Eclipse 等IDE开发环境,Z•Spark 很适合你。
>> 如果你符合上面的条件,Z•Spark 欢迎你的加入。请下载并填写下面的表格发送到 zspark@xdnice.com
- 温馨提示:若无好网管理员特别声明,帖子内容仅为网友观点,不代表好网立场,请网友自辨其内容真实与否!



此主题相关图片如下:zspark.gif





