源码排行 设为首页 收藏本站 
 源码首页 >> .NET源码 >> 整站程序 >> 新乙王垂直搜索引擎门户系统

新乙王垂直搜索引擎门户系统

  • 源码类别:.NET源码 - 整站程序
    授权语言:共享软件 - 简体中文
    应用平台:.NET环境 - access
    发布时间:2011/9/19 21:43:43
    更新时间:2011/9/19 21:43:43
    源码大小:6.49 MB
    完 整 性:100%
    发布会员:管理员
    联系作者:
    相关图片:暂无预览图片
简介

  • *********************************************
    *
    * 新乙王垂直搜索引擎门户系统(基于lucence+mysql+asp.net) V2.0
    * 作者:阮丁远
    * 商业授权购买或全部源代码购买或功能定制联系qq:1426875943(验证消息都填:newyw),email:1426875943@qq.com
    * 官方演示站:http://www.fvdou.com,官方技术站:www.yiwangcms.com
    ********************************************




    1.版权所有 任何商业目的需要购买商业版方可正式使用,否则后果自负

    2.本垂直搜索引擎系统需要独立服务器支持,也可以用你本地电脑做服务器来调试,基于lucence+mysql+asp.net,
    支持数据索引,中文分词,模糊查询,爬虫采集,精确采集规则模式和模糊采集规则模式相混合(模糊采集不用为每个站定义采集规则,只定义一个总的)

    目录结构:


    网站文件--上传这个到服务器
    |
    |----spider_bin 这里为爬虫系统目录
    |----ShangPu_zhida_data商家直达栏目数据
    |----Main_set_dats 精确采集规则和模糊采集规则的采集规则文件,每个栏目建立一个目录
    |----Lanmu_Index_templete 栏目首页模板文件目录




    3.使用方法步骤:
    a.上传文件到服务器后,点 网站文件--上传这个到服务器 目录里的 spider_bin 目录里的
    install_mysql_server_win.exe后再点击 重新安装fvdou_mysql系统服务 按钮,来开启mysql服务
    ,然后点 fvdou_spider.exe 开启爬虫端,点开始采集按钮 开始采集,
    b.把 网站文件--上传这个到服务器 目录作为网站根目录wwwroot,如未上传到网站根目录wwwroot,
    请先上传,然后服务器安装好iis+.net framework2.0后,把iis主目录指向此根目录,即可用
    127.0.0.1或者你的**打开这个系统的主页网页


    4.采集规则格式说明:

    网站文件--上传这个到服务器/Main_set_dats/ 为 精确采集规则和模糊采集规则的采集规则文件的目录,每个栏目建立一个子目录

    如 lanmu2_打折搜索 子目录下的lanmu_sets.dat为采集规则主定义文件:




    ----------------------------------------------------------------------------

    [$lanmu_name]
    打折搜索
    [$lanmu_sort_num]
    2
    [$lanmu_url_host]
    /index_{$lanmu_id}.aspx
    [$lanmu_index_template_file]
    dazhe.html
    [$lanmu_id]
    dazhe_ss
    [$mohu_init_search_keyword_from_other_engine]
    打折网
    [$mohu_web_root_title_panduan_funname]
    is_dz_web_title
    [$mohu_web_root_title_panduan_code]


    public bool is_dz_web_title(string inn){

    if(inn.IndexOf("搜索")!=-1){

    //return false;
    }


    if(inn.IndexOf("下载")!=-1){

    return false;
    }

    if(inn.IndexOf("打折网")!=-1||inn.IndexOf("打折信息网")!=-1){

    return true;
    }


    return false;


    }



    [$page_goto_orders]



    [$ext_fields_classpage]


    [$ext_fields_infopage]
    rem 是否为分类字段里的0 or danwei如果info页 存在 招聘单位匹配则读info页,否则读classpage 的danwei字段
    rem 字段||是否为分类字段||字段采集规则英文名标示||是否储存||是否执行分词||字段是否被高级搜索||搜索类型||是否显示在左侧索引菜单||左侧菜单显示类型||固定类型,如price,addtime||采集时是否必填||Lucence搜索类型||左侧索引菜单显示次序||little_select_min_word_num
    商品名||0 or danwei ||spname ||1 ||0 ||1 ||little_select||1 ||links_list ||none ||0 ||PrefixQuery ||1 ||8
    折扣 ||0 ||zhekou ||1 ||0 ||1 ||little_select||1 ||links_list ||none ||1 ||PrefixQuery ||1 ||8
    [$ext_fields_mohu_ziduan_name_enmu]
    rem 字段采集规则英文名标示 || 可能的所有字段名列表,正则 ||可能的值的正则,0表示匹配所有
    spname || (.{0,3})(商品名|商品|产品名|打折产品|打折商品)(.{0,3}) || 0
    zhekou || (.{0,3})(折扣)(.{0,3}) || 0

    [$code_for_ext_fields_data_enmu_guilei_to_small]



    ----------------------------------------------------------------------------

    其中:[$lanmu_name]下指定栏目名
    [$lanmu_url_host]下指定栏目路径
    [$lanmu_index_template_file]下指定栏目模板文件,在Lanmu_Index_templete 栏目首页模板文件目录
    [$lanmu_id]为栏目id,必须不能重复
    [$mohu_init_search_keyword_from_other_engine]为模糊采集规则在初始化采集来源数据时 在其他搜索引擎采集搜索时的 关键字
    [$mohu_web_root_title_panduan_funname]指定在[$mohu_web_root_title_panduan_code]里代码的函数名,不能重复
    [$mohu_web_root_title_panduan_code]为首页标题是否为目标站类型的判断函数
    [$ext_fields_infopage]为所有的采集字段的定义
    [$ext_fields_mohu_ziduan_name_enmu]为模糊采集规则,如spname || (.{0,3})(商品名|商品|产品名|打折产品|打折商品)(.{0,3}) || 0
    则表示提取 商品名或商品或产品名或打折产品 右边的最**的文字作为spname字段的采集数据


    --

    lanmu1_招聘搜索/webs_guize 下面的文件为精确采集规则文件定义,一个目标站一个文件

    其中 [$page_url_regex] 为0表示不过滤url,

    [$caiji_info_fields_regex]里的 正则/位置规则详细 里的如[fd_datatoget]里[fd_datatoget]表示目标采集数据部分


    zpdw |+| regex |+|招聘单位:\s*[fd_datatoget]
    zwmc |+| regex |+|职位名称: [fd_datatoget]工作类型 |+|乐清公司
    yuexin |+| regex |+|工资待遇:
    [fd_datatoget] 岗位描述|+|乐清公司
    didian |+| regex |+|工作地点:
    [fd_datatoget]招聘人数|+|乐清公司


    这些就是精确采集规则的具体采集规则定义,zpdw等和lanmu_sets.dat里的[$ext_fields_infopage]里的字段采集规则英文名标示 对应




    5.商业授权购买或全部源代码购买或功能定制联系qq:1426875943(验证消息都填:newyw),email:1426875943@qq.com
    6. 官方演示站:http://www.fvdou.com,官方技术站:www.yiwangcms.com
     
下载地址   (
相关源码
    ·暂时还没有相关源码
评论(查看更多评论
    ·暂时还没有评论
  • 发表评论:

  • 验证码 验证码,看不清楚?请点击刷新验证码
联系我们
始于2002.09.22 Copyright downcode.com
分享开源乐趣