某某移动企业搜索引擎项目技术方案内容摘要:

某某移动 搜索引擎项目技术方案 11 逻辑表达式 5 100 关键词检索 3 逻辑表达式 15 *关键词检索:指非结构化数据的全文检索 **逻辑表达式:指非结构化数据和结构化数据的联合检索 其他参数 1) 每秒支持 100 个查询 2) 网页索引 更新时间需要达到每 8 小时更新 1 次 3) 数据库索引更新时间需要每 4 个小时更新 1 次; 3. 其他要求 开发包及帮助文档要求:搜索引擎供应商所提供的二次开发包及文档(要求至少包含中文),要求接口定义符合常规、说明文档、接口文档、例子文档完整清晰。 三、 需求分析 根据上述的建设需求,我们分析认为 某某移动 搜索引擎项目主要的建设内容和关键问题包括: 1) 搜索引擎系统必须是跨平台设计,支持各种主流操作系统、各种主流应用服务器和主流 Web 服务器、各主流关系数据库;支持主流的开发平台: C/C++应用开发、 COM和 .Net 应用开发、 java 应 用开发。 2) 实现对多种信息源的接入和信息采集:本项目要求搜索引擎能够接入多种信息源,包括关系型数据库、文件系统、 Web 服务器等等。 搜索引擎要能够提供各种方便易用的系统接入工具 /模块,自动化或半自动化地批量处理各数据源中的信息。 3) 实现多种类型信息对象处理:要求搜索引擎不仅能够接入各类信息源,而且要能够对信息源中的各类结构化信息和非结构化信息进行识别、分析,抽取文本内容,进行过滤、排重、转换、分类等加工处理,并能够合理存储到搜索引擎的存储系统中。 需要处理的对象涉及到关系数据库中的关系型数据、 XML 类半结构化数据、 Office 某某移动 搜索引擎项目技术方案 12 类非结构化数据等等。 4) 实现对信息的全面索引和检索功能:要求搜索引擎能够从信息对象中抽取出正文及多个可描述对象的文本域,运用分词技术对文本进行切分,运用有效的索引策略对信息建立索引,以便建立高效、准确的信息检索服务。 5) 实现对数据的管理和访问控制:搜索引擎要能够对后台存储的数据进行有效的管理,提供管理入口和管理工具,并且能够结合统一用户认证系统在应用层控制用户对搜索引擎后台数据的访问与获取。 系统还需要提供访问统计和审计功能,以便有效掌握搜索引擎的运行和使用情况。 6) 实现全方位的信息搜索服务:为用户提供 全面的信息检索途径,可根据多种搜索域对信息进行检索,能够支持多语言以及关键词的逻辑组合检索,并通过人性化的、合理的排序机制和表现逻辑来有效地组织和提供搜索结果。 7) 提供搜索引擎的健壮架构:包括当前搜索引擎系统的框架、软硬件架构、系统的扩展机制、双机热备冗余方案等。 8) 提供搜索引擎安全性保障机制:包括数据、应用及用户信息的安全性。 9) 提供丰富的搜索引擎接口:搜索引擎要能提供各类接口,包括管理接口、应用接口、用户接口,便于对搜索引擎所收集的信息进行进一步的分析、输出、加工和利用。 10) 提供高性能的搜索服务:系统要求支持海 量数据量的搜索能力及较高的并发响应速度。 四、 设计原则 本项目要求建设的搜索引擎系统应采用先进的数学模型、智能化的检索方式,设计目标在于建立一个安全、稳定、准确、及时的搜索系统。 整个系统在总体设计上遵循开放、可扩展、经济、安全的原则,从而使整个系统结构合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期发展的需要。 1. 标准化 系统设计遵照执行国家颁布的现有标准以及即将推出的各类规范。 某某移动 搜索引擎项目技术方案 13  技术标准化:系统的设计使用通行的、广为接受的技术和方法,保证系统可扩展、可升级的能力。  结构标准化:系统的设 计遵循先进的、成熟的、被广为应用和验证的架构,降低系统的设计风险,提高稳定性和灵活性。  数据标准化:系统使用的数据,如电子文档、业务数据等,都符合国家相关标准的要求。 2. 开放性 系统总体方案设计在体系结构、硬件平台、软件平台的确定方面,从设备选型到设计、开发都要充分考虑 标准和开放 的原则。 在应用系统的设计与开发方面,依据标准化和模块化的设计思想,具备跨平台运行支持能力,可以运行在多种硬件平台和操作系统平台上。 3. 先进性和成熟性 项目投资考虑到今后的发展,不使用落后的产品与技术,以避免投资的浪费;为保证系统的稳 定性,持续的可维护性和可扩展性,在系统软件选型、开发技术上,选用业界先进、成熟的技术和产品,以保障项目实施的成功率、运行效果及运行效率。 在项目中采用先进的设计模型,行业流行和先进的技术,例如系统 Ntier 体系架构等,先进的技术保证系统在大并发访问时的稳定性,并可根据系统发展,按需扩展。 在系统设计过程中,采用成熟的产品进行系统建设,这样,能够在最大限度上保证核心系统的成熟度。 同时,一些个性化的应用也将采用成熟的技术进行开发和功能扩展。 4. 可扩展性 软硬件配置具备动态平滑扩展能力,可以通过调整系统框架和相应 服务单元的配置,适应业务量的变化,获得良好的性能价格比。 系统架构在开放的安全应用支撑体系结构之上,系统易于扩展,具有良好的可扩充性。 同时提供各种灵活可变的接口,系统内部也保持相当程度的可扩充性。 某某移动 搜索引擎项目技术方案 14 5. 可移植性 系统支持跨平台的应用,支持主流的 Web 服务器, Web 应用服务器。 对硬件和操作系统没有特殊要求。 跨平台的特性保证了系统具有更高的可移植性和适应能力,使得客户方能够灵活选择平台部署方案,兼顾全局系统考虑。 6. 安全性 项目中充分考虑系统安全性,充分保障系统中数据备份、应用流程、权限管理等各个环节的安全性。 在设计 系统结构时,各个层次都消除单点隐患,充分考虑到系统的冗余配置和灾难恢复;应用系统的用户有着各种各样不同的权限级别和应用层次,因此在平台设计时,应该充分考虑不同用户的需求,保证正常用户能够高效、快速地访问授权范围内的系统信息和资源。 同时,也必须能够有效地阻止未授权用户的非法入侵、以及非授权访问。 7. 高效性与准确性 搜索引擎要求具备很高的运行效率及信息检索准确度。 本项目将运用业内领先的各类数据处理技术、索引技术、优化技术、分布式技术、集群技术、应用服务技术等,保障最终应用运行效率和效果。 8. 全面性 搜索引擎系统全面 性包括采集内容的全面性及检索结果的全面性。 采集内容的全面性指搜索引擎能够接入各种采集源,对各类、各级信息进行全面采集。 在提供信息搜索服务时,除了需要保证很高的运行效率(即很快的检索相应速度)和结果准确性外,还需要保证具有很高的查全率,即 检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统 数据 库中实有的相关文献量在多大程度上被检索出来。 本系统在设计时,采用先进的检索算法,内嵌汉语自动分词系统,并根据需要不断地升级分词系统、更换词典、统计建立了大量歧义排除规则,有效增强分词准确性,使系统同时 某某移动 搜索引擎项目技术方案 15 具备 高查全率和查准率。 9. 可维护性及易用性 一方面建立的平台本身具有可维护性,另一方面还需要在平台的开发过程中,注意培养系统运行管理人员,让将来的系统运行管理人员熟悉和了解整个系统的总体结构以及相关的知识。 只有这样才能保证系统的有效运行,发挥应有的作用。 整套系统的数据维护简单,容易操作,降低维护的技术难度,也减少了人为隐患的发生。 10. 可行性及可实施性 系统的建设方案具有较好的可行性以及可实施性,一方面,在系统的整体框架下系统开发投产能够分阶段地进行,并保持各阶段的相互铺垫和整体工作的连续。 另一方面,系统设计充分考虑 到具体的网络、硬件环境,保证系统能够实现完善的功能。 五、 整体解决方案设计 1. 系统框架设计 根据项目需求特点, TRS 将采用 下图所示的整体框架来建设 某某移动 搜索引擎项目。 某某移动 搜索引擎项目技术方案 16 周 期 控 制信 息 采 集链 路 分 析采 集 策 略自 动 分 类自 动 过 滤自 动 排 重内 码 转 换分 类 检 索二 次 检 索拼 音 检 索… …简 单 检 索 高 级 检 索词 典 管 理统 计 分 析用 户 管 理权 限 管 理应用开发接口数据存储索引中心 W e b 资 源 数 据文 件 系 统 关 系 型 数 据 库其 他 系 统 数 据检索应用层加工层采集层系 统 管 理异 构信 息 源 整个搜索引擎系统包含为 7 大部分:  信 息源  采集 层  数据加工层  数据存储中心  检索应用层  系统管理层  应用开发接口 信息源 搜索引擎的信息源为搜索引擎核心各系统需要采集、加载、处理、分析和索引并提供服 某某移动 搜索引擎项目技术方案 17 务的各类信息数据。 根据本项目的要求,在信息源层,主要需要处理 的对象包括 结构化的信息和非结构化信息: RTF, DOC, PPT, XLS, PDF, HTML, ASP, JSP, PHP, TXT,、 ZIP、 RAR。 这些信息对 象在不同的数据源中存在,包括:关系数据库、本地文件系统、远程文件、 Web 服务器等。 采集层 采集层实现对 不同数据源中的各类数据对象 进行采集,在采集层会根据数据源的不同和处理对象的不同,运用不同的处理工具来进行数据采集、分析和过滤等。 在本项目中将主要应用到以下采集工具: 网络信息 采集模块、 关系数据库信息采集模块、本地文件系统资源采集、远程文件资 源采集、其它信息源数据的采集:根据数据源接入方式,利用相应的采集工具进行信息获取、过滤等。 通过采集配置和调度控制,从信源集合中实时或非实时的、增量的将结构化和非结构化信息准确高效的采集到搜索引擎中,为系统内部的其他模块提供分析依据。 数据加工层 数据加工层为搜索引擎的信息智能分析处理中心,其核心功能包括:正文提取、自动智能分词、信息过滤、文本特征标引、网页快照压缩存储。 通过对数据的分析、挖掘和处理,为搜索引擎索引中心的工作做好准备。 信息分析与处理是系统中非常复杂而重要的模块,它将内容自动过滤、自动分类、 自动排重、内码转换等功能无缝集成在系统内部,实现了自动处理的高集成度。 数据加工层的工作质量很大程度上决定了搜索引擎最终服务数据的质量。 数据存储索引中心 数据存储索引中心需要 对前端系统采集、加工的海量、异构信息进行统一的存储,按照索引规则建立索引,为上层的检索服务提供核心的检索动力支持。 数据存储索引中心 实现信息搜索的核心处理功能,是搜索后台架构的主体,搜索系统所需的数据均由这一部分来进行统一调度和控制。 某某移动 搜索引擎项目技术方案 18 按照数据规模, 存储索引中心 可采用一台至多台服务器来构成分布式存储和负载均衡的架构模式来存储和索引数据。 在这一层,通常会以集群的模式部署若干台甚至上千台服务器来分布需要提供搜索服务的数据,并提供负载均衡、冗余备份等机制的实现。 检索应用层 基于检索核心引擎提供的检索功能和相应的接口。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。