大学本科生毕业论文-基于paradise平台论文检索系统(编辑修改稿)内容摘要:
) 利用 split 函数,将 结 果存入 list 里面 liststring authors。 boost::regex_split(std::back_inserter(authors), content, ePaperAuthors)。 这样 ,文章中所有匹配上面正 则 表达式的字符串,其中的作者信息( 即上面括号 中的内容),都会存在 authors 这 个容器里面 还 需要注意的一点就是,由于网 页 的不 规 整性,所以要排除一些 错误 的情况。 还 有一些文章,确 实 没有摘要、引用或者其他信息( 这 些文章多出 现 在引用 链 的 顶层 ,主要是一些 书 籍等参考 资 料,所以也比 较 正常),遇到 这 些情况我 们 就不抓 取下来了。 数据的存 储 及解析 在将数据仍网 页 下 载 下来之后,需要存 储 起来。 首先, 对 于 pdf 的格式,只能存 在文件系 统 里,按正常的方式存 储。 对 于其他的信息, 这 里 选择 存 储 在 berkeleyD B 里面。 berkeleyDB 是一种 轻 量 级 的数据 库 , Mysql 等数据 库 底 层 就是利用berkel eyDB 来完成的。 它的有点是可移 动 性,不用想 Mysql 那 样 搭建朋 务 器,而且 读 取数 据 时较 快。 对 于每一篇文章的基本信息 metadata,按照【表格 1】中的形式存入 berkeleyDB中: 表格 1 Key int64_t 的一个整数 字符流 ,存 储 元数据信息,按如下格式: **************************************************name **************************************************source Value **************************************************abstract **************************************************citationCount **************************************************authors **************************************************references **************************************************referenceName **************************************************url 获 得 这 些基本信息之后,我 们还 要根据 这 些元信息, 陆续 建立一些berkeley DB 文件,用于存 储 其他信息,如 [ 表格 2]: 表格 2 文件名 Key Value int64_t 的整数, 论 文 ID 这 篇 论 文的全部文本内容 int64_t 的整数, 论 文 ID 用于存 储 一篇 论 文所引用 的所有文章 int64_t 的整数, 论 文 ID 用于存 储 一篇 论 文被哪些 文章所引用 int64_t 的整数, 论 文 ID 存 储 最 终 要 显 示在 页 面上 的文章的 评 价 int64_t 的整数, 论 文 ID 存 储 最 终 要 显 示在 页 面上 的基于影响的文章的概括 其中 是通 过 将 pdf 格式 转 化 为 txt 之后 获 得的。 是 对 整个 论 文的引用关系 图进 行解析 获 得的,仍上面的元数据中,我 们 可以 获 得每个 论 文所引用的 论 文的名称, 这样 ,我 们 可以通 过这 些名称,来 获 得 这 个 论文所引 用的所有 论 文的 ID 号,并且存 储 到数据 库 中。 获 得 之后,对 其 进 行倒 置,就可以 获 得 的内容 这 里之所以 选择 BerkeleyDB进 行 存 储 ,是因 为 它有以下 这 些 优 点: 嵌入式( Embedded):它直接 链 接到 应 用程序中,与 应 用程序运行于同 样 的 地址空 间 中,因此,无 论 是在网 络 上不同 计 算机之 间还 是在同一台 计 算机 的不同 进 程之 间 ,数据 库 操作并不要求 进 程 间 通 讯。 Berkeley DB为 多种 编 程 语 言提供了 API 接口,其中包括 C、 C++、Java、 Perl、 Tcl、 Pyt hon和 PHP,所有的数据 库 操作都在程序 库 内部发 生。 对 于我 们这 个系 统 , 后台程序是由 c++完成,而前台程序是由python完成,他 们 都会共同 访问 一些文件,通 过 存 储 在 BerkeleyDB进行存 储 ,就解决了不同 语 言之 间 兼容 的 问题。 轻 便灵活( Portable):它可以运行于几乎所有的 UNIX 和 Linux 系 统 及其 变 种系 统 、 Windows 操作系 统 以及多种嵌入式 实时 操作系 统 之下。 它并不需 要搭建一个数据 库 朋 务 器,以用 户 、朋 务 器形式 访问 数据 库 ,而是以函数 调 用的形式。 一旦 Berkeley DB 被 链 接到 应 用程序中, 终 端用 户 一般根本感 觉 不到有一个数据 库 系 统 存在。 这样 提高了我 们 的系 统 的 实 用性,当用 户 需要自己搭建一个我 们 的 论 文系 统时 ,不用再去搭建数据 库 朋务 器, 进 行各种繁 琐 的配置。 第 3 章 生成 评论 集 通 过 上面的内容之后,我 们获 得了所有基本的信息,其中,最重要的,获 得了 tofrom 表, 该 表的 key 是一篇 论 文 A 的 ID, value 是引用 A 的所有 论文 ID 的集合。 下面我 们 就要 结 合前面 获 得的数据,包括 论 文的文本、元数据,来 获 得一篇 论 文的 评论 集。 获 得 评 价的候 选 句子集 通 过 tofrom表,我 们 可以 获 得一个集合 {B1,B2,B3...},其中 Bi对 A进 行了引用。 我 们 相信,如果 Bi对 A进 行了引用,那么 Bi中可能会有一些句子 对 A进 行了 评 价。 一般有以下几种情况 : (1) Bi中的句子出 现 了 A的 论 文名 (2) Bi中的句子出 现 了 A的作者名 (3) 在 Bi 的 reference 列表中,如果 A 出 现 在第 k 个位置,那么通常在文 章中会利用 [k]来 对 A进 行引用。 (4) .对 于 (3)的情况,有 时 候并不只是 对 k 进 行引用,可能文章中的一 句 话 代表的是好几篇文章的工作概括,因此会出 现 “[i,k,j]”这 种 类 型的 符号来 对 A进 行引用,而且出 现 的概率很高。 (5) (如果 Bi 中的某句 话对 A 进 行了 评论 ,那么通常它的前一句 话和后 一句 话 也会出 现评 价的信息 通 过 上面的 5点,我 们 就可以 获 得了 Bi中 对 A进 行 评 价的句子,仍而 获得了一 个候 选 句子集,里面的每一句 话 都不同程度的 对 A进 行了 评 价。 图 表 2 如 [ 图 表 2]所示流程,具体 实现 的 时 候,先要将 Bi按句子 进 行划分 为 一个句子序列 {Bis1, Bis2,Bis3.....},然后遍 历这 个句子序列, 对 于每一个句子,按照上面的前四条 规则进 行 评 判,如果 满 足其中仸意一条, 则这 个句子是候 选 句子集合中的一个, 并将其前后两个句子也合到一起,添加的候 选 句子 集合中。 最 终 ,得到 对 A 进 行 评论 的候 选 句子集 {e1,e2,e3...}, 这 里面可能会有一些 评价 来自同一篇 论 文。 获 得 评论 段落 获 得了候 选 句子集之后,我 们 需要 对 其 进 行适当的排序,仍中 选 出 较 好的几个 句子,最 终显 示在 页 面上。 由于不同的人, 对这 篇 论 文的 评 价可能也不太一 样 , 因此,就不能 简单 的按照 这 些 评 价句子与原文的相似度来 进 行打分排序了,因 为 这样 会造成和原文 观 点相近的 评 分 较 高,不是我 们 希望 获 得的 结果。 实际 上,有 时 候越是和原文的 观 点不同,反而可能越重要,它可能是 对这 篇文章的批判,也 有可能是原 文的作者并在写 paper 是并没有 发现 的一些问题 , 这对 我 们寻 找后 续 工作 时 可能会非常重要。 我 们 在提取数据的同 时 ,会 获 得每一篇文章的 citation信息,代表 这 篇文章被引 用的次数,一般,一个 较 好的文章,被引用的次数也 应 当比 较 多,因此, 对 于每一 个 评 价,根据它所在文章的被引用次数 进 行排序,可以 获 得 较为专业 ,也 较为 合 理的 结 果。 同 时 ,需要注意的是,如果一个篇 论 文的被引用次数很高,而且它又有两段 评 论 原文的句子 时 ,那么 这 两段会一起出 现 在最 终 的 结 果里,在 这 里我 们 就需要 对 结 果 进 行 调 整,保 证 在 权 重相同的情 况下,尽可能 选择 尽量不同的文章的 评论。 第 4 章 建立模型并生成基于影响的概括 通 过获 得了 对 源 论 文的 评论 集合,下面就可以与源 论 文建立模型来 获 得 基于影响的概括。 所 谓 基于影响的概括, 简单 来 说 ,就是某句 话 与 评论 之 间 的关 系越 紧 密,那么 这 句 话 的影响力就越大。 最 终 将影响力最大的几个句子合在一起 ,就形成了基于影响的概括。 建模之前我 们 所有的数据 在建模之前,我 们 先来看看我 们 已 经获 得了哪些数据: (1)所有 论 文集合 D,以及 D 里所出 现 的所有 单词 ,构成一个 单词 表 V,并且可以统 计 出 每个 单词 w 出 现 的次数 C(w,D) (2)对 于一篇 论 文 d,将其划分 为 多个句子 {s1, s2, s3……} (3)已 经获 得了 这 片 论 文 进 行 评论 的所有句子 {e1, e2, e3……}, 把他 们 的集合成 为 C( Citation Context)。 下面,我 们 就可以参照 KLdivergence算法 ([3] 3, Qiaozhu Mei and ChengXiang Zhai), 对 d中的句子 s 进 行打分。 这 里的打分,主要是基于 词频以及相似度来做的。 建模算法 首先, 为 仸何一个句子打分的公式 Score(s)如下: Score(s) D( I || s ) p(w | I )log( p(w | s )) p(w | I )log( p(w | I )) w V w V 仍信息理 论 的 观 点,其中 D( I || s ) 即 为 KLdivergence,可以被解 释为通 过 句子 s来表示基于影响的段落,需要仍文章中 删 除的信息量。 显 然,其 值 越小, Score 则 越大,它也越能代表文章以及其他文章 对 它的 评 价的意思(因 为 它只 要 删 除 较 少的信息) 可以看出,公式中最重要的是求出 p(w | I )和 p(w | s ) (1) p(w | S ) c(w, s) s * p(w | D) | s | s (2) p(w | I ) c(w, d ) C p(w | C) | d | C 对 于公式( 1),其中, c(w, s) 表示一个 单词 w 在句子 s 中出 现 的次数, p(w | D) 表示 单词 w 出 现 在所有 论 文空 间 中出 现 的概率, D 为 我 们 的整 个 论 文空 间。 而 为 p(w | s) p(w | D) s 平滑参数。 我 们 假 设 s 为 |s|的 n倍, 则 (1)式可以看成是 * n ,可 n n 见 , s 越大,表示 w与整个 论 文空 间 的关系越大,而与 这 个句子的关系 则较 少。 W 等于 1时 , 则 表示二者一 样 ,各占 1/2。 我在 这 里将 s 设 置 为 了 1。 对 于公式 (2),其中 c(w, d ) 表示一个 单词 w 在当前要求的 这 篇 论 文中出 现 的次数, 而 p(w | C) 表示 单词 w在我 们为这 篇。大学本科生毕业论文-基于paradise平台论文检索系统(编辑修改稿)
相关推荐
撞钢筋、预埋件、预埋管等。 3)振动棒振捣时,应快插慢拔,防止混凝土分层、离 析或出现空洞,每一点的振捣时间不宜过短,也不宜过长,可通过对浇筑混凝土表面变化的观察进行控 16 制,以混凝土表面呈水平不再显著下沉,不再出现气泡,表面泌出灰浆为准。 4)用平板振动器振捣楼板混凝土时,每一位置上连续振动一定时间,以混凝土表面均匀出现浆液为准,前后位置和排与排之间应有 1/3 平板宽度的搭接,以防漏振。
3 3 3 3 3 8 9 引言 时光飞逝,大学四年的学习生活很快就要到了尾声,我幸运保送了学校的研究生支教团,成为全校 17 名保研资格中的一位,在 17 名学生中有学校各个专业的,其中跟我关系最好的是一位音乐学院的同学,他的毕业论文写的是音乐中的韵律美,我记得 在德国 ,曾经有位哲学家这样说过 :“一切艺术都希望达到音乐的状态 ”。 到了十九世纪 ,德国哲学家 歌德 又把建筑称作
贷款产品结构不合理,增加了农村资金需求者的流动性风险”;“正规金融制度安排与实际需求的不匹配抑制了农户对正规金融需求的诉求”。 在农村小企业方面,“只有少数企业获得了银行授信额度,而且很大部分企业的授信额度不能满足其资金需求”;“正规金融供给与农村企业金融需求存在结构上的不一致”。 孙艳春在《吉林省完善现代农村金融制度建设的对策研究》 中指出“农村金融是现代农村经济的核心”
建设的广晟学府花园第三期学生公寓是河源职业技术学院生活配套小区的组团之一。 根据集团既定方案,广晟学府花园第三期学生公寓于 20xx 年 12 月 28 日对外推出,开始接受预订认购登记。 广晟学府花园第三期学生工寓由河源职业技术学院包租 25年,稳定的收益,超 7%的高额投资回报率,使第三期学生公寓( 450套)一经推出,就倍受河源市民的追捧,半个月内销售便达 9 成;此外, 20xx 年 1
指标成为岩土工程勘察的一个重要环节。 在砂卵石地层中勘察钻探时 ,要解决三个关键性的问题 : 一是钻进进尺问题 ; 二是护壁问题 ; 三是取芯问题本文首先详细叙述了卵石碎石土地基的成因类型、分布特征、工程性质。 针对砂卵石地层的工程地质特征 ,分析总结了适合本地区的砂卵石地层的勘测方法 ,主要包括 钻探方法、掘探方法、物探方法、超重型动力触探方法、静力荷载试验方法、水平推剪试验方法。
上海东海别墅项目投资可行性研究报告 上海东海别墅项目投资可行性研究报告详细摘要第一部分 项目决策背景七大利好因素一、上海市经济保持着快速健康的发展;二、上海市房地产市场供销两旺,持续看好;三、上海别墅市场全面繁荣,量价齐升;四、上海市嘉定区发展势头良好;五、程式赛车场距本项目仅 4 公里;六、南翔镇国际化社区“格林风范”的启动拉开了南翔新镇建设的序幕;2002 年 2 月 28 日