通用搜索引擎与医学搜索引擎的比较研究

一、通用搜索引擎与医学搜索引擎的比较研究（论文文献综述）

吴进发^[1]（2021）在《电子病历搜索引擎中的新词发现和排序技术研究》文中研究表明电子病历（Electronic Medical Record,EMR）贯穿患者的整个医疗活动,包含患者的诊疗信息,对医生的诊断和决策起着关键作用。然而早期积累的大量非结构化中文电子病历文档（Xml格式）却给医生的病历检索和科研带来阻碍,如何快速准确地从电子病历中检索有用信息已经变得越来越迫切。因此本文研究了使用Elasticsearch（实时搜索引擎,ES）搜索引擎工具来构建电子病历全文检索系统,从而提高电子病历的检索效率。本文的研究主要包括以下三个方面:（1）本文提出了一种基于互信息与左右信息熵的中文新词发现改进算法用于电子病历搜索引擎。本文基于中文电子病历的文本特征和医学术语的词法,主要对预处理和算法结构两点进行改进。预处理上,本文基于中文医学主题词表和ICD-10疾病编码构建了医学词典,还参照电子病历文本中的医学词汇特点选取了部分停用词用于更新前置分词器的停用词表,用于提高中文新词发现算法中的前置分词效果,从而发现更多的新词。结构上,将算法中点互信息计算的改为点互信息均值,将左右信息熵的计算进行拆分,最终将两个分支的结果合并取交集。实验结果表明,本文提出的改进算法的新词发现效果优于改进前的新词发现效果。（2）本文提出了一种基于Ada Rank的电子病历搜索引擎搜索结果排序算法。传统的检索模型需要依靠人工设置排序公式,并在迭代过程中不断优化排序参数,手动调试参数工作量较大。近年来使用机器学习排序模型的排序学习算法开始在各领域大规模应用。在电子病历领域,使用排序学习的研究非常少,因此,本文将排序学习中的Ada Rank算法应用于电子病历,来对搜索引擎排序结果进行优化。本文通过人工标注心血管疾病电子病历文档,选取关键词对每个文档进行文档-查询词对标注,最后使用传统检索模型BM25,学习排序Rank Net、Lambda Rank、List Net、Lambda MART来进行对比实验,实验表明,本文提出的电子病历搜索算法对比传统的BM25算法和其他四种排序学习算法对电子病历的搜索结果排序优化效果更佳。（3）电子病历搜索引擎系统的设计与实现。基于（1）和（2）的研究,本文构建的病历搜索系统除了具有电子病历全文检索功能,还提供了用户管理功能,新词发现功能,电子病历查看功能。电子病历全文检索功能的应用使得电子病历的全文检索变得更加简便快速。

陈豪^[2]（2020）在《基于改进的Shark-Search算法的健康垂直搜索引擎的研究与实现》文中研究说明随着近几年经济飞速发展和人民生活水平的提高,健康问题也越来越受人们重视。而在使用当前传统搜索引擎搜索健康领域信息时,搜索结果中往往存在大量的广告信息,并且专业性、权威性较差。针对该问题,本课题基于改进的Shark-Search算法实现了一个健康领域的垂直搜索引擎,课题主要工作如下:（1）对Shark-Search算法的不足进行改进。针对Shark-Search算法使用链接上下文计算导致噪音链接对主题链接判定产生负面影响的不足,将链接上下文改为使用网页标题来计算,其他计算因素不变;针对Shark-Search算法的“近视问题”,提出将Shark-Search算法与OPIC算法相结合。通过实验表明Shark-Search改进算法较Shark-Search算法、OPIC算法、shark-PageRank算法在查准率上分别提高了7.8%、14.1%、0.9%,在查全率（目标召回率）上分别提高了 11.8%、17.7%、2.9%。（2）基于改进的Shark-Search算法实现健康领域的爬虫,并基于爬取的数据开发了一个健康领域的垂直搜索引擎。将本垂直搜索引擎与百度和必应搜索对比测试,结果表明本垂直搜索引擎在搜索健康关键词时在结果的前100个网页中主题相关性表现更好。本文的创新点在于:1、在Shark-Search算法中考虑使用网页标题来替代链接上下文来做主题相关度计算,避免噪音链接对主题链接判定产生影响。2、提出将Shark-Search算法与OPIC算法相结合,这不仅改善了Shark-Search算法的“近视问题”,在一定程度上消除了 OPIC算法的“主题漂移”问题。

戚越^[3]（2020）在《面向自动问答的学术搜索通用查询语言设计与实现》文中指出学术搜索引擎优化一直是学者的重点研究方向,其中有两个子热点方向,一是用户搜索的行为分析,二是以功能改进为表现的搜索方式创新。查询意图的相关研究属于用户搜索行为分析,目前已经存在很多成熟并且应用广泛的大型学术搜索引擎,它们的功能和实现方式不尽相同,但用户的搜索意图却属于同一范围,如何既能将学术搜索意图从理论上给出一个统一的描述,又能将学术搜索引擎在开发时所面向的功能需求统一起来,从而形成可复用的框架产出?本研究提出了一种通用的查询语言对学术搜索意图进行统一的、规范化的描述,并将其应用到本研究开发的学术搜索引擎原型中进行验证,同时,本研究还探索了学术搜索方式上的创新——以学术搜索任务为导向的对话式搜索,将其应用到了原型系统中代替传统的文本输入。本文定义的通用查询语言——SSL,是学术搜索领域的领域特定语言,是对用户在学术搜索中的搜索意图的语义表示,包含目的信息的类别,查询方式和细化查询语义,它使得不同的学术搜索引擎可以以一种统一的方式理解查询意图。在定义SSL时,本文参考了领域特定语言的设计流程,在语义定义上,基于查询日志分析和学术搜索引擎的功能分析,定义了学术搜索查询意图的分类和组成;在语法定义上,基于JSON格式,并通过ABNF范式来描述相应的语法规则。在对话式学术搜索的设计与实现上,本研究沿用传统任务型对话系统的功能模块包括问句理解,对话管理和搜索模块,其中对于问句理解模块中的意图识别任务,本文基于定义的查询意图类别构建多种分类器进行了意图识别实验,其中基于RNN的模型效果最好;不仅如此,本文还引入了问句模板匹配对查询方式进行限定,针对特定的学术搜索场景定义相应的问句模板;在对话管理模块,采取了基于有限状态的策略进行状态跟踪,并采用基于知识库和模板的的方式进行对话生成;在检索行为之前,融入了SSL映射与解析模块,实现了在系统内用户需求完全由SSL表达代替,并验证其可应用到不同的搜索引擎实现中,为学术搜索从用户输入到通用查询语言映射提供可复用的参考。

杨越^[4]（2019）在《搜索引擎平台封锁行为的反竞争效应研究》文中提出搜索引擎市场的双边性、跨侧网络外部性（间接网络效应）、大数据垄断优势、不对称的价格结构等特殊的经济学特征导致在世界范围内各国在线搜索市场几乎都是一家独大的寡占市场。谷歌等支配搜索平台大量实施的搜索偏向、“二选一”政策是目前搜索引擎市场典型的滥用行为,这些滥用行为不仅严重削弱了搜索引擎市场的有效竞争,还损害了包括用户、第三方商家在内的搜索引擎市场参与者的效用,因此搜索引擎市场滥用行为已成为各国反垄断法的热点问题。由于搜索引擎市场具有独特的平台经济模式的特点,而适用于传统单边市场的反垄断政策并不能完全套用于具有双边特征的平台经济市场,因此当前对于如何使用合理推定原则来判断搜索偏向以及独占交易行为是否构成违法、是否需要以及如何对这两种滥用行为采取反垄断政策尚且存在较大争议。本文将重点研究搜索引擎平台所实施的搜索偏向行为以及独占交易协议这两种典型封锁行为的反竞争效应。其中,在对搜索偏向行为的研究中,我们将通过建立豪泰林模型来探究搜索偏向的策略激励及其反竞争效应。此外我们将在基础模型中引入质量改进创新投资这一动态因素,来分析搜索偏向行为在提升自有专业搜索服务的市场势力后是否会削弱对自有专业搜索的创新,即探究搜索偏向的创新激励效应。对于搜索引擎所实施的独占交易行为的策略激励及其竞争效应研究中,我们针对搜索引擎市场不对称的价格结构、不对称的跨侧网络外部性等特点来对竞争瓶颈模型做进一步的改进,以使现有竞争瓶颈模型更适合于搜索引擎市场的独占交易分析。通过这两个模型的建立,我们不仅探究搜索偏向行为与独占交易协议的策略激励以及各自的反竞争效应,还将分析支配性搜索引擎企业偏向行为以及独占交易协议策略激励的内生因素,基于分析的结果给出各自在反垄断审查中应关注的重点以及违法判定的依据,最终提出有关搜索引擎市场相关滥用行为的反垄断政策建议。相比较于非一体化的结构情况,一体化搜索引擎平台具有较强的激励实施反竞争的搜索偏向行为。当前搜索引擎平台在提供通用搜索服务的同时大举进入专业搜索市场,即提供专业搜索服务,这导致占据支配地位的一体化搜索引擎平台是否会利用其在通用搜索服务的优势针对自然搜索结果采取不利于竞争对手的搜索偏向行为,以及搜索偏向行为是否造成竞争损害已成为反垄断执法的重点问题。通常情况下,搜索偏向行为表现为搜索引擎通过搜索算法优先展示自己的内容或者与其利益相关的内容,从而将其竞争对手置于不利的竞争地位。本文将通过建立豪泰林模型对比分析非一体化搜索引擎与一体化搜索引擎的偏向激励以及偏向行为的反竞争效应,重点探究偏向行为对创新激励的影响。本文的分析结果表明,在搜索引擎自有专业搜索引擎与其竞争对手之间为对称且赞助商链接与横幅广告之间没有替代性的情况下,相比较于非一体化垄断搜索引擎,一体化的垄断搜索引擎平台具有较强激励实施搜索偏向行为,这会造成竞争对手的用户流量大量流失,产生反竞争的市场封锁效应,并严重伤害平台两侧消费者与广告商的福利。当用户对专业搜索引擎产品内容不具有差别化偏好时,搜索偏向会阻碍对专业搜索引擎内容的质量改进创新。因而,反垄断执法机构应重点审查搜索引擎市场和在线广告市场不同业务之间的竞争程度,特别关注用户对专业搜索引擎产品内容的差别化偏好程度以判定搜索偏向是否会对创新激励产生抑制的作用,以禁止支配搜索引擎平台反竞争的偏向行为。当支配搜索引擎的偏向行为造成严重的竞争伤害时,反垄断执法机构应将企业承诺的行为性救济和执法机构主导的结构性救济结合起来以维护市场竞争和创新激励。支配搜索平台实施“二选一”独占交易合约具有严重损害平台市场竞争的风向。搜索引擎具有典型的广告业务支持的商业模式,因而支配性搜索引擎企业为了维持其在搜索引擎市场的垄断地位,通常会向广告商在内的第三方提供以独占交易为核心的“二选一”协议,阻碍竞争对手获得维持经营的必要收入。本文将通过竞争瓶颈模型来分析搜索引擎市场独占交易协议的策略激励以及反竞争效应,分析结果表明在搜索引擎为广告商提供服务的边际成本较低、广告商这一侧具有较大间接网络效应、消费者用户侧产品差别化程度高和独占交易协议没有给商家带来明显价格下降的情况下,支配搜索引擎的独占交易行为具有强激励性,且支配搜索引擎平台实施的独占交易协议造成了对搜索引擎市场最重要的竞争因素“平台多属”的消除,严重伤害了搜索引擎市场的竞争、创新和社会总福利。但在搜索引擎平台不具有市场支配地位的情况下,“二选一”的独占交易行为并不一定会伤害社会福利。因此反垄断执法机构在审查搜索引擎平台实施的独占交易协议时,需重点关注搜索引擎的边际服务成本、广告商侧的间接网络效应大小、消费者用户侧产品差别化程度以及独占交易协议给商家带来的价格优势等要素,采取合理推定的反垄断审查方式,对支配搜索引擎企业实施的严重伤害市场竞争的独占交易行为采取严格的反垄断禁止。由于高度集中的市场结构以及支配搜索引擎滥用行为是当前全球范围内各国搜索引擎市场普遍存在的现象,因此我们将给出以下的反垄断政策重点:一是改变对搜索引擎市场宽松的执法态度并采取积极严格的反垄断执法;二是重点关注造成搜索市场封锁效应的滥用行为;三是搜索引擎滥用行为的反垄断审查需考虑该市场特殊的竞争要素;四是搜索引擎滥用的反垄断救济应将结构性与行为性的救济措施相结合。由于长期以来国内搜索引擎市场一直受到行政性的保护与扶植,这导致国内搜索引擎企业长期处于缺乏国际竞争的环境,不仅使国内搜索引擎企业缺乏创新动力也使得这些企业不具备市场竞争力,由此带来的问题是:目前国内搜索引擎市场不仅存在高度集中的市场结构而带来的“二选一”、恶意屏蔽链接内容等行为,还存在损害社会利益的竞价排名行为、侵害消费者权益的虚假广告等问题。因此针对国内搜索引擎市场的特点,我们给出的反垄断政策重点是:一是将搜索引擎市场作为互联网领域的监管重点;二是相关法律法规应当明确统一并将消费者保护作为重点;三是强化促进市场竞争的政策导向并对相关滥用行为采取严格的禁止;四是相关执法机构亟需采取结构性规制政策并采取积极的反垄断执法。

王静^[5]（2019）在《英汉职业翻译中的译者搜索行为研究 ——以任务熟悉度为视角》文中研究表明在信息电子化和网络化传播的今天,译者使用软、硬件工具搜索信息资源已成为笔译过程中不可或缺的组成部分。基于互联网大数据的搜索因其快速、便捷、高效的优势逐渐替代了查询纸质词典、百科辞典或其他参考资料的行为,并已融入译者的翻译全过程。搜索在翻译问题解决中扮演的协调性、策略性作用在诸多研究者的翻译能力描述探索中均有提及,本研究基于已有相关研究成果探索和描述职业译者的搜索行为和特征,比较译者执行熟悉的常规翻译任务和不熟悉的非常规翻译任务中的搜索行为,以发现译者的知识补偿机制,解构职业译者相关知识的建构行为,并对未来搜索课程或相关培训提出建议和思考。本研究抽选翻译公司内的职业译者作为受试对象参加两类任务的实验,通过观察受试者翻译行为和理论推演设立研究问题,并建构搜索频次、信息资源类型、信息需求表征方式的改变频次、搜索时长等指标解释搜索行为特征。研究得出4个结论:1)受试者的搜索频次与任务类型无关,但新Dale-Chall公式得分与信息需求的数量和搜索频次相关。2)受试者在非常规翻译任务中并没有显着增多调取专业领域知识类资源的频次,只是显着增多了词典类资源和轻应用资源的使用频次,停留轻应用资源的时长也显着增加。3)受试者在非常规翻译任务中改变信息需求表征方式的频次显着增多,并在3个提问式的策略和信息需求表征风格呈现显着的区别性特征。4)受试者在非常规翻译任务中的搜索时长和停留源语文本/译入语文本的时长显着缩短,搜索时长和译者停留信息资源的时长与信息需求解决正确率呈负相关的关系。本研究采用录屏、译后回溯性访谈、问卷调查等三角验证的方法提取搜索行为数据,并进行量化统计和比较,通过推演和受试者的反馈得出职业译者的搜索行为概览图。本研究建构出译者在搜索过程中建立的搜索策略和途径,其中包括搜索顺序、各类硬件使用、工具软件选择、互联网技术介入、大数据技术采纳等。基于搜索是人机交互的综合、复杂的过程观点,本研究描述了各翻译行为和相关搜索行为的关系,概括出搜索的复合性、场合性、补偿性和外缘性的特征,由此建议翻译训练中应考虑加入搜索培训和教学环节,培养学生译者利用搜索解决翻译问题的复合能力。本研究中的搜索研究发现也可为职业译者能力评估体系提供理论支持,所检验的搜索指标可作为职业译者搜索能力发展评价指标的可行性参数。

李涵^[6]（2018）在《基于专业医学书籍的疾病信息搜索引擎的研究与实现》文中研究指明伴随着互联网信息的爆炸式增长,人们对医学疾病信息的准确查询需求越来越高。针对医学专业领域的搜索引擎构建逐渐成为工程领域研究的热点。长期以来,通用搜索引擎主要是根据用户输入的查询信息进行简单的字符匹配查询,检索结果往往返回的信息量十分巨大。由于互联网的开放策略及对互联网内容缺乏评判标准,从而导致互联网信息质量良莠不齐。伴随着商业搜索引擎对竞价排名技术的使用,对于一般用户而言,很难对通用搜索引擎返回的大量医学信息进行甄别,真正有价值的信息还需要用户自己来挖掘。本文首先针对专业医学书籍、临床门诊病历和医学专家经验的解析与形式化表达进行了研究,对这三种不同形式和结构的医学数据的解析和处理能够为疾病信息搜索引擎和疾病的相关性模型的构建打下基础。通过对常用信息检索技术的研究和对比,构建出以向量空间模型为基础的疾病信息搜索引擎。其次,给定用户输入的Query信息,常规的信息检索模型往往可以返回一些结果,但不能很好的保证搜索结果与Query的相关性。因此,本文分别应用了朴素贝叶斯和决策树两种单一机器学习模型对Query与疾病的相关性进行评估。朴素贝叶斯模型通过计算不同疾病类别下不同医学特征出现的概率来计算样本属于不同类别的概率,在样本数量较小的情况下依然可以获得很理想的效果。而基于决策树的Query与疾病相关性模型通过判断查询信息中是否具有某一特征来判断接下来需要判定的特征,直到给出诊断结果。由此,将模型结果应用在排序结果上,从而提高查询结果的准确率。随后,针对单一机器学习模型的不足,运用了一种结合Bagging和多次采样技术的疾病相关性模型,通过计算不同模型对不同疾病类别的相关性将多个模型加权集成为强学习模型,并将集成模型的结果运用到排序上,进一步提升搜索结果的正确率。最后,基于以上研究设计并实现了疾病信息搜索引擎。实验结果表明,相较于普通信息检索模型,结合了机器学习方法的检索模型,能够进一步提升查询结果与疾病信息的相关性,提升了用户体验。

周米雪^[7]（2017）在《基于改进PageRank算法的医学垂直搜索引擎的研究与实现》文中进行了进一步梳理近年来,互联网逐渐成为人们获得医学健康资讯的一个重要平台,其中搜索引擎在查询医学信息的过程中给人们提供了极大的便利。但是现有的医学搜索引擎在主题相似性判断和网页排序算法还是存在不足。因此,本文从主题相似性判断和PageRank算法方面做出改进,构建了一个面向医学领域的垂直搜索引擎。主要研究内容与成果如下:（1）选择初始URL,构建医学领域主题词库,研究空间向量模型。在抓取网页后,分别从超链接、元信息、词库三个方面进行主题相关性判别,高效地去除了与主题不相关的页面,使得搜索引擎的效率大幅度提升。（2）本文对PageRank算法和HITS算法进行了研究与分析。由于PageRank算法的计算效率更高、计算数据量更大,所以,本文采用PageRank算法作为网页排序算法。并针对PageRank算法偏向旧网页、平均分配权值、主题漂移等不足之处,引入时间反馈因子,提高“新”网页的评分;引入权威性反馈因子改进出链网页的权值;引入了主题相关度因子抑制“主题漂移”。（3）基于以上两点研究成果,本文设计了一个面向医学领域的垂直搜索引擎。在设计搜索引擎时,主要分为爬虫模块、检索服务模块。另外,基于Nutch的高扩展性及插件机制,本文加入了IKAnalyzer中文分词器改善搜索引擎处理中文信息的能力。（4）最后对项目进行部署并验证。实验表明,该垂直搜索引擎实现了按词切分,并且分词的准确率达到了90%;对网页经过主题相似性判断后,爬虫效率提高了8%;通过对PageRank算法的改进,垂直搜索引擎的查准率有了明显提高,并且返回给用户的前10条结果的查准率在0.7以上。

卢群乐^[8]（2015）在《基于Nutch的医学领域垂直搜索引擎系统的研究与实现》文中指出随着近几年互联网的快速发展,人们获取信息的方式越来越多,各种各样的信息充斥在人们的生活中,给人们带来了极大的便利,随之而来的还有面对丰富信息的无所适从。搜索引擎的出现极大地缓解了这一现状,然而,随着互联网上网页数目呈现指数级速度增长,通用搜索引擎在提高搜索效率方面愈发艰难,而垂直搜索引擎凭借其高度的信息集中度和较强的专业领域知识,成为时下研究的热点。因此,各领域内垂直搜索引擎平台相继出现,但在与人们生活健康息息相关的医疗卫生领域却依然没有一个较好的搜索平台,人们对于各种疾病的预防和治疗信息大多只能通过医生了解,信息渠道单一,而且由于地理环境、经济发展等因素限制,优势医疗资源发展不均衡。若能实现一个医疗领域的垂直搜索引擎,人们足不出户就可获取医疗信息,这将有利于缓解我国目前医疗意识和基础设施薄弱的问题。本文基于Nutch开源搜索框架,针对垂直搜索引擎中的主题爬虫模块和信息检索模块进行分析和设计,并最终实现医学领域的垂直搜索引擎。在该垂直搜索引擎的搭建中,主题爬虫模块的构建一直是当下研究的热点,本文通过对主题爬虫爬行策略中的Fish-Search算法进行分析试验,依据网页链接和网页内容对网页进行综合相关度评价,采用弹性阈值机制,在限制“隧道现象”的基础上对医学领域相关的网页进行爬取、下载。在抓取该医学领域的网页后,利用网页解析工具和网页分块技术对网页进行解析,并将解析后的网页文本内容进行中文分词,构建倒排索引结构的倒排表。针对信息检索中网页的排序问题,本文通过对Lucene搜索结果评分机制的分析与研究,对Page Rank算法在权值传递过程中的平均分配问题加以优化,并添加时间反馈因子,减少旧网页的天然优越性,并将优化后的Page Rank算法与Lucene中的向量空间模型结合,在抑制“主题漂移”现象的基础上提高网页的主题相关性和权威性,最后将经过排序处理后的结果网页返回给用户,实现医学领域垂直搜索引擎的整个流程。通过对垂直搜索引擎系统的设计与实现,用户可以以快捷高效的方式获得较为权威的医学领域信息,对个人的健康与卫生等行为有着积极的促进作用,同时为人们带来更为合理健康的生活方式。

刘玲^[9]（2014）在《糖尿病网络管理平台的设计及研究》文中研究指明随着人们生活水平的不断提高,糖尿病的患病率呈现出爆炸式地增长,越来越多的人遭受糖尿病的困扰。糖尿病是一种终身性的慢性疾病,没有根治的办法,只能长期地坚持治疗和管理,这使得有限的医疗服务资源面临着严峻的考验。如何合理有效地管理糖尿病,是目前研究的重点。本文主要围绕着糖尿病管理方面的需求,设计开发了糖尿病网络管理系统,方便糖尿病患者在家就能和医生“面对面”般的接受治疗;更进一步地,对糖尿病信息在中文搜索引擎中的检索效果进行了多层面的分析研究,为糖尿病患者在获取糖尿病信息时提供多渠道的参考。所做的主要工作如下:1.糖尿病网络管理系统的设计与实现。系统采用B/S网络结构模式,主要基于WEB技术进行开发设计,开发过程中采用了PHP、JavaScript、MySQL、Ajax、ADODB、Highcharts、CSS、HTML、Smarty模板等技术。系统实现的主要功能是:糖尿病患者上网注册后,录入个人相关信息,即可随时随地的将自身检测的血糖值录入本系统,系统会自动地将患者近期或长期的血糖控制情况反馈给相关的医生,医生通过该系统可及时地干预病情,给出疗效评估及个体化的诊疗建议;另外,医患互动功能,让医患间可及时地交流沟通。系统可实现糖尿病患者在家就能和医生“面对面”般的接受治疗。2.糖尿病信息在中文搜索引擎中检索效果的分析研究。主要从三个层面进行了分析研究,首先选取了4种中文通用搜索引擎（中文Google、百度、搜狗、雅虎中国）,4位被试参与评分,以用户的角度从索引深度、去重复性、查准率及相关性方面,对糖尿病信息的检索效果进行了比较分析,结果显示检索效果较好的是中文Google和百度;另外,选取了4种中文医学搜索引擎（中华中医网、99健康网、久久健康网、三九健康网）,5位被试参与评分,以用户的角度从去重复性、查准率及相关性方面,对糖尿病信息的检索效果进行了比较分析,结果显示检索效果较好的是99健康网;最后,选取了4种中文通用搜索引擎和4种中文医学搜索引擎,5位被试参与评分,以用户的角度从去重复性、查准率及相关性方面,对糖尿病信息的检索效果进行了比较分析,结果显示检索效果较好的是中文通用搜索引擎。

王小磊^[10]（2011）在《生物医学专题信息跟踪与服务系统关键技术的研究与应用》文中研究指明搜索引擎是通过互联网获取信息的主要手段之一,而垂直搜索引擎能够面向特定专业领域提供更为精确和快捷的信息服务。目前,国内外各种搜索引擎和检索系统比较多,但是都存在一定的局限性。例如,信息检索质量不高,能针对信息需求,主动提供专业信息跟踪和检索服务的系统很少,价格昂贵等等。本单位作为全军最高军事医学科研和疾控机构,科研和管理人员对主动、定制化的科研信息具有强烈的需求。为了满足本单位科研人员的科技信息服务需求,同时为总部领导机关的科学决策提供情报保障,论文作者研究了实现面向生物医学领域的垂直搜索引擎需要的关键技术,并以此为基础构建了我院自己的生物医学专题信息跟踪与服务系统。首先,论文作者利用文献调研、专家咨询以及系统分析的方法,通过对系统的需求分析,研究和讨论了实现系统功能所需的关键技术,包括网页抓取、全文检索、垂直搜索引擎、中文分词以及增量抓取等,并提出了这些关键技术的实现方式和软件组件工具的选择依据。其次,重点研究了部分关键技术的原理、现状,对国内外较有影响的技术实现方式和软件组件产品进行了认真的比较与选择,确定了Nutch、Lucene、庖丁解牛等实现系统需要的开源软件组件,并剖析了这些组件的技术实现和定制开发方法。第三,根据软件工程原理和最新的组件式软件开发思想,作者利用Eclipse、MySQL、Tomcat等开发和平台工具,将这些关键组件进行组装和集成,并改造了Nutch的增量抓取模块,使之实际可用,实现了生物医学专题信息跟踪与服务系统。最后,论文讨论了系统由于缺少生物医学领域的专业词库,导致搜索精度不足,以及海量搜索能力较弱等方面的问题,提出了利用专业词库和云计算等技术对系统进行改进完善的设想。系统不仅实现了从互联网上抓取网页信息、格式处理、内容索引和检索等功能,而且具备中文分词和增量抓取的能力,使科研人员可获得更精确和及时的搜索结果。同时,系统还提供了信息的实时发布、分类导航、全文检索等个性化服务,积极主动的为用户提供最新的生物医学信息。目前系统已投入试运行,能够实现对30个网站的跟踪抓取,在20个并发用户访问的条件下搜索结果的响应时间不超过2秒。论文的研究结果已在《北京生物医学工程》和《军事医学科学院院刊》等中文核心期刊发表,可为相关机构和科研人员设计实现同类系统提供一定的参考借鉴。

二、通用搜索引擎与医学搜索引擎的比较研究（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、通用搜索引擎与医学搜索引擎的比较研究（论文提纲范文）

（1）电子病历搜索引擎中的新词发现和排序技术研究（论文提纲范文）

摘要

abstract

第一章绪论

1.1 研究的背景及意义

1.2 国内外研究历史与现状

1.2.1 搜索引擎技术在电子病历中的应用

1.2.2 现有研究工作的不足之处

1.3 论文的主要研究内容

1.4 论文的结构安排

第二章基于词语互信息和左右熵的新词发现改进算法研究

2.1 引言

2.2 背景技术及解决问题分析

2.2.1 相关技术介绍

2.2.2 传统中文新词发现算法的缺点

2.2.3 基于词语互信息和左右熵的新词发现算法原理介绍

2.3 基于词语互信息和左右熵的新词发现改进算法研究

2.3.1 预处理改进

2.3.2 算法结构改进

2.4 实验设计及结果分析

2.4.1 实验环境

2.4.2 数据集以及预处理

2.4.3 实验设计及实验过程

2.4.4 实验结果及分析

2.5 本章小结

第三章基于AdaRank的电子病历搜索引擎排序算法研究

3.1 引言

3.2 排序算法问题分析

3.2.1 TF-IDF算法

3.2.2 BM25 算法

3.3 本文用于电子病历搜索的AdaRank算法及实现

3.3.1 AdaRank算法原理及优势

3.3.2 AdaRank算法在Elasticsearch中的实现

3.4 实验设计与结果分析

3.4.1 数据集

3.4.2 数据标注

3.4.3 评估指标

3.4.4 对比实验

3.4.5 实验结果分析

3.5 本章小节

第四章电子病历搜索引擎系统设计与实现

4.1 系统需求分析

4.2 系统逻辑架构设计

4.3 系统设计

4.3.1 系统架构设计

4.3.2 系统数据库设计

4.3.3 Web接口设计

4.3.4 算法服务器设计

4.4 系统实现

4.4.1 硬件环境

4.4.2 软件环境

4.4.3 Elasticsearch环境的搭建

4.4.4 Elasticsearch中插件的安装

4.4.5 电子病历部分字段的结构化

4.5 系统测试

4.6 本章小结

第五章总结与展望

5.1 总结

5.2 展望

致谢

参考文献

（2）基于改进的Shark-Search算法的健康垂直搜索引擎的研究与实现（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 课题研究背景及意义

1.2 课题研究现状

1.3 课题主要研究内容

1.4 论文组织结构

第2章爬虫的相关技术

2.1 主题爬虫相关理论

2.1.1 通用爬虫

2.1.2 主题爬虫

2.2 爬虫框架

2.2.1 Nutch爬虫框架

2.2.2 Heritrix爬虫框架

2.2.3 WebMagic爬虫框架

2.3 中文分词技术

2.3.1 基于词典的分词方法

2.3.2 基于统计的分词方法

2.3.3 基于人工智能技术的分词方法

2.4 URL去重

2.5 主题爬虫的搜索策略

2.5.1 HITs算法

2.5.2 PageRank算法

2.5.3 OPIC算法

2.5.4 Shark-Search算法

2.6 主题判定模型

2.7 搜索引擎

2.7.1 搜索引擎的工作原理

2.7.2 搜索引擎服务器

2.8 本章小结

第3章 Shark-Search算法的改进及实验结果分析

3.1 Shark-Search算法的缺点分析

3.2 Shark-Search算法与OPIC算法结合

3.3 实验环境

3.4 性能评价指标

3.5 种子链接选取及主题特征向量的生成

3.5.1 种子链接选取

3.5.2 主题特征向量的生成

3.6 实验结果及分析

3.7 本章总结

第4章健康垂直搜索引擎的设计与实现

4.1 需求分析

4.1.1 功能需求分析

4.1.2 性能需求分析

4.2 搜索引擎设计与实现

4.2.1 搜索引擎整体架构设计

4.2.2 数据库设计

4.2.3 中文分词的实现

4.2.4 去重模块的实现

4.2.5 索引模块的实现

4.2.6 查询模块的实现

4.3 搜索引擎测试

4.4 本章总结

第5章总结与期望

5.1 总结

5.2 期望

致谢

参考文献

（3）面向自动问答的学术搜索通用查询语言设计与实现（论文提纲范文）

摘要

ABSTRACT

1 引言

1.1 研究背景和意义

1.1.1 研究背景

1.1.2 研究意义

1.2 研究思路与方法

1.2.1 研究思路

1.2.2 研究方法

1.3 研究难点与创新点

1.3.1 研究难点

1.3.2 研究创新点

1.4 本文组织结构

2 国内外研究现状

2.1 学术搜索研究现状

2.1.1 学术搜索引擎的比较研究

2.1.2 学术搜索行为研究

2.1.3 学术搜索引擎算法技术和功能改进研究

2.2 领域特定语言研究现状

2.3 自动问答研究现状

2.3.1 问答技术流程

2.3.2 问答系统分类

2.4 本文的切入点

3 相关理论与技术

3.1 领域特定语言

3.1.1 领域特定语言概述

3.1.2 领域特定语言分类

3.1.3 领域特定语言设计与开发

3.2 任务型对话系统相关技术

4 通用查询语言SSL设计

4.1 领域分析

4.2 SSL定义

4.3 SSL示例

4.4 SSL特点

4.5 本章小结

5 领域意图识别

5.1 数据集构建

5.2 文本编码

5.3 评价指标

5.4 实验结果和分析

5.5 本章小结

6 面向问答的学术搜索引擎设计与实现

6.1 系统总体架构

6.2 功能模块概述

6.2.1 问句理解

6.2.2 对话管理

6.2.3 SSL映射

6.2.4 SSL解析与检索

6.3 系统展示

6.4 本章小结

7 总结与展望

7.1 研究总结

7.2 研究展望

参考文献

攻读硕士期间所获得科研成果

致谢

（4）搜索引擎平台封锁行为的反竞争效应研究（论文提纲范文）

摘要

abstract

第一章导论

第一节问题提出

第二节文献综述

第三节研究思路和结构安排

第二章搜索引擎市场与垄断问题

第一节搜索引擎市场的经济学特征

第二节搜索引擎市场结构

第三节在线广告市场结构

第四节搜索引擎平台企业的滥用行为

第三章搜索引擎市场垄断下的偏向行为

第一节模型设计

第二节非一体化搜索引擎偏向行为激励

第三节一体化搜索引擎偏向行为激励

第四节偏向行为的创新效应

第五节搜索偏向的反垄断审查

第四章搜索引擎平台独占交易行为

第一节模型设计

第二节竞争性瓶颈下的竞争均衡

第三节搜索引擎独占交易协议的福利效应

第四节搜索引擎独占交易协议的反垄断审查

第五章结论与政策含义

第一节结论

第二节反垄断政策含义

参考文献

附录

致谢

（5）英汉职业翻译中的译者搜索行为研究 ——以任务熟悉度为视角（论文提纲范文）

致谢

摘要

ABSTRACT

第一章引言

1.1 研究背景

1.2 研究问题缘起

1.3 研究问题

1.3.1 译者搜索行为的研究

1.3.2 译者搜索行为研究的局限性

1.3.3 提出研究问题

第二章文献综述

2.1 译者使用词典的研究

2.1.1 纸质词典的使用研究

2.1.2 电子词典的使用研究

2.2 译者的信息需求和搜索习惯调查研究

2.3 翻译过程中的译者搜索行为研究

2.3.1 语言方向与搜索行为研究

2.3.2 不同翻译任务中的搜索行为与外部资源评价研究

2.3.3 译者翻译能力与搜索行为的研究

2.4 已有研究的贡献及局限性

2.4.1 已有研究的贡献

2.4.2 已有研究的局限性

第三章理论框架

3.1 翻译能力与搜索能力

3.1.1 翻译能力与翻译专长

3.1.2 翻译能力框架中的搜索能力

3.1.2.1 PACTE的翻译能力模型与工具能力

3.1.2.2 TransComp的翻译能力模型与工具和研究能力

3.1.2.3 EMT的翻译能力框架与信息挖掘能力/技术能力

3.1.2.4 翻译能力模型小结

3.2 翻译问题与搜索

3.2.1 问题解决的心理过程

3.2.1.1 问题的概念和分类

3.2.1.2 问题解决的相关理论

3.2.2 翻译问题的复杂性

3.2.3 问题与搜索

3.2.3.1 信息需求和翻译问题

3.2.3.2 搜索行为的研究指标

第四章实验设计

4.1 研究方法与实验步骤

4.1.1 研究方法

4.1.2 实验步骤

4.2 受试者选择

4.3 实验材料选择和评价方法

4.3.1 实验材料选择

4.3.2 实验材料评价方法

4.4 问卷设计与发放

4.5 实验数据转写原则

4.5.1 翻译过程的阶段分类转写原则

4.5.2 搜索行为相关指标的转写原则

第五章实验数据初步分析

5.1 问卷调查分析

5.1.1 搜索习惯与认识的调查分析

5.1.2 信息需求解决与解决途径调查

5.1.3 词典、搜索引擎和语料库的使用调查

5.2 视频数据概述

5.3 信息需求结果分析

5.3.1 信息需求概述

5.3.2 信息需求的差异化表现

第六章研究结论与讨论

6.1 搜索频次与任务类型的相关性分析

6.1.1 假设1 的提出

6.1.2 实验数据初步分析

6.1.3 包含机器翻译的数据处理

6.1.4 检验结果分析

6.1.4.1 信息需求数量的相关因素分析

6.1.4.2 搜索频次在非常规任务中的分布特点

6.1.4.3 搜索频次离群值的分析

6.1.4.4 讨论

6.2 信息资源和任务类型的相关性分析

6.2.1 假设2 的提出

6.2.2 假设2 的检验

6.2.2.1 数据检验与分析

6.2.2.2 每个信息需求求解所用的资源分析

6.2.2.3 讨论

6.3 信息需求表征方式的改变频次与任务类型的相关性分析

6.3.1 假设3 的提出

6.3.2 假设3 的检验

6.3.2.1 数据检验

6.3.2.2 信息需求与信息资源的分析

6.3.2.3 提问式词项改变的分析

6.3.2.4 提问式改变策略的分析

6.3.2.5 信息需求表征方式改变风格的分析

6.3.2.6 讨论

6.4 搜索时长的两个相关性分析

6.4.1 搜索时长与任务类型的相关性分析

6.4.1.1 假设4.1 的提出

6.4.1.2 假设4.1 的检验

6.4.1.3 结果分析和讨论

6.4.2 搜索时长与信息需求解决正确率的检验和分析

6.4.2.1 假设4.2 的提出

6.4.2.2 假设4.2 的检验

6.4.2.3 搜索效率的分析

6.4.2.4 搜索效率离群值的分析

6.4.2.5 搜索时长和译文总得分的相关性分析

第七章余论

7.1 余论

7.1.1 学生译者的对比调查

7.1.2 搜索的特征

7.2 研究意义

7.3 研究局限性

7.4 未来展望

参考文献

附录一职业译者调查问卷

附录二学生译者调查问卷

附录三实验材料一

附录四实验材料二

附录五实验材料三

附录六实验建议书

附录七非常规任务中信息需求表征方式改变频次多于常规任务的信息需求与信息资源表

（6）基于专业医学书籍的疾病信息搜索引擎的研究与实现（论文提纲范文）

摘要

abstract

1 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 搜索引擎的分类与概述

1.2.2 国外研究现状

1.2.3 国内研究现状

1.3 研究内容与技术路线

1.3.1 研究内容

1.3.2 技术路线

1.4 论文的组织

1.5 本章小结

2 异构医学数据源的研究与形式化表达

2.1 专业医学书籍的解析与形式化表达

2.2 门诊病历的解析与形式化表达

2.3 医学专家经验的解析与利用

2.4 本章小结

3 基于医学书籍的疾病信息搜索引擎的构建

3.1 信息检索模型的分类

3.2 布尔模型

3.3 概率模型

3.4 向量空间模型

3.4.1 倒排索引结构

3.4.2 用户查询信息的空间向量化表达

3.4.3 疾病文档信息的空间向量化表达与计算

3.5 评价指标与实验分析

3.5.1 评价指标

3.5.2 实验分析

3.6 本章小结

4 基于单一机器学习算法的Query与疾病的相关性模型

4.1 基于朴素贝叶斯的Query与疾病相关性模型

4.2 基于决策树的Query与疾病的相关性模型

4.3 实验结果与实验分析

4.3.1 病历处理和训练集构造

4.3.2 实验对比

4.3.3 实验分析

4.4 本章小结

5 基于集成学习算法的Query与疾病相关性模型

5.1 结合Bagging和采样技术的Query与疾病相关性模型

5.2 实验结果与实验分析

5.2.1 实验对比

5.2.2 实验分析

5.3 本章小结

6 基于医学知识的集成学习模型在搜索引擎中的应用

6.1 疾病搜索引擎的系统框架与检索流程

6.1.1 系统框架

6.1.2 检索流程

6.2 搜索引擎的功能与实现

6.3 本章小结

7 总结与展望

7.1 工作总结

7.2 工作展望

致谢

参考文献

攻读学位期间的科研成果

（7）基于改进PageRank算法的医学垂直搜索引擎的研究与实现（论文提纲范文）

摘要

abstract

第一章绪论

1.1 研究背景和意义

1.2 垂直搜索引擎研究现状

1.3 论文的主要研究内容

1.4 论文的组织结构

1.5 本章小结

第二章搜索引擎相关技术研究

2.1 搜索引擎工作原理

2.2 搜素引擎的体系结构

2.2.1 网络爬虫模块

2.2.2 预处理模块

2.2.3 查询服务模块

2.3 中文分词技术

2.3.1 基于字符串匹配的分词方法

2.3.2 基于统计的分词方法

2.3.3 基于语义理解的分词方法

2.3.4 中文分词小结

2.4 系统框架Nutch

2.5 Lucene技术

2.6 本章小结

第三章医学主题相关性判别

3.1 初始URL的选取

3.2 主题相关性判定模型

3.3 超链接判别

3.4 元信息判别

3.5 词库判别

3.6 本章小结

第四章 PageRank算法的改进

4.1 PageRank算法

4.1.1 算法解析

4.1.2 PageRank算法的不足

4.2 HITS算法

4.2.1 算法解析

4.2.2 HITS算法的不足

4.3 PageRank算法和HITS算法比较

4.4 PageRank算法的改进

4.5 算法流程

4.6 本章小结

第五章医学垂直搜索引擎的设计与实现

5.1 需求分析

5.1.1 基本功能需求分析

5.1.2 基本性能需求分析

5.2 搜索引擎总体设计思路

5.3 主题爬虫模块的设计实现

5.3.1 Nutch中文分词的实现

5.3.2 主题词库的建立

5.3.3 主题爬虫运行效果

5.4 检索模块的设计与实现

5.4.1 检索的后台实现

5.4.2 检索的前台实现

5.5 本章小结

第六章系统运行与测试分析

6.1 开发环境介绍

6.1.1 软硬件开发平台

6.1.2 环境变量设置

6.2 开发环境搭建

6.3 垂直搜索引擎测试与分析

6.3.1 分词模块测试

6.3.2 主题爬虫性能测试

6.3.3 算法验证

6.4 本章小结

第七章总结与展望

7.1 总结

7.2 展望

参考文献

攻读学位期间取得的研究成果

致谢

（8）基于Nutch的医学领域垂直搜索引擎系统的研究与实现（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 研究背景和意义

1.2 垂直搜索引擎研究现状

1.3 论文内容与组织结构

第2章搜索引擎概述

2.1 搜索引擎的分类

2.2 搜索引擎的工作原理

2.3 搜索引擎的组成模块

2.4 中文分词技术

2.5 Lucene技术

2.6 系统框架Nutch

2.7 本章小结

第3章医学领域垂直搜索引擎的总体分析与设计

3.1 医学领域现状分析

3.2 搜索引擎设计思想及总体流程分析

3.3 初始URL的确定

3.4 网页解析模块

3.5 中文分词模块

3.6 本章小结

第4章主题爬虫模块的分析与设计

4.1 网络爬虫策略

4.2 网络爬虫的分类

4.2.1 通用网络爬虫

4.2.2 主题网络爬虫

4.3 网络爬虫的结构设计

4.4 网页分块

4.5 主题网页判别

4.6 本章小结

第5章信息检索模块的分析与设计

5.1 索引的建立

5.2 信息的检索

5.2.1 信息检索模型

5.2.2 信息检索的实现

5.2.3 存在问题分析及其完善

5.3 信息检索中的网页排序

5.3.1 Page Rank算法

5.3.2 存在问题

5.3.3 算法的完善

5.4 本章小结

第6章医学领域垂直搜索引擎系统的实现

6.1 系统开发环境

6.2 医学领域垂直搜索引擎系统的实现

6.3 系统性能分析

6.3.1 主题爬虫性能评价

6.3.2 搜索结果分析

6.4 本章小结

第7章总结与展望

7.1 工作总结

7.2 研究展望

致谢

参考文献

（9）糖尿病网络管理平台的设计及研究（论文提纲范文）

摘要

abstract

第一章绪论

1.1 本课题的背景

1.2 糖尿病网络管理国内外的发展现状

1.3 本课题的主要研究内容及其意义

1.4 本文的组织结构

第二章糖尿病网络管理平台的需求分析

2.1 糖尿病患者的需求分析

2.2 医生管理糖尿病的需求分析

2.3 平台的功能分析

2.4 本章小结

第三章糖尿病网络管理系统的设计与实现

3.1 系统开发环境及技术的选择

3.1.1 B/S网络结构模式

3.1.2 WEB前端技术

3.1.3 服务器端脚本语言PHP

3.1.4 WEB服务器Apache

3.1.5 MySQL数据库服务器

3.1.6 操作系统的选择

3.1.7 其他相关技术

3.1.8 系统的开发环境

3.2 系统的设计

3.2.1 系统的目标

3.2.2 系统的结构模型

3.2.3 系统的功能结构

3.3 系统数据库表的设计与实现

3.3.1 数据库的设计

3.3.2 数据库表的实现

3.4 系统框架及公共文件的实现

3.4.1 搭建系统框架

3.4.2 数据库的连接

3.4.3 Smarty模板的配置

3.4.4 xmlhttprequest对象

3.5 糖尿病患者模块的实现

3.5.1 登录界面

3.5.2 个人信息

3.5.3 血糖记录

3.5.4 诊断结果

3.5.5 医患互动

3.5.6 健康指南

3.5.7 其他功能

3.6 医生管理糖尿病模块的实现

3.6.1 登录界面

3.6.2 待诊管理与诊断管理

3.6.3 疗效评估

3.6.4 医患互动

3.6.5 其他功能

3.7 超级管理员模块的实现

3.7.1 登录界面

3.7.2 注册医生账户

3.7.3 用户信息管理

3.8 系统测试

3.8.1 系统安全性测试

3.8.2 系统功能性测试

3.9 本章小结

第四章糖尿病信息在中文搜索引擎中检索效果的分析研究

4.1 搜索引擎的概念

4.1.1 通用搜索引擎

4.1.2 医学搜索引擎

4.2 糖尿病信息在中文通用搜索引擎中检索效果的对比研究

4.2.1 研究方法

4.2.2 被试对象

4.2.3 数据说明

4.2.4 数据分析

4.2.5 结果与讨论

4.2.6 小结

4.3 糖尿病信息在中文医学搜索引擎中检索效果的对比研究

4.3.1 研究方法

4.3.2 被试对象

4.3.3 数据说明

4.3.4 数据分析

4.3.5 结果与讨论

4.3.6 小结

4.4 糖尿病信息在中文通用及医学搜索引擎中检索效果的对比研究

4.4.1 研究方法

4.4.2 被试对象

4.4.3 数据说明

4.4.4 数据分析

4.4.5 结果与讨论

4.4.6 小结

4.5 本章小结

第五章总结与展望

5.1 全文总结

5.2 后续工作展望

致谢

参考文献

攻读硕士学位期间取得的成果

（10）生物医学专题信息跟踪与服务系统关键技术的研究与应用（论文提纲范文）

摘要

ABSTRACT

第一章引言

1.1 课题背景

1.2 目的和意义

1.3 论文内容与研究成果

第二章系统关键技术需求分析

2.1 系统功能概述

2.1.1 系统功能模块

2.1.2 系统使用环境

2.1.3 系统性能要求

2.2 系统所需关键技术

2.3 关键技术实现方式及工具软件选择依据

2.3.1 适用性

2.3.2 易获得性

2.3.3 可扩展性

2.3.4 可持续性

2.3.5 标准化

第三章关键技术的研究

3.1 网页抓取技术

3.1.1 原理

3.1.2 现状与趋势

3.1.3 技术选择

3.2 全文检索技术

3.2.1 原理

3.2.2 现状与趋势

3.2.3 技术选择

3.3 中文分词技术

3.3.1 原理

3.3.2 现状与趋势

3.3.3 技术选择

3.4 垂直搜索引擎技术

3.4.1 垂直搜索引擎简介

3.4.2 垂直搜索引擎的关键技术

第四章生物医学信息垂直搜索引擎的构建

4.1 设计思路

4.2 垂直搜索引擎的体系结构

4.3 技术实现

4.3.1 获取信息源

4.3.2 数据抓取及解析

4.3.3 索引和检索

4.3.4 中文分词

4.3.5 增量抓取

4.4 系统效果

第五章总结与讨论

参考文献

文献综述

参考文献

个人简历

致谢

发表文章1

发表文章2

四、通用搜索引擎与医学搜索引擎的比较研究（论文参考文献）

[1]电子病历搜索引擎中的新词发现和排序技术研究[D]. 吴进发. 电子科技大学, 2021(01)
[2]基于改进的Shark-Search算法的健康垂直搜索引擎的研究与实现[D]. 陈豪. 南昌大学, 2020(01)
[3]面向自动问答的学术搜索通用查询语言设计与实现[D]. 戚越. 武汉大学, 2020(04)
[4]搜索引擎平台封锁行为的反竞争效应研究[D]. 杨越. 浙江财经大学, 2019(06)
[5]英汉职业翻译中的译者搜索行为研究 ——以任务熟悉度为视角[D]. 王静. 上海外国语大学, 2019(07)
[6]基于专业医学书籍的疾病信息搜索引擎的研究与实现[D]. 李涵. 西安理工大学, 2018(01)
[7]基于改进PageRank算法的医学垂直搜索引擎的研究与实现[D]. 周米雪. 长安大学, 2017(02)
[8]基于Nutch的医学领域垂直搜索引擎系统的研究与实现[D]. 卢群乐. 东华理工大学, 2015(04)
[9]糖尿病网络管理平台的设计及研究[D]. 刘玲. 电子科技大学, 2014(03)
[10]生物医学专题信息跟踪与服务系统关键技术的研究与应用[D]. 王小磊. 中国人民解放军军事医学科学院, 2011(07)

标签：搜索引擎论文; 垂直搜索论文; 相关性分析论文; 搜索引擎基本工作原理论文; 算法交易论文;

通用搜索引擎与医学搜索引擎的比较研究

一、通用搜索引擎与医学搜索引擎的比较研究（论文文献综述）

二、通用搜索引擎与医学搜索引擎的比较研究（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、通用搜索引擎与医学搜索引擎的比较研究（论文提纲范文）

（1）电子病历搜索引擎中的新词发现和排序技术研究（论文提纲范文）

（2）基于改进的Shark-Search算法的健康垂直搜索引擎的研究与实现（论文提纲范文）

（3）面向自动问答的学术搜索通用查询语言设计与实现（论文提纲范文）

（4）搜索引擎平台封锁行为的反竞争效应研究（论文提纲范文）

（5）英汉职业翻译中的译者搜索行为研究 ——以任务熟悉度为视角（论文提纲范文）

（6）基于专业医学书籍的疾病信息搜索引擎的研究与实现（论文提纲范文）

（7）基于改进PageRank算法的医学垂直搜索引擎的研究与实现（论文提纲范文）

（8）基于Nutch的医学领域垂直搜索引擎系统的研究与实现（论文提纲范文）

（9）糖尿病网络管理平台的设计及研究（论文提纲范文）

（10）生物医学专题信息跟踪与服务系统关键技术的研究与应用（论文提纲范文）

四、通用搜索引擎与医学搜索引擎的比较研究（论文参考文献）

猜你喜欢