搜索引擎与数据挖掘的关系?如题!
在研究理解两者之间的关系前我们必须对数据挖掘技术有一定的了解。下面介绍一下什么是数据挖掘以及其发展的现状和未来方向。
一、数据挖掘的含义和研究现状
数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义,例如:
SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。
Bahraini(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。
Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义...全部
在研究理解两者之间的关系前我们必须对数据挖掘技术有一定的了解。下面介绍一下什么是数据挖掘以及其发展的现状和未来方向。
一、数据挖掘的含义和研究现状
数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义,例如:
SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。
Bahraini(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。
Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。
一般认为:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘的任务主要是
1.分类:按照分析对象的属性、特征,建立不同的组类来描述事物。
例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。
2.聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。
3.关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。
例如:今天银行调整利率,明天股市的变化。
4.预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。
5.偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。
例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。
数据挖掘的研究现状:
数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为企业进行决策的依据。
目前,国外在数据挖掘方面的发展趋势及研究主要有:对知识发现方法的进一步研究,如近年来注重对Bayes方法以及Boosting方法的研究和提高;统计学回归法在KDD中的应用;KDD与数据库的紧密结合;对网络信息挖掘方法的研究等。
国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成立了相应的研究中心,一些公司的相关软件也开始在国内销售,如Platinum、BO以及IBM。
国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。
所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、"九五"计划等。
二、搜索引擎的主要技术及其应用和发展趋势
搜索引擎(Search Engines)是一个对互联网上的信息资源进行搜集整理,然后供你查询的系统。
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。
1。搜索器
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。
2。索引器
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
3。检索器
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
4。用户接口
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。
用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。
搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。
又由于搜索引擎有大量的用户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向。
1。十分注意提高信息查询结果的精度,提高检索的有效性
用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。
对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。
2。基于智能代理的信息过滤和个性化服务
信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如Web知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤),并自动地将用户感兴趣的、对用户有用的信息提交给用户。
智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可以在用户端进行,也可以在服务器端运行。
3。采用分布式体系结构提高系统规模和性能
搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。
但当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。
4。重视交叉语言检索的研究和开发
交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用母语显示。
该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天,无疑具有很重要的意义。
三、搜索引擎在网络信息挖掘中的应用
提到搜索引擎,人们会马上想到Google,从技术角度讲,Google是第二代搜索引擎的典型代表。
从Google诞生至今已有六年多时间,Internet上先后诞生了数千个提供检索服务的站点,著名的有Google、Dog pile、百度等。虽然这些站点的搜索引擎在收录的范围、内容、检索方法上各有不同,技术上各具特色,但它们在引擎的技术原理上却是一致的,始终处于第二代搜索引擎范畴。
我们以Google为例,剖析网络信息检索在网络信息挖掘中的应用。
Google的搜索机制是:几个分布的Crawler(自动搜索软件)同时工作——在网上“爬行”,URL服务器负责向Crawler提供URL的列表。
Crawler所找到的网页被送到存储服务器中。存储服务器于是把这些网页压缩后存入一个知识库(repository)中。每个网页都有一个关联ID——doc ID,当一个新的URL从一个网页中解析出来时,就被分配一个doc ID。
索引库和排序器负责建立索引,索引库从知识库中读取记录,将文档解压并进行解析。每个文档就转换成一组词的出现状况,称为hits。hits记录了词、词在文档中的位置、字体大小、大小写等。索引库把这些hit又分成一组“barrels”,产生经过部分排序后的索引。
索引库同时分析网页中所有的链接,并将重要信息存在Anchors文档中,该这个文档包含了足够信息,可以用来判断一个链接被链入或链出的结点信息。
URL分解器阅读Anchors文档,并把相对的URL转换成绝对的URLs,并生成doc ID,它进一步为Anchor文本编制索引,并与Anchor所指向的doc ID建立关联。
同时,它还产生由doc ID对(pairs of doc ID)所形成的数据库。这个链接数据库(Links)用于计算所有文档的页面等级。
排序器会读取barrels,并根据词的ID号(word ID)列表来生成倒排挡。
一个名为Dump Lexicon的程序则把上面的列表和由索引库产生的一个新的词表结合起来产生另一个新的词表供搜索器(Searcher)使用。这个搜索器就是利用一个Web服务器,并使用由Dump Lexicon所生成的词表,并利用上述倒排挡以及页面等级来回答用户的提问。
从Google的体系结构、搜索原理中可以看到,其关键是:利用URL分解器获得Links信息,并且运用一定的算法得出页面等级的信息,这正是网络结构挖掘技术。
网络信息挖掘的应用前景
在国外,数据挖掘技术已经广泛地应用于金融业,零售业,远程通讯业,政府管理,制造业,医疗服务以及体育事业中,而它在网络中的应用也正在成为一个热点。
网络信息挖掘的应用涉及到电子商务,网站设计和搜索引擎服务等众多方面。下面主要从这三个方面介绍其应用。
1。电子商务
运用网络用法挖掘技术能够从服务器以及浏览器端的日志记录中自动发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而做出预测性分析。
例如通过评价用户对某一信息资源浏览所花的时间,可以判断出用户对资源兴趣如何;对日志文件所收集到的域名数据,根据国家或类型(。com,。edu,。gov)进行分类分析;应用聚类分析来识别用户的访问动机和访问趋势等。
这项技术已经有效地运用在电子商务之中。
2。网站设计
通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性(hierarchy)组织;同时可以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,从而有助于开展网站信息推送服务以及个人信息的定制服务。
目前PDA(Personal Digital Assistant个人数字助理)以及Cellular phone(移动电话)都已经可以直接接受网络信息服务。这些设备的显示界面较小,因而网站面向这些设备的设计就应当突出精品化,个性化的特点,而这类特色推送服务就必须采用网络信息挖掘技术。
3。搜索引擎
网络信息挖掘技术在搜索引擎上的应用我们已经作了一些介绍。Google搜索的最大特色就体现在它所采用的对网页Links信息的挖掘技术上。而实际上,网络信息挖掘是目前网络信息检索发展的一个关键。
如通过对网页内容挖掘,可以实现对网页的聚类,分类,实现网络信息的分类浏览与检索;同时,通过用户所使用的提问式(query)的历史记录的分析,可以有效地进行提问扩展(query expansion),提高用户的检索效果(查全率,precision;查准率,recall);另外,运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。
网络信息挖掘这项技术的应用正变得越来越广泛;用户对高品质,个性化的信息的需求也将进一步推动着学术界与实业界的研究开发工作。收起