探究数据挖掘技术在水利工程管理论文

江湖骗酱 分享 时间: 收藏本文

【简介】感谢网友“江湖骗酱”参与投稿,下面是小编精心整理的探究数据挖掘技术在水利工程管理论文(共14篇),仅供参考,大家一起来看看吧。

篇1:探究数据挖掘技术在水利工程管理论文

探究数据挖掘技术在水利工程管理论文

1 引 言

我国长期以来兴建了一大批水利工程,初步形成了具有防洪、排涝、灌溉、供水、发电、养殖、种植、旅游等功能要素的水利工程体系,为国民经济的高速发展发挥了巨大的基础作用和支撑作用。 在水利工程建设取得辉煌成就的同时,人们逐渐意识到我们在水利工程的管理上还存在着手段比较落后,重建轻管、水利资源利用率低等突出问题,致使一大批水利工程不能发挥其价值,或者工程寿命大大缩短。 穆范椭 等分别从制度管理、机制管理、人力资源管理等几个方面对水利工程管理中存在的问题进行了论述,并提出了不少可行性的解决措施。 不可否认,水利工程管理中出现的问题,不少是制度上的问题,但水利工程管理有其特殊性、复杂性,需要广博的知识和高超的技术,单纯靠“软管理”是不能从根本上解决问题的,必须借助一些现代化的信息手段来辅助进行决策和管理, 才能够更好、更科学地解决问题。

近年来,在水利工程信息化的过程中,我国建设了一大批水利工程管理信息系统,对于水利工程的建设和运行管理起到了很好的帮助作用。 但是,这些系统所提供的功能大多是业务型的,很少面向管理决策。 随着水利工程管理向现代化纵深发展, 这些系统远远满足不了人们的需要。 另一方面,水利工程管理信息系统在发展过程中积累了海量的数据,不少是空间类型的数据,而且这些数据还在不断地增长,而相比于数据的生产、运输和累积能力,人类对空间数据的分析能力还很落后 。 人们虽然深知这些海量数据中蕴含了很多有价值的知识,但是不知道如何利用它们, 而依靠传统的信息系统是解决不了这些问题的。数据挖掘技术的出现为这些问题的解决带来了可能。 所谓数据挖掘,就是从海量数据中发现潜在的、有价值的知识的过程。 传统的数据挖掘技术和方法一般作用于非空间数据,而水利工程管理方面的数据不但有非空间数据,还有大量的空间数据。 和非空间数据相比,空间数据除了具备非空间数据的特征外,还有拓扑、方位和距离等非空间特征,因此其挖掘技术的实现有其特殊性。 在武汉大学李德仁院士首次提出空间数据挖掘这一概念后,国内外不少学者为此开展了广泛的研究。

2 空间数据挖掘在水利工程管理中应用需要解决的主要问题

水利工程管理信息系统中存在着大量的空间数据,因此需要采用空间数据挖掘技术。 和一般的空间数据挖掘系统相比,对水利工程数据的挖掘需要考虑其历史发展因素和特殊性。 首先,水利工程是一个系统工程,其有效管理往往需要多领域、多部门的专家相互协作,一项重要决策的做出往往需要对历史数据从各种维度进行分析,反复考虑各种因素,综合各个专家的意见才能形成,而不同的专家和决策者会从不同的角度来分析数据,因此对水利工程数据的挖掘需要交互探查或查询驱动的方法,在技术实现上需要采用数据仓库和数据立方体支持这种探查式的、快速的联机查询和分析。 其次,在用的水利工程信息系统的主体是 GIS (Geographical Information System, 地理信息系统),大部分的空间数据是由 GIS 系统生成的,空间数据的查询、计算、分析和可视化显示是一种复杂的技术,因此如何利用原有的 GIS 系统中的数据,数据挖掘如何和 GIS 集成以进行复杂的空间数据处理成为一个需要解决的重要问题。最后,要实现水利工程的数据挖掘,需要建立一个数据挖掘系统模型,模型在系统工程的研究、设计和实现中是一个非常重要的问题,一个好的模型对了解系统本质特征、揭示系统的规律起到非常重要的作用,建模也是实现一个工程系统的重要一步。 因此,要想实现空间数据挖掘技术在水利工程管理中的应用,这 3 个问题是我们不可回避的、必须研究的核心问题。

3 空间数据仓库

水利工程信息化的过程中产生了海量的数据,而数据仓库是处理海量数据的关键技术,它可以将不同来源的数据统一到语义上一致的环境下。 在水利工程信息系统中除了有丰富的非空间数据外,还有大量的空间数据,如地图、预处理过的遥感图像、视频等。 空间数据与非空间数据相比,除了具备传统数据库数据的特征外,还携带了空间特征,如拓扑、方位、距离等。 “空间数据仓库是面向主题的、集成的、时变的和非易失性的.非空间数据和空间数据的集合”, 用于支持空间数据挖掘和与空间数据相关的决策过程。 建立空间数据仓库是一个具有挑战性的工作,需要解决两个方面的问题:集成来自异构数据源和系统的空间数据;如何在空间数据仓库中实现快速而灵活的联机分析处理。

影响水利工程建设和管理决策的数据来源是丰富多样的,如气象数据库、蓄滞洪区空间分布式社会经济数据库、雨情和水情数据库、水旱灾情数据库等,它们往往存在于异构的环境中,可能来自于不同的系统,数据格式多种多样。 数据格式不仅与特定的结构有关,如光栅格式和矢量格式,而且与特定的厂家有关。 为了能够进行空间数据的分析和处理, 需要首先对这些异构的数据进行清洗、变换和集成,以清晰一致的格式存放在数据仓库中,然后可以调用相应的数据挖掘算法获取有用的知识。 空间数据仓库已成为联机数据分析处理和数据挖掘必不可缺的平台。利用空间数据仓库技术, 可以对异构的各类信息进行过滤、集中和综合,完成水情信息采集、工情信息采集、防汛抗旱信息等水利工程信息的自动接收、处理等功能,在此基础上可以进行汛情分析、暴雨洪水预报、调度、灾情评估以及旱情预测等知识发现功能。

空间数据仓库、OLAP(On-Line Analytic Process,联机分析处理)和 OLAM(On-Line Analytic Mining,联机分析挖掘)的实现基于多维数据模型,这种模型围绕中心主题组织数据,将数据看作数据立方体的形式。 数据立方体允许从多维对数据建模和观察,它由维和事实来定义。 数据仓库有星型模式、雪花型模式或事实星座型模式。 在这 3 种结构中,星型模式提供了简洁而有组织的仓库结构,便于进行 OLAP 和 OLAM 操作,所以是空间数据仓库建模的好选择。相比于传统的数据立方体,空间数据立方体中存在 3种类型的维:非空间维、空间到非空间维和空间到空间维;有两种不同的度量:数值度量和空间度量 。

4 水利工程

GIS 系统与数据挖掘系统结合的方式水利工程的建设和管理与其所在地的地形、 地质、社会、经济以及河流的水文等空间要素有关,而 GIS 善于处理和分析空间信息,因此大多水利工程在信息系统中采用了 GIS 技术。 GIS 是空间数据库发展的主体。 GIS 中含有大量的空间和属性数据,有着比一般关系数据库和事务数据库更加丰富和复杂的语义信息, 隐藏着丰富的知识。

空间数据挖掘和知识发现技术,一方面可使 GIS 查询和分析技术提高到发现知识的新阶段,另一方面从中发现的知识可构成知识库用于建立智能化的 GIS 系统,同时也将促进 3S(GIS/RS/GPS)的智能化集成,因此很有必要探讨GIS 系统与数据挖掘系统的结合方式。 当数据挖掘系统工作在一个需要与其他信息系统成分通信的环境下,可以采用不耦合、松散耦合、半紧密耦合和紧密耦合 4 种方案。 不耦合方案虽然简单,但缺点不少,是一种非常糟糕的设计。 雷宝龙和李春梅提出了 GIS 与空间数据挖掘集成的3 种模式:松散耦合式、嵌入式和混合型空间模型法。在此基础上对上述 3 种模式进行了改进,以适合于水利工程 GIS 系统和空间数据挖掘系统的集成。

4.1 嵌入式

嵌入式是将数据挖掘系统融入到 GIS 中,也就是说系统既是一个 GIS 系统,又是一个数据挖掘系统。 嵌入式的优点是可以充分利用 GIS 系统所提供的空间数据处理和分析功能来开发数据挖掘系统, 减少了开发的工作量,降低了开发的难度;其缺点是数据挖掘功能被限制在特定的GIS 系统中,难以移植到其他的 GIS 系统上,而且这种方式会因为考虑到一种用户的需求,而限制另一部分用户的需求,从而使系统功能的开发受到限制。

4.2 松散耦合式

在松散耦合式下,数据挖掘系统和 GIS 系统实际上是两个独立的系统,数据挖掘系统从 GIS 中获取空间数据和属性数据,经过清洗、过滤和变换后存入自身的数据库或数据仓库中,数据挖掘所进行的其他工作与 GIS 系统没有任何联系。 这种模式的优点是数据挖掘系统不依赖于特殊的 GIS 系统,可以开发出独立的、相对通用的空间数据挖掘系统;缺点是在数据挖掘系统中要融入复杂的空间数据的处理,系统开发的难度很高。 4.3 紧密耦合式紧密耦合式克服了嵌入式和松散耦合式的缺点,既充分利用了原有 GIS 的处理空间数据的强大功能,降低了开发的难度, 又不受制于原有 GIS 系统的用户需求的制约,具有较大的灵活性,提供了相对独立的数据挖掘功能。 其缺点是和原来系统联系密切,开发的数据挖掘系统往往依赖于 GIS 系统。

在这 3 种结合方式中, 紧密耦合式有着明显的优点,是建立水利工程数据挖掘系统优先考虑的方式。

5 水利工程数据挖掘系统模型

文献介绍了国外几个相对比较成熟的空间数据挖掘系统:GeoMiner、MultiMediaMiner、SKICAT 等, 然后提出了作者领导的空间数据挖掘团队研究和开发的两种空间数据挖掘原形系统 GISDBMiner 和 RSImageMiner,并提出了 GIS 空间数据挖掘系统的体系结构。 文献介绍了现有的数据挖掘模型:OLAM 模型和影响域模型,以及 GeoMiner 原型系统的体系结构,最后提出了一个基于空间立方体的数据挖掘模型。 文献提到了 Han 提出的通用数据采掘原型 DBLEARN/DBMINER、Holsheimer 等人提出的并行体系结构,以及 Matheus 等人提出的多组件体系结构,并重点介绍了 Matheus 等人的多组件体系结构。水利工程管理决策大多是复杂的非结构化决策,需要进行探查性或查询驱动型的数据挖掘,以方便不同的决策者和专家从不同的领域或角度进行数据探查和分析。 一般情况下,在挖掘过程中需要进行人机的多次对话,然后结合人类专家的隐性知识,才能够发现有价值的知识。 因此自动化的挖掘方法不适合于水利工程数据挖掘。

模型分为 4 层,分别为数据存储层、多维数据库与数据仓库层、OLAP/OLAM 层、用户界面层。 第一层数据存储层的数据主要来源于水利工程数据库和相关的异构数据库,元数据用于指导数据的清理、过滤和集成,是构建水利工程数据仓库重要的技术手段。 第一层的数据经过变换和集成后,存储到数据仓库和多维数据库中,它们是实现第三层 OLAP/OLAM 分析所需要的重要的数据源。 该模型的核心是 OLAP/OLAM, 它们是支持探查性知识发现的核心技术。 第四层是用户界面层,用来帮助用户实现基于约束的挖掘查询,并将挖掘结果显示给用户。

6 空间挖掘可以采用的方法与发现的知识类型

数据挖掘在水利工程管理上的应用,不仅可以建设智能型的 GIS 系统,促进遥感技术和 GIS 技术的深入应用,还可以从数据中发现潜在的、有价值的知识或规则,用于指导水利工程的建设和管理。 一般来说,传统的数据挖掘方法如统计、分类、聚类等都可用于空间数据挖掘,但我们不能简单地把这些方法直接应用在空间数据的挖掘上 。一方面, 因为空间数据除了具备一般非空间数据的特征外,还具备拓扑、方位、距离等空间特征;另一方面,传统的数据挖掘算法一般假定数据对象统计不相关、相邻的数据对象是独立产生的,而空间数据的相邻对象间存在着关联和相互影响,因此需要对原有的方法进行改进,使得数据挖掘方法适合于地理空间数据的挖掘。 在空间数据挖掘与知识发现中可采用的方法主要有:统计方法、归纳方法、聚类方法、空间分析方法、探测性的数据分析、Rough 集方法、云理论、图像分析和模式识别等。 能发现的知识类型有:(1)普遍的几何知识,如计算和统计出空间目标几何特征量的最小值、最大值、均值、方差、众数等;(2)空间分布规律,如机井、水库的分布规律。 能发现的规则有:(1)空间关联规则,如地下水与降雨量的关系,河水质量与污染企业分布的关系;(2)空间的聚类规则;(3)空间演变规则,如水库泥沙淤积的演变规律, 河道周围生态的演变规律。需要注意的是,为了便于理解空间数据、发现空间联系、发现空间数据与非空间数据之间的关系,应重视可视化的方法在水利工程数据挖掘过程和挖掘结果的使用。

7 结 语

利用空间数据挖掘技术,对具有空间特征的水利工程数据进行分析,能够发现潜在有价值的知识,利用这些知识,能够降低工程管理的成本,有效利用建设和维护资金,更好地发挥水利工程的效益,为水利工程的管理决策提供依据。 要实现数据挖掘技术在水利工程中的应用,必须研究和解决数据仓库和数据立方体的应用、 数据挖掘与 GIS集成和水利工程数据挖掘系统模型 3 个核心问题。 本文对这 3 个问题进行了探讨,认为数据仓库是水利工程数据挖掘的基础, 宜采用紧密耦合式结构与 GIS 系统进行集成,在挖掘模型上可以采用基于 OLAP 和 OLAM 的 4 层框架。

篇2:浅析水利工程管理中数据挖掘技术应用论文

浅析水利工程管理中数据挖掘技术应用论文

引言

近几年,中国经济建设的快速发展也带动了水利这些基础建设的发展,水利工程的增多正在逐渐改善我国的水利体系,如防洪、排水、灌溉、发电、养殖、旅游等,同时也反过来促进国民经济更加稳健发展。此外,为了能加快水利工程建设的发展,需要在水利工程管理上做出新的调整,以给水利工程注入新鲜血液,使水利工程起到更巨大的作用。因此,本文通过阐述数据挖掘技术的一些实施要点,探讨了数据挖掘技术在水利工程中的可行性和应用情况。

1数据挖掘

从另一个角度看,数据挖掘是资料收集、信息化采矿等。在水利工程项目管理过程中,数据挖掘技术的应用对水利工程项目的管理起着重要的推动作用。同时,数据挖掘是从数据库中发掘信息的过程(数据库知识发现)。数据挖掘的主要应用于大量的数据的采集整理,通过搜索算法来隐藏信息的过程。同样,在当今的信息时代,数据挖掘与计算机和先进的科学技术密切相关,通过计算机、互联网搜索、统计、分析、和其他方面的发展,可服务于许多行业和许多项目,本文借助于某市的水利工程,详细的阐述了其在现场数据管理中的应用情况。

2浅析数据挖掘技术实施方法

数据挖掘是以现有的海量数据为重要资源,采用数据挖掘引擎技术,通过分析数据库中的数据,提取出最有价值的信息。

2.1相关性分析

通过数据源之间的相关性,找到所需的目标数据和扩展的信息,通过数据之间的联系找到规律,以便更好地分析数据的使用情况。

2.2数据的分类与整合

为了达到对更多的数据进行分类和整合的目的,对于没有规律和类型的标记数据按照相关的分类规则,以同一规则将信息汇总在一起,方便查找和应用数据,提高工作效率。

2.3坚持预测分析

在数据源中坚持预测分析,通过对重要数据进行建模,对信息进行综合有效的分析和预测,从而得出数据的发展趋势。让数据本身通过数据挖掘技术得出必要的结论。

2.4把握概念

通过了解数据源中所需信息的含义,总结主要特点,并给出概念描述,使数据具有高度的清晰度。

2.5把握据偏差

数据在输入和输出时不可避免地会出现差错,通过数据挖掘技术检测数据准确性是必要的,要找出参考值与结果之间是否存在差异,寻找一些潜在的信息,以减少数据误差。

3数据挖掘技术在水利工程管理中的应用出现的问题

3.1部门专家观点之间存在差异

在水利工程管理中使用了大量的数据,特别是采煤工艺在处理大空间问题上,加之水利部门普遍较大,且越来越多,需要与各部门协调配合工作。但不同的部门通常只负责沟通、交流的时间少,再加上数据分析技术落后于实践,各部门使用的仪器不一样,在数据点的分析上各专家持不同意见,这将阻碍数据处理,从而影响部门之间的合作,数据非常容易干扰,从而影响整个项目进展情况。

3.2与GIS系统联系不密切

GIS在水利工程信息系统中占有很大的比重,是水利工程信息系统中不可缺少的一部分,它的主要功能是产生大量的空间数据,空间数据的.计算、查询和分析,以及空间数据可视化是非常复杂的,单纯的依靠手工和一般信息系统是无法解决的,所以我们应该充分利用GIS系统。然而,在现实中,由于在这方面缺乏专业人才,充分利用原有的数据和GIS系统以进行有效结合,两者一起处理复杂的空间数据,现在还有很多事情要解决。

3.3数据挖掘模型建立不够完善

我国的水利工程虽然已经开展多年,但水利工程信息系统的应用还处于起步阶段。如今,数据挖掘技术模型可以帮助水利工程数据挖掘的人员可以预见在工程设计和施工过程中存在的差距等问题,确保水利工程项目按照原先设定好的方向进展。

4实例分析

4.1概况

某水电站于1963开始建设,于1975年完工,其位于黄河中游的陕西境内,装机容量122万5000kW,是新中国成立以来为数不多的达到百万千瓦的大型水利水电项目。大坝主体结构为混凝土结构,大坝高度为147m,其电站总存储容量为57亿8000万m3。其水利项目主要管理内容包括水库管理、水闸管理、堤防管理、引水工程管理、水利工程管理等。

4.2工程管理数据挖掘模型的构建

数据模型主要功能包括水利工程防洪、除涝、灌溉、运输、发电、水产养殖等,电站周边区域的社会经济和农业发展受其影响尤为巨大。在过去的发展过程中,某市的水利工程在管理和决策中,这些都是比较复杂的非结构化决策。因此,构建一个探索性或查询驱动的数据挖掘模型会给水电站的工作人员和专家在数据检索和专业分析的工作上提供方便,使管理者在管理工作上更加的科学合理。

库和数据仓库OLAP和OLAM层(数据挖掘的核心内容),用户界面层。用户界面层主要功能是管理员或用户进行人际对话、挖掘数据查询、挖掘结果显示以及数据结果输出。

4.3数据挖掘技术与水利工程管理软件的集成

该水利工程项目管理的内容主要包括:管理水库,水闸管理、堤防管理、南水北调工程管理、项目管理、灌溉等方面。虽然数据挖掘有助于这个过程的开展,水给利工程的管理提供了科学依据,但如果该水利工程管理只是单单的进行数据挖掘,这是不符合数据挖掘系统理论的基本思想。因此,只有在现有的、成熟的国内水利工程项目管理成果的基础上,结合数据挖掘系统,这才是开发水电站管理种数据挖掘系统的最佳方式。

国内许多水利工程在管理和施工过程中,最常用的是GIS技术软件。GIS软件具有分析处理功能、空间数据查询功能。GIS技术软件本身蕴含着多样的数据信息,如当地的一些社会经济、地形地貌、地质、水文环境等。所以,对于水利工程管理数据挖掘系统的未来发展,首先要考虑的应该是如何实现GIS系统和数据挖掘理论系统完美衔接。

5总结

综上所述,数据挖掘技术在水利工程管理中的应用使我们能够分析水利工程的数据更加的全面,这样我们就可以充分挖掘潜在的、有价值的信息,使项目管理更加有效率,使工程的投入资金能被合理的利用,从而提高水电工程质量和工作效率,降低项目管理成本,使水电工程发挥出最大的社会效益和经济效益。虽然在挖掘数据方面还存在很多问题,但我们希望能在今后的水电工程管理中更多的去采用这种技术,为项目管理提供更多的帮助,促进国民经济的发展。

篇3:水利工程管理中数据挖掘技术的运用论文

水利工程管理中数据挖掘技术的运用论文

1数据挖掘技术在水利工程管理中面临的主要问题

1.1与GIS系统相孤立

GIS是水利工程信息系统的主体,它可以生成大部分空间数据。但是查询、计算与分析空间数据,使其可视化显示是一项较为复杂的技术,需要充分利用GIS系统。因此,充分利用其原有数据,让数据挖掘与GIS有效的结合,二者共同处理复杂的空间数据是一项重要问题。

1.2数据挖掘系统模型尚未建立

数据挖掘系统模型能帮助水利工程进行数据挖掘。在系统工程中,模型对于研究与设计以及实现工程目标具有重要作用,建构模型是系统工程完美实现的重要基础。

2如何在水利工程中高效利用数据挖掘技术

2.1充分利用GIS系统

水利工程的建设与管理受到地形、地质、河流、水文以及社会经济等多方因素的影响,需要运用处理和分析空间信息能力较强的GIS系统加以帮助。利用GIS系统中的大量空间和属性数据提供数据指导。将数据挖掘技术与GIS系统向结合能有效提高GIS的查询与分析能力,促进智能化系统的建立。

2.2加强嵌入式耦合模式的运用

将数据挖掘系统与GIS进行耦合,形成双系统。让GIS系统为数据挖掘提供基础,同时利用其丰富的空间数据与较强的分析能力减少数据挖掘的开发量,是开发效率达到一个新的突破。

2.3重视松散式耦合

数据挖掘系统与GIS系统既相互联系又彼此独立,数据挖掘仅调用GIS系统中的空间数据与属性数据进行数据分析,让其他数据仍在原系统中进行,二者保持相对的独立性。这样可以促进各自系统的'不断发展,得到更好、更快的开发与利用。

2.4保持紧密式耦合

水利工程管理数据挖掘系统的首选便是紧密式耦合,它将嵌入式与松散式耦合向结合,在相互独立的情况下加强彼此的联系。让数据挖掘系统发挥独立功能,使开发难度有所降低,增强系统的灵活性。

3结语

在水利工程管理中利用数据挖掘技术,对水利工程数据进行全面综合的分析,找出并充分利用有价值的潜在信息,提供更加有效的管理决策,使建设资金得到更加高效的利用,降低工程管理的总成本,让水利工程发挥重大的经济效益与社会效益。该文主要探讨数据挖掘技术的实施方法以及如何在水利工程管理中高效的数据挖掘技术,初步认为在水利工程管理中需要数据挖掘技术与GIS系统的合作,二者的相互协调合作能够充分利用工程数据,促进数据挖掘技术的高效运作,提高水利工程管理水平。希望数据挖掘技术得到更多的开发与利用,为水利工程管理提供更多的帮助,促进国民经济的快速发展。

篇4:数据挖掘技术在客户关系管理中怎么应用探讨管理论文

数据挖掘技术在客户关系管理中怎么应用探讨管理论文

根据波特的影响企业的利益相关者理论,企业有五个利益相关者,分别是客户、竞争对手、供应商、分销商和政府等其他利益相关者。其中,最重要的利益相关者就是客户。现代企业的竞争优势不仅体现在产品上,还体现在市场上,谁能获得更大的市场份额,谁就能在竞争中占据优势和主动。而对市场份额的争夺实质上是对客户的争夺,因此,企业必须完成从“产品”导向向“客户”导向的转变,对企业与客户发生的各种关系进行管理。进行有效的客户关系管理,就要通过有效的途径,从储存大量客户信息的数据仓库中经过深层分析,获得有利于商业运作,提高企业市场竞争力的有效信息。而实现这些有效性的关键技术支持就是数据挖掘,即从海量数据中挖掘出更有价值的潜在信息。正是有了数据挖掘技术的支持,才使得客户关系管理的理念和目标得以实现,满足现代电子商务时代的需求和挑战。

一、客户关系管理(CRM)

CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。

二、数据挖掘(DM)

数据挖掘(Data Mining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。

常用的数据挖掘方法有:

(1)关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购买习惯。

(2)序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果)关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下)随着购买B商品,来发现客户潜在的购买模式。

(3)分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。

(4)聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。

(5)孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。

三、数据挖掘在客户关系管理中的应用

1、进行客户分类

客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的.客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。

2、进行客户识别和保留

(1)在CRM中,首先应识别潜在客户,然后将他们转化为客户

这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为“是”或“否”会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。

(2)在客户保留中的应用

客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科

学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。

(3)对客户忠诚度进行分析

客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。

(4)对客户盈利能力分析和预测

对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。

(5)交叉销售和增量销售

交叉销售是促使客户购买尚未使用的产品和服务的营销手段,目的是可以拓宽企业和客户间的关系。增量销售是促使客户将现有产品和服务升级的销售活动,目的在于增强企业和客户的关系。这两种销售都是建立在双赢的基础上的,客户因得到更多更好符合其需求的服务而获益,公司也因销售增长而获益。数据挖掘可以采用关联性模型或预测性模型来预测什么时间会发生什么事件,判断哪些客户对交叉销售和增量销售很有意向,以达到交叉销售和增量销售的目的。例如,保险公司的交叉营销策略:保险公司对已经购买某险种的客户推荐其它保险产品和服务。这种策略成功的关键是要确保推销的保险险种是用户所感兴趣的,否则会造成用户的反感。

四、客户关系管理应用数据挖掘的步骤

1。需求分析

只有确定需求,才有分析和预测的目标,然后才能提取数据、选择方法,因此,需求分析是数据挖掘的基础条件。数据挖掘的实施过程也是围绕着这个目标进行的。在确定用户的需求后,应该明确所要解决的问题属于哪种应用类型,是属于关联分析、分类、聚类及预测,还是其他应用。应对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来解决用户的需求,然后将进一步确定数据挖掘的目标和制定数据挖掘的计划。

2、建立数据库

这是数据挖掘中非常重要也非常复杂的一步。首先,要进行数据收集和集成,其次,要对数据进行描述和整合。数据主要有四个方面的来源:客户信息、客户行为、生产系统和其他相关数据。这些数据通过抽取、转换和装载,形成数据仓库,并通过OLAP和报表,将客户的整体行为结果分析等数据传递给数据库用户。

3、选择合适的数据挖掘工具

如果从上一步的分析中发现,所要解决的问题能用数据挖掘比较好地完成,那么需要做的第三步就是选择合适的数据挖掘技术与方法。将所要解决的问题转化成一系列数据挖掘的任务。数据挖掘主要有五种任务:分类,估值预测,关联规则,聚集,描述。前三种属于直接的数据挖掘。在直接数据挖掘中,目标是应用可得到的数据建立模型,用其它可得到的数据来描述感兴趣的变量。后两种属于间接数据挖掘。在间接数据挖掘中,没有单一的目标变量,目标是在所有变量中发现某些联系。

4、建立模型

建立模型是选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较好的预测。需要仔细考察不同的模型以判断哪个模型对所需解决的问题最有用。如决策树模型、聚类模型都是分类模型,它们将一个事件或对象归类。回归是通过具有已知值的变量来预测其它变量的值。时间序列是用变量过去的值来预测未来的值。这一步是数据挖掘的核心环节。建立模型是一个反复进行的过程,它需要不断地改进或更换算法以寻找对目标分析作用最明显的模型,最后得到一个最合理、最适用的模型。

5、模型评估

为了验证模型的有效性、可信性和可用性,从而选择最优的模型,需要对模型进行评估。我们可以将数据中的一部分用于模型评估,来测试模型的准确性,模型是否容易被理解模型的运行速度、输入结果的速度、实现代价、复杂度等。模型的建立和检验是一个反复的过程,通过这个阶段阶段的工作,能使数据以用户能理解的方式出现,直至找到最优或较优的模型。

6、部署和应用

将数据挖掘的知识归档和报告给需要的群体,根据数据挖掘发现的知识采取必要的行动,以及消除与先前知识可能存在的冲突,并将挖掘的知识应用于应用系统。在模型的应用过程中,也需要不断地对模型进行评估和检验,并做出适当的调整,以使模型适应不断变化的环境。

篇5:科研数据挖掘技术论文

一、数据挖掘相关概念

数据挖掘技术是近些年发展起来的一门新兴学科,它涉及到数据库和人工智能等多个领域。随着计算机技术的普及数据库产生大量数据,能够从这些大量数据中抽取出有价值信息的技术称之为数据挖掘技术。数据挖掘方法有统计学方法、关联规则挖掘、决策树方法、聚类方法等八种方法,关联规则是其中最常用的研究方法。关联规则算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指从海量数据中挖掘出有价值的能够揭示实体和数据项间某些隐藏的联系的有关知识,其中描述关联规则的两个重要概念分别是Suppor(t支持度)和Confi-dence(可信度)。只有当Support和Confidence两者都较高的关联规则才是有效的、需要进一步进行分析和应用的规则。

二、使用Weka进行关联挖掘

Weka的全名是怀卡托智能分析环境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免费的、非商业化的、基于JAVA环境下开源的机器学习以及数据挖掘软件[2]。它包含了许多数据挖掘的算法,是目前最完备的数据挖掘软件之一。Weka软件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四种模块[2]。其中Explorer是用来探索数据环境的,Experimenter是对各种实验计划进行数据测试,KnowledgeFlow和Explorer类似,但该模块通过其特殊的接口可以让使用者通过拖动的形式去创建实验方案,Simple-CLI为简单的命令行界面。以下数据挖掘任务主要用Ex-plorer模块来进行。

(一)数据预处理

数据挖掘所需要的所有数据可以由系统排序模块生成并进行下载。这里我们下载近两年的教师科研信息。为了使论文总分、学术著作总分、科研获奖总分、科研立项总分、科研总得分更有利于数据挖掘计算,在这里我们将以上得分分别确定分类属性值。

(二)数据载入

点击Explorer进入后有四种载入数据的方式,这里采用第一种Openfile形式。由于Weka所支持的标准数据格式为ARFF,我们将处理好的xls格式另存为csv,在weka中找到这个文件并重新保存为arff文件格式来实现数据的载入。由于所载入的数据噪声比较多,这里应根据数据挖掘任务对数据表中与本次数据任务不相关的属性进行移除,只将学历、职称、论文等级、学术著作等级、科研获奖等级、科研立项等级、科研总分等级留下。

(三)关联挖掘与结果分析

WeakExplorer界面中提供了数据挖掘多种算法,在这里我们选择“Associate”标签下的Apriori算法。之后将“lowerBoundMinSupprot”(最小支持度)参数值设为0.1,将“upperBoundMinSupprot”(最大支持度)参数值设为1,在“metiricType”的参数值选项中选择lift选项,将“minMetric”参数值设为1.1,将“numRules”(数据集数)参数值设为10,其它选项保存默认值,这样就可以挖掘出支持度在10%到100%之间并且lift值超过1.1且排名前10名的关联规则。其挖掘参数信息和关联挖掘的部分结果。

三、挖掘结果与应用

以上是针对教师基本情况和科研各项总分进行的反复的数据挖掘工作,从挖掘结果中找到最佳模式进行汇总。以下列出了几项作为参考的关联数据挖掘结果。

1、科研立项得分与论文、科研总得分关联度高,即科研立项为A级的论文也一定是A。这与实际也是相符的,因为科研立项得A的教师应该是主持了省级或是国家级的立项的同时也参与了其他教师的科研立项,在课题研究的过程中一定会有国家级论文或者省级论文进行发表来支撑立项,所以这类教师的论文得分也会很高。针对这样的结果,在今后的科研工作中,科研处要鼓励和帮助教师搞科研,为教师的科研工作提供精神上的支持和物质上的帮助,这样在很大程度上能够带动整个学校科研工作的进展。

2、副教授类的教师科研立项得分很高,而讲师类教师和助教类教师的科研立项得分很低,这样符合实际情况。因为副教授类的`教师有一定的教学经验,并且很多副教授类的教师还想晋职称,所以大多数副教授类教师都会申请一些课题。而对于讲师类和助教类的教师,由于教学经验不足很少能进行省级以上的课题研究,因此这两类教师的科研立项分数不高。针对这样的结果,在今后的科研工作中,科研处可以采用一帮一、结对子的形式来帮助年轻教师,这样可以使青年教师参与到老教师的科研课题研究工作中去,在课题研究工程中提高科研能力和教学能力。

3、讲师类教师的论文等级不高。从论文得分能够推断出讲师类教师所发表论文的级别不高。为了鼓励这类教师的论文发表,在今后的科研量化工作中对省级、国家级的论文级别进行细化,并且降低一般论文的得分权重,加大高级论文的得分权重。并且鼓励讲师类教师参加假期培训,提高自身的科研和教学水平。

篇6:基于数据挖掘技术的客户关系管理

在以客户为中心的竞争环境中,如何既是能够拥有正确的信息,又能够拥有分析信息的工具,这就是商业智能,商业智能系统通过数据仓库、数据挖掘和高级数据分析为企业提供全方位的客户分析决策支持和客户关系管理,其中最为关键的技术就是数据挖掘技术。数据挖掘技术是从大量数据中提取或挖掘知识,数据挖掘工具进行数据分析,可以发现重要的数据模式,为解决商务决策中“数据丰富,知识贫乏”作出了巨大的贡献。从电话中心变成了联络中心或“互动中心”;市场营销工具可以采用E-mail、IP语音、共享化浏览、文字聊天和多种电子文字交流,以及客户与企业的整体关系成为企业迫切需要解决的问题。CRM通过管理企业与客户间的关系、优化供应链,减少销售环节,降低销售成本,挖掘潜在客户,发现新市场和渠道,提高客户价值、客户满意度、客户利润贡献度和忠诚度,实现企业最终销售管理、营销管理、客户服务与支持等方面的效果的提高。然而CRM失败率也很高,这是由于CRM的实施中会遇到高度集成,企业文化,设计技术如XML基于组件等,个性化服务与自动化矛盾,基础网络设施,可扩展性等问题。CRM起源于20世纪80年代中期,20世纪90年代得到企业广泛重视,进入新世纪人们更加重视吸引和发现潜在的客户和留住最有价值的客户。统计表明,现代企业的销售额是来自12%的重要客户,而其余88%中的大部分客户对企业是微利甚至是微利可图,开发一个新客户的成本是留住一个老客户的5倍,而流失一个老客户的损失,需要争取到10 个新客户才能弥补,因而CRM成为企业研究和应用的热点。如何成功的应用客户关系系统呢?利用数据挖掘技术来分析客户的数据,找出客户的购买模式,不断的满足客户的需求,把客户当作企业最重要的资产进行管理,是成功的应用CRM搞好企业的经营管理工作关键技术。

一、基于数据挖掘技术的客户行为分析与重点客户发现

目前许多企业在为客户的服务过程中积累了大量的数据,通过这些数据可以分析企业的发展历程、竞争态势、发展趋势及客户资源,这些资源是企业普遍关注的重要资源,而对客户的分析是赢利竞争优势的重要方法,从销售自动化中,提供了记录和跟踪在客户的信息,提供了销售人员与潜在客户交流要点,以便有效地管理自己时间,安排与客户交流和沟通,

而在电子商务环境下,接触客户不仅是销售人员,通过Internet把获取客户信息进一步扩展到企业所有部门,与之所有能与客户接触的所有人员,包括各种销售渠道的人员。通过与客户的各种“接触点”对客户360度的认识。美国艾克通过长期以来总结的经验认为CRM应让客户更方便、对客户更亲切、个性化和立即反应,才能更好地维持客户关系。凡成功地企业CRM一定是“以人为本,以客户为中心”去分工,实现企业内部“一对一客户观念”的确认。企业内部与客户相关的部门应该保持不同部门与客户之间作业的连贯;实现各种管理信息与知识的共享,建立较为详细的客户联系库,共同遵守的互动规则。利用客户智能—通过分析来自营销、销售、服务和商务的信息,制定统一的关于客户需求服务的规则,以增加客户的满意程度和减少客户背离程度。数据挖掘成为识别好的客户,完成市场划分以及改进直销活动效果的关键工具。

图1 数据挖掘技术在CRM中的作用

增加市场占有率有两种常用方法:以客户为基础的产品促销活动和交叉销售,数据挖掘技术能够实现哪些客户最有可能购买新产品以及哪些产品能够被一起购买,这样销售人员就能够将更多的精力放在这些重点客户上。Microsoft Commerce Server 是一个基于SQL Server 2000利用数据挖掘技术的快速实现商业智能的通用平台,它通过扩展基于OLE DB技术模式对象与CRM集成。它可以针对注册用户进行数据分析了解不同消费群体的购物行为,对未注册的用户则根据用户停留在该电子商务网站停留的时间、点过的连接、查询过的商品等记录分析出他们的行为模式;还可分析出广告、打折活动等营销方法的效果。

篇7:数据挖掘论文

题目:档案信息管理系统中的计算机数据挖掘技术探讨

摘要:伴随着计算机技术的不断进步和发展,数据挖掘技术成为数据处理工作中的重点技术,能借助相关算法搜索相关信息,在节省人力资本的同时,提高数据检索的实际效率,基于此,被广泛应用在数据密集型行业中。笔者简要分析了计算机数据挖掘技术,并集中阐释了档案信息管理系统计算机数据仓库的建立和技术实现过程,以供参考。

关键词:档案信息管理系统;计算机;数据挖掘技术;

1数据挖掘技术概述

数据挖掘技术就是指在超多随机数据中提取隐含信息,并且将其整合后应用在知识处理体系的技术过程。若是从技术层面判定数据挖掘技术,则需要将其划分在商业数据处理技术中,整合商业数据提取和转化机制,并且建构更加系统化的分析模型和处理机制,从根本上优化商业决策。借助数据挖掘技术能建构完整的数据仓库,满足集成性、时变性以及非易失性等需求,整和数据处理和冗余参数,确保技术框架结构的完整性。

目前,数据挖掘技术常用的工具,如SAS企业的EnterpriseMiner、IBM企业的IntellientMiner以及SPSS企业的Clementine等应用都十分广泛。企业在实际工作过程中,往往会利用数据源和数据预处理工具进行数据定型和更新管理,并且应用聚类分析模块、决策树分析模块以及关联分析算法等,借助数据挖掘技术对相关数据进行处理。

2档案信息管理系统计算机数据仓库的建立

2.1客户需求单元

为了充分发挥档案信息管理系统的优势,要结合客户的实际需求建立完整的处理框架体系。在数据库体系建立中,要适应迭代式处理特征,并且从用户需求出发整合数据模型,保证其建立过程能按照整体规划有序进行,且能按照目标和分析框架参数完成操作。首先,要确立基础性的数据仓库对象,由于是档案信息管理,因此,要集中划分档案数据分析的主题,并且有效录入档案信息,确保满足档案的数据分析需求。其次,要对日常工作中的用户数据进行集中的挖掘处理,从根本上提高数据仓库分析的完整性。

(1)确定数据仓库的基础性用户,其中,主要包括档案工作人员和使用人员,结合不同人员的工作需求建立相应的数据仓库。

(2)档案工作要利用数据分析和档案用户特征分析进行分类描述。

(3)确定档案的基础性分类主题,一般而言,要将文书档案归档状况、卷数等基础性信息作为分类依据。

2.2数据库设计单元

在设计过程中,要针对不同维度建立相应的参数体系和组成结构,并且有效整合组成事实表的主键项目,建立框架结构。

第一,建立事实表。事实表是数据模型的核心单元,主要是记录相关业务和统计数据的表,能整合数据仓库中的信息单元,并且提升多维空间处理效果,确保数据储存过程切实有效。(1)档案管理中文书档案目录卷数事实表:事实表主键,字段类型Int,字段为Id;文书归档年份,字段类型Int,字段为Gdyear_key;文书归档类型,字段类型Int,字段为Ajtm_key;文书归档单位,字段类型Int,字段为Gddw_key;文书档案生成年份,字段类型Int,字段为Ajscsj_key,以及文书档案包括的文件数目。(2)档案管理中文书档案卷数事实表:事实表主键,字段类型Int,字段为Id;文书归档利用日期,字段类型Int,字段为Date_key;文书归档利用单位,字段类型Int,字段为Dw_key;文书归档利用类别,字段类型Int,字段为Dalb_key;文书归档利用年份,字段类型Int,字段为Dayear_key等[1]。

第二,建立维度表,在实际数据仓库建立和运维工作中,提高数据管理效果和水平,确保建立循环和反馈的系统框架体系,并且处理增长过程和完善过程,有效实现数据库模型设计以及相关维护操作。首先,要对模式的基础性维度进行分析并且制作相应的表,主要包括档案年度维表、利用方式维表等。其次,要建构数据库星型模型体系。最后,要集中判定数据库工具,保证数据库平台在客户管理工作方面具备必须的优势,集中制订商务智能解决方案,保证集成环境的稳定性和数据仓库建模的效果,真正提高数据抽取以及转换工作的实际水平。需要注意的是,在全面整合和分析处理数据的过程中,要分离文书档案中的数据,相关操作如下:

deletefromdaggdtemp//删除临时表中的数据

Chcount=dag1.importfile(dbo.uwswj)//将文书目录中数据导出到数据窗口

Dag1.update//将数据窗口中的数据保存到临时表

相关技术人员要对数据进行有效处理,以保证相关数据合并操作、连接操作以及条件性拆分操作等都能按照数据预处理管理要求合理化进行,从根本上维护数据处理效果。

2.3多维数据模型建立单元

在档案多维数据模型建立的过程中,相关技术人员要判定联机分析处理项目和数据挖掘方案,整合信息系统中的数据源、数据视图、维度参数以及属性参数等,保证具体单元能发挥其实际作用,并且真正发挥档案维表的稳定性、安全性优势。

第一,档案事实表中的数据稳定,事实表是加载和处理档案数据的基本模块,按照档案目录数据表和档案利用状况表分析和判定其类别和归档时间,从而提高数据独立分析水平。一方面,能追加有效的数据,保证数据仓库信息的基本质量,也能追加时间判定标准,能在实际操作中减少扫描整个表浪费的时间,从根本上提高实际效率。另一方面,能删除数据,实现数据更新,检索相关关键词即可。并且也能同时修改数据,维护档案撤出和档案追加的动态化处理效果。

第二,档案维表的安全性。在维表管理工作中,档案参数和数据的安全稳定性十分关键,由于其不会随着时间的推移出现变化,因此,要对其进行合理的处理和协调。维表本身的存储空间较小,尽管结构发生变化的概率不大,但仍会对代表的对象产生影响,这就会使得数据出现动态的变化。对于这种改变,需要借助新维生成的方式进行处理,从而保证不同维表能有效连接,整合正确数据的同时,也能对事实表外键进行分析[2]。

3档案信息管理系统计算机数据仓库的实现

3.1描述需求

随着互联网技术和数据库技术不断进步,要提高档案数字化水平以及完善信息化整合机制,加快数据库管控体系的更新,确保设备存储以及网络环境一体化水平能满足需求,尤其是在档案资源重组和预测项目中,只有从根本上落实数据挖掘体系,才能为后续信息档案管理项目升级奠定坚实基础。另外,在数据表和文书等基础性数据结构模型建立的基础上,要按照规律制定具有个性化的主动性服务机制。

3.2关联计算

在实际档案分析工作开展过程中,关联算法描述十分关键,能对某些行为特征进行统筹整合,从而制定分析决策。在进行关联规则强度分析时,要结合支持度和置信度等系统化数据进行综合衡量。例如,档案数据库中有A和B两个基础项集合,支持度为P(A∪B),则直接表述了A和B在同一时间出现的基础性概率。若是两者出现的概率并不大,则证明两者之间的关联度较低。若是两者出现的概率较大,则说明两者的关联度较高。另外,在分析置信度时,利用Confidence(A→B)=(A|B),也能有效判定两者之间的关系。在出现置信度A的状况下,B的出现概率则是整体参数关系的关键,若是置信度的数值到达100%,则直接证明A和B能同一时间出现。

3.3神经网络算法

除了要对档案的实际资料进行数据分析和数据库建构,也要对其利用状况进行判定,目前较为常见的利用率分析算法就是神经网络算法,其借助数据分类系统判定和分析数据对象。值得注意的是,在分类技术结构中,要结合训练数据集判定分类模型数据挖掘结构。神经网络算法类似于人脑系统的运行结构,能建立完整的信息处理单元,并且能够整合非线性交换结构,确保能凭借历史数据对计算模型和分类体系展开深度分析[3]。

3.4实现多元化应用

在档案管理工作中应用计算机数据挖掘技术,能对档案分类管理予以分析,保证信息需求分类总结工作的完整程度。尤其是档案使用者在对档案具体特征进行差异化分析的过程中,能结合不同的元素对具体问题展开深度调研。一方面,计算机数据挖掘技术借助决策树算法处理规则化的档案分析机制。在差异化训练体系中,要对数据集合中的数据进行系统化分析以及处理,确保构建要求能适应数据挖掘的基本结构[4]。例如,档案管理人员借助数据挖掘技术能整合档案使用人员长期浏览与关注的信息,并且能集中收集和汇总间隔时间、信息查询停留时间等,从而建构完整的数据分析机制,有效向其推送或者是带给便捷化查询服务,保证档案管理数字化水平的提高。另一方面,在档案收集管理工作中应用数据挖掘技术,主要是对数据信息进行分析,结合基本结果建立概念模型,保证模型以及测试样本之间的比较参数贴合标准,从而真正建立更加系统化的分类框架体系。

4结语

总而言之,在档案管理工作中应用数据挖掘技术,能在准确判定用户需求的同时,维护数据处理效果,并且减少档案数字化的成本,为后续工作的进一步优化奠定坚实基础。并且,数据库的建立,也能节省经费和设备维护成本,真正实现数字化全面发展的目标,促进档案信息管理工作的长效进步。

参考文献

[1]曾雪峰.计算机数据挖掘技术开发及其在档案信息管理中的运用研究[J].科技创新与应用,(9):285.

[2]王晓燕.数据挖掘技术在档案信息管理中的应用[J].兰台世界,(23):25-26.

[3]韩吉义.基于数据挖掘技术的高校图书馆档案信息管理平台的构筑[J].山西档案,(6):61-63.

[4]哈立原.基于数据挖掘技术的高校图书馆档案信息管理平台构建[J].山西档案,2016(5):105-107.

篇8:数据挖掘论文

题目:机器学习算法在数据挖掘中的应用

摘要:随着科学技术的快速发展,各种新鲜的事物和理念得到了广泛的应用。其中机器学习算法就是一则典型案例——作为一种新型的算法,其广泛应用于各行各业之中。本篇论文旨在探讨机器学习算法在数据挖掘中的具体应用,我们利用庞大的移动终端数据网络,加强了基于GSM网络的户外终端定位,从而提出了3个阶段的定位算法,有效提高了定位的精准度和速度。

关键词:学习算法;GSM网络;定位;数据;

移动终端定位技术由来已久,其主要是利用各种科学技术手段定位移动物体的精准位置以及高度。目前,移动终端定位技术主要应用于军事定位、紧急救援、网络优化、地图导航等多个现代化的领域,由于移动终端定位技术能够带给精准的位置服务信息,所以其在市场上还是有较大的需求的,这也为移动终端定位技术的优化和发展,带给了推动力。随着通信网络普及,移动终端定位技术的发展也得到了一些帮忙,使得其定位的精准度和速度都得到了全面的优化和提升。同时,传统的定位方法结合先进的算法来进行精准定位,目前依旧还是有较大的进步空间。在工作中我选取机器学习算法结合数据挖掘技术对传统定位技术加以改善,取得了不错的效果,但也遇到了许多问题,例如:使用机器学习算法来进行精准定位暂时无法满足更大的区域要求,还有想要利用较低的设备成本,实现得到更多的精准定位的要求比较困难。所以本文对机器学习算法进行了深入的研究,期望能够帮忙其更快速的定位、更精准的定位,满足市场的需要。

1数据挖掘概述

数据挖掘又名数据探勘、信息挖掘。它是数据库知识筛选中十分重要的一步。数据挖掘其实指的就是在超多的数据中透过算法找到有用信息的行为。一般状况下,数据挖掘都会和计算机科学紧密联系在一齐,透过统计集合、在线剖析、检索筛选、机器学习、参数识别等多种方法来实现最初的目标。统计算法和机器学习算法是数据挖掘算法里面应用得比较广泛的两类。统计算法依靠于概率分析,然后进行相关性决定,由此来执行运算。

而机器学习算法主要依靠人工智能科技,透过超多的样本收集、学习和训练,能够自动匹配运算所需的相关参数及模式。它综合了数学、物理学、自动化和计算机科学等多种学习理论,虽然能够应用的领域和目标各不相同,但是这些算法都能够被独立使用运算,当然也能够相互帮忙,综合应用,能够说是一种能够“因时而变”、“因事而变”的算法。在机器学习算法的领域,人工神经网络是比较重要和常见的一种。因为它的优秀的数据处理和演练、学习的潜力较强。

而且对于问题数据还能够进行精准的识别与处理分析,所以应用的频次更多。人工神经网络依靠于多种多样的建模模型来进行工作,由此来满足不同的数据需求。综合来看,人工神经网络的建模,它的精准度比较高,综合表述潜力优秀,而且在应用的过程中,不需要依靠专家的辅助力量,虽然仍有缺陷,比如在训练数据的时候耗时较多,知识的理解潜力还没有到达智能化的标准,但是,相对于其他方式而言,人工神经网络的优势依旧是比较突出的。

2以机器学习算法为基础的GSM网络定位

2.1定位问题的建模

建模的过程主要是以支持向量机定位方式作为基础,把定位的位置栅格化,面积较小的栅格位置就是独立的一种类别,在定位的位置内,我们收集数目庞大的终端测量数据,然后利用计算机对测量报告进行分析处理,测量栅格的距离度量和精准度,然后对移动终端栅格进行预估决定,最终利用机器学习进行分析求解。

2.2采集数据和预处理

本次研究,我们采用的模型对象是我国某一个周边长达10千米的二线城市。在该城市区域内,我们测量了四个不同时间段内的数据,为了保证机器学习算法定位的精准性和有效性,我们把其中的三批数据作为训练数据,最后一组数据作为定位数据,然后把定位数据周边十米内的前三组训练数据的相关信息进行清除。一旦确定某一待定位数据,就要在不同的时间内进行测量,按照测量出的数据信息的经纬度和平均值,再进行换算,最终,得到真实的数据量,提升定位的速度以及有效程度。

2.3以基站的经纬度为基础的初步定位

用机器学习算法来进行移动终端定位,其复杂性也是比较大的,一旦区域面积增加,那么模型和分类也相应增加,而且更加复杂,所以,利用机器学习算法来进行移动终端定位的过程,会随着定位区域面积的增大,而耗费更多的时间。利用基站的经纬度作为基础来进行早期的定位,则需要以下几个步骤:要将边长为十千米的正方形分割成一千米的小栅格,如果想要定位数据集内的相关信息,就要选取对边长是一千米的小栅格进行计算,而如果是想要获得边长一千米的大栅格,就要对边长是一千米的栅格精心计算。

2.4以向量机为基础的二次定位

在完成初步定位工作后,要确定一个边长为两千米的正方形,由于第一级支持向量机定位的区域是四百米,定位输出的是以一百米栅格作为中心点的经纬度数据信息,相对于一级向量机的定位而言,二级向量机在定位计算的时候难度是较低的,更加简便。后期的预算主要依靠决策函数计算和样本向量机计算。随着栅格的变小,定位的精准度将越来越高,而由于增加分类的问题数量是上升的,所以,定位的复杂度也是相对增加的。

2.5以K-近邻法为基础的三次定位

第一步要做的就是选定需要定位的区域面积,在二次输出之后,确定其经纬度,然后依靠经纬度来确定边长面积,这些都是进行区域定位的基础性工作,紧之后就是定位模型的训练。以K-近邻法为基础的三次定位需要的是综合训练信息数据,对于这些信息数据,要以大小为选取依据进行筛选和合并,这样就能够减少计算的重复性。当然了,选取的区域面积越大,其定位的速度和精准性也就越低。

3结语

近年来,随着我国科学技术的不断发展和进步,数据挖掘技术愈加重要。根据上面的研究,我们证明了,在数据挖掘的过程中,应用机器学习算法具有举足轻重的作用。作为一门多领域互相交叉的知识学科,它能够帮忙我们提升定位的精准度以及定位速度,能够被广泛的应用于各行各业。所以,对于机器学习算法,相关人员要加以重视,不断的进行改良以及改善,切实的发挥其有利的方面,将其广泛应用于智能定位的各个领域,帮忙我们解决关于户外移动终端的定位的问题。

参考文献

[1]陈小燕,CHENXiaoyan.机器学习算法在数据挖掘中的应用[J].现代电子技术,2015,v.38;No.451(20):11-14.

[2]李运.机器学习算法在数据挖掘中的应用[D].北京邮电大学,2014.

[3]莫雪峰.机器学习算法在数据挖掘中的应用[J].科教文汇,2016(07):175-178.

篇9:数据挖掘论文

数据挖掘在电力调度自动化系统的运用

关键词:数据挖掘;电力调度自动化系统;周期性关联规则挖掘算法

摘要:电力调度自动化系统对电力数据的收集和整理工作质量有着较高要求,而为了满足这一要求近年来数据挖掘技术日渐受到电力行业重视,基于此,文章就数据挖掘技术进行了简单介绍,并对数据挖掘在电力调度自动化系统中的应用进行了深入论述,期望论述资料能够为相关业内人士带来必须启发。

前言

电力数据收集、整理质量直接影响电力调度自动化系统的控制和管理水平,但由于很多价值较高的数据信息往往位于隐藏的数据之中,这就使得传统方法不能较好满足电力调度自动化系统需要,而为了解决这一问题,正是本文就数据挖掘在电力调度自动化系统中应用展开具体研究的原因所在。

1数据挖掘技术

在大数据时代到来的这天,数据挖掘技术能够从海量数据信息中准确找到所求信息,因此本文将数据挖掘技术视作“采用有效工具和措施从海量数据库中提取数据和模型关系”的技术,由此企业的决策能够得到充足的决定依据。为了更直观了解数据挖掘技术,本文将数据挖掘的过程和步骤概括为以下几个方面:(1)确定业务对象。确定业务对象属于数据挖掘过程的基础工作,这一过程的实质是了解业务问题。(2)准备数据。透过选取数据、数据预处理、转换数据三个层面的工作,即可完成针对于挖掘算法的分析模型构建,并最终完成必须领域的数据挖掘。

2数据挖掘在电力调度自动化系统中的应用

2.1应用方式

神经网络、灰色分析法、关联规则均能够用于电力调度自动化系统的数据挖掘,具体应用如下所示。

(1)神经网络。作为应用较为广泛的一种人工智能研究方法,神经网络早已在我国实现了较为广泛的应用,电力调度自动化系统的数据挖掘也是其应用的重要领域,由于数据自行处理、数据分布存储、高度容错性是神经网络的应用优势所在,这就使得神经网络较为适用于模糊、不完整、不准确数据的处理。在电力调度自动化系统的数据挖掘中,神经网络主要透过关联分析的方式实现数据逻辑处理,具体处理能够分为以下几个方面:a.整合统一基础数据。由于电力调度自动化系统包含的数据具备庞大复杂、种类繁多的特点,因此神经网络的应用需要透过整合统一使相关数据构成结构模型,透过神经网络系统实现数据统一管理。b.实现不同环节电力调度的关联。应用数据挖掘神经网络方法整理不同环节的电流状态和参数,并保证相关数据信息的整合性,即可实现不同环节电力调度的关联。c.分析与决策。结合神经网络整理的整合数据,即可开展分析、决策以及数据共享。

(2)灰色分析法。灰色分析法能够较好分析电力调度过程出现的不完整数据,但不适用于较为庞大的数据是该数据挖掘方法存在的不足。一般状况下,灰色分析法的应用需要深入了解设备数据参数,如用户用电状况预测、母线负荷数据值、电力销售状况预测等,结合分析确定电力调度边界电量,即可提升数据收集的可靠性,电力调度自动化系统的运行也将由此获得较为有力的支持。

(3)关联规则。作为数据挖掘的重要分支,关联规则能够透过发觉超多数据项集之间的搞笑关联和相互联系实现信息的高质量分析,刚刚提到的神经网络严格好处上也属于关联规则范畴,但是本文关于关联规则的研究主要围绕周期性关联规则挖掘算法展开。周期性关联规则挖掘算法具备扫描数据库次数较少、避免扫描数据库的时间开销、连接程序中相同项目的比较次数较少、数据项集频度统计速度较高等优势,由此实现的周期性数据集挖掘、关联规则挖掘便能够大大降低电力调度自动化系统的事故发生概率。值得注意的是,本文研究的周期性关联规则挖掘算法结合了蚁群算法,这是由于原算法使用了超多的搜索操作、分类检索和路径检索,蚁群算法下走过的路上会留下信息素,这就使得较短路径上的信息素浓度较高,结合负信息素理论,即可保证有信息素的地方蚂蚁不能走过。如使用表1所示的事务数据库D(部分),即可结合时态事务数据库D分类数据集改善、每一个分类数据集周期性数据集挖掘改善,以数据项A分类为例,即可求得表2所示的时态属性差,由此开展更深入计算则能够更深入了解周期性关联规则挖掘算法的思想,也能够认识到蚁群算法的重要性。

2.2应用实践

为提升研究实践价值,本文围绕周期性关联规则挖掘算法建立了基于周期性关联规则挖掘的数据分析系统,这一系统的建立过程如下所示。

(1)开发平台选取。结合系统功能需要,选取了微软的平台作为主要系统开发平台,该平台具备的强大数据库访问潜力、扩展丰富等特点,能够较好满足系统开发需要。

(2)基于数据桥的数据集成模块设计。思考到我国当下电力事业的数据集成标准较为复杂、混乱,系统设计采用了自己的数据集成方法,同时应用了清晰数据清洗策略,由此即可实现不完整数据、重复数据、错误数据三类脏数据的清洗,数字数据不完整、日期数据不完整、错误日期型数据、重复数据等仅属于清洗资料,其中除重复数据不予处理外,其他数据均采用修补空值和默认值的方式,如数字数据不完整采用“补0,补null,默认值”的清洗策略。此外,无类型文件数据集成、数据库数据集成、异构数据库数据集成也是这一环节设计的重要资料[3]。

(3)数据库管理模块设计。采用微软公司的SQLServer数据库系统,由此数据库管理被分为层次数建模、数据表管理、数据表导出三部分,其中数据表管理包含数据管理、结构管理、删除三方面功能,而数据表导出则包括文本文件、Excel文件、Access文件、Xml文件、其他数据库五部分资料。

(4)数据分析功能模块设计。数据分析功能模块由同期数据分析、周期性数据分析、数据预警分析、数据关联分析四部分组成,各部分设计如下所示:a.同期数据分析模块设计。该模块的运行流程主要由负荷数据、网损数据、力率数据、有功总加数据比较组成,分析流程能够概括为:“输入所有比较条件→合法→根据条件生成SQL语句→显示查询结果→打印比较图像”。b.周期性数据分析模块设计。围绕报警周期性、负荷周期性、遥测周期性三方面开展数据挖掘,即可完成该模块设计。c.数据预警分析模块设计。分析流程为:“初始化数据集及参数→输入预警分析参数→合法→分析预测→决定预测类型→有无推荐→输出报警类型和推荐→输出报警类型”。d.数据关联分析模型设计。采用默认用户手动输入数据集方法,程序流程为:“初始化已有周期性数据集→输入参数→合法?→数据集交叉?→计算Conf、Sup→计算下一对数据集→完成”。

3结束语

数据挖掘能够较好地服务于电力调度自动化系统。而在此基础上,本文研究建立的基于周期性关联规则挖掘的数据分析系统,则证明了研究的实践价值。因此,在相关领域的理论研究和实践探索中,本文资料能够发挥必须参考作用。

参考文献:

[1]王谦,李烽.电力调度的自动化网络安全分析及实现[J].电子技术与软件工程,(21):116.

[2]刘宾,朱亚奇,吴莎.数据挖掘在电力调度自动化系统中的应用[J].电子技术与软件工程,2017(20):158.

[3]曹铁生.电力调度自动化系统应用现状与发展趋势研究分析[J].硅谷,,7(23):74+76.

[4]周洋.数据挖掘在电力调度自动化系统中的应用解析[J].科技创新与应用,2017(35):149-150.

[5]李梦鸣.大数据挖掘平台在电力运营监测工作的应用[J].科技创新与应用,(26):21-22.

作者:何宇雄;苑晋沛;聂宇;罗超;高小芊;寇霄宇;李蔚单位:国网湖北省电力公司武汉供电公司

篇10:数据挖掘论文

数据挖掘与图书馆用户资源分析

摘要:人类利用图书馆产生信息活动时所表现出的最基础、最平常、最通用的一种关系,便是用户资源和图书馆之间的关系。从这种关系出发,分析嫁接起这一简单联系的规律,便是数据挖掘技术。本文认为对图书馆用户资源分析研究应以数据挖掘技术为逻辑起点,从云计算、信息共享、数据排查、智能搜索、大数据存储等对图书馆用户资源进行整合和建设。应对信息资源日益丰富的这天,数据挖掘技术对管理图书馆信息资源技术带给了巨大便利。

关键词:数据挖掘;用户资源

数据挖掘,即数据系统中的信息发现。随着计算机技术,个性是云计算、大数据记忆技术的快速发展,传统的手动查找信息模式被大数据智能检索替代。数据挖掘技术广泛应用于市场、工业、金融行业、科学界、互联网行业以及医疗业。数据挖掘技术在图书馆的应用,能够将海量的用户资源进行聚类、关联、整合,能够对用户搜索记录、图书流通记录、用户借阅信息等数据进行精确预判,发现一些隐蔽的联系,为图书馆采购图书、淘汰文献资料带给科学推荐,也能够为用户带给个性化订阅服务,创新用户服务模式,为图书馆建设整个信息网络带给有力支撑。

1大数据下的图书馆用户资源特征

图书馆用户资源是透过数字技术进行组织和管理的:(1)经过数据关联分析,把数据库中存在的两个或两个以上用户之间的相同性提取出来,提高支持度和说服力;(2)把用户信息按照相似性归纳成几个类别,建立宏观概念,发现其间的相互关系;其次定义这些相互关系,概念产生以后,即等同于这些相互关系的整体信息,用于建构分类规则或者数据模型;其次利用以上数据找出变化规律,对此规律进行模型化处理,并由数据模型对未知信息进行预判;(3)把用户资源进行时序排序,检索出高重复率的模型;(4)进行偏差比对,检查数据之中的异常状况。图书馆利用超多的用户访问信息获取用户兴趣,发现用户群体,为不同的群体定制信息,还能够建立一个共享信息平台,让不同用户建立网络交流。

1.1数据量大并且分布更广

大数据形势下,图书馆能够获取的用户资源不仅仅限于用户个人信息和搜索记录,也包括档案、学术研究、教学模式、用户评价和反馈等,数据丰富。同时,数据分布广泛,在互联网时代,可从图书馆应用系统、数据系统记录以及各种网页、移动终端的信息获取,显示出用户资源的分散性。

1.2数据资料多元化,形式灵活化

数据系统里的存储方式不同,服务器不同,系统开发平台不同,致使许多用户资源无法交流互换。图书馆用户资源有半模型化、模型化和非模型化之分。传统的图书馆用户资源中,用户只是图书资源的使用者,与图书馆之间只是点对点单线互动,用户之间不存在交流,而在大数据网络平台下,用户之间能够建立资料共享互动平台,使得用户资源的资料更加多元化。

2图书馆用户资源利用

2.1有助于利用数据挖掘技术建立用户资源图书馆

用户资源图书馆具备信息量大的特点,用户可获得各方各面的信息,且从服务的个性化和全方位化而言,图书馆可根据社会热点或用户需求定制服务。一方面,建立用户资源图书馆,使各类用户信息在同一界面统一呈现,方便用户的选取和检索。另一方面,利用数据挖掘技术建立的用户资源图书馆,服务器众多,具有较强的计算潜力和存储潜力,拥有较高的数据处理潜力,能同时容纳多数用户。因数据量大所导致的硬件费用和后期运行费用剧增,可透过构建用户资源图书馆平台以及应用服务得到解决。为应付不断提高的用户资源存储方面的压为,目前亟需的就是投入超多资金以扩容存储设备,无疑,建立用户资源平台能够解决此问题。

2.2加速图书馆资源的数字化

强大的互联网呈现功能和用户信息保存的可靠性功能,用户资源存储的复杂性问题可得到很好的解决。其次,数据挖掘技术对于资源整合方面具有优势,透过分布式的存储模式整合超多信息资源带给给用户检索。不同的数据之间的互相操作以及全方位的互联网服务得以实现,很好的解决了资源重复建设的问题。因此,利用数据挖掘使得图书馆资源数字化具备可行性。从这个好处上来看,资源的馆藏数字化将会加快发展,而不只是图书书目的剧增。

2.3降低人力资源成本,使图书馆各类资源得以整合和优化

随着各类用户资源利用步伐的加快,加之依靠因特网的用户对服务的可行性和效率性要求更高,超多不同体系的服务器布置在机房,系统维护人员的压力也相应増大。透过数据挖掘技术,可有效进行资源整合和优化,无需透过人力进行。

2.4有利于分析用户心理和提升用户体验

数据挖掘技术能够利用用户资源计算出用户模型,这是研究用户需求、偏好、行为的一种常规方式,一般认为用户模型是对用户在某段时间内相对稳定的信息需求的记录。用户模型反过来对获取用户资源有十分重要的作用,建构用户模型,能够使图书馆更加精深、准确地掌握当前用户资源。透过对用户资源的处理来预测用户需求,进而到达持续提高服务质量和用户满意度的目的。一方面,预判用户心理是利用图书馆用户资源更加深入的表现。随着用户环境与图书馆环境的不断变化,这种预判力覆盖范围已经不单单是用户信息行为的某个过程或某几个过程,相反,用户心理能够对用户需求的强弱、层次、方向产生极为重要的影响,同时也能够对获取用户资源全部过程产生重要影响。另一方面,最先研究用户体验研究当属企业营销活动,主要用来研究用户与企业、产品或服务之间的互动。数据挖掘技术能够更精准预测用户的实际感受,透过研究用户情感体验与用户行为动作,提高用户的满意度,满足用户需求。

3结语

在数据大爆发时代,重视图书馆用户资源,透过多渠道、多方式汇聚用户资源,采用数据挖掘、数据归档分析等技术,掌握用户资源特征,有助于图书馆精准定位用户群体,对调整图书馆运营策略有重要前置作用,更能创新图书馆服务的资料和形式,实现图书馆资源的有效利用。

参考文献

[1]陈文伟等.数据挖掘技术[M].北京:北京工业出版社,.

[2]郭崇慧等.北京数据挖掘教程[M].北京:清华大学出版社,.

[3]徐永丽等.网络环境中用户信息需求障碍分析[J].图书馆理论与实践,.

篇11:数据挖掘论文

云计算下物联网的数据挖掘

摘要:随着我国信息技术产业日渐成熟,物联网这一新一代信息技术关键技术日渐受到学界重视,基于此,本文就物联网与云计算、物联网数据挖掘需要解决的关键性问题展开分析,并对基于云计算的物联网数据挖掘、实验验证进行了详细论述,期望由此能够为相关业内人士带来必须启发。

关键词:云计算平台;物联网;数据挖掘;Hodoop

随着提出的“数字地球”概念影响力不断扩大,物联网技术与我国民众生活之间的距离日渐拉近,越来越多的物联网应用也开始进入人们视野,各界对物联网的要求也在不断提升,而为了解决物联网领域正面临的数据挖掘难题,正是本文就云计算平台下物联网数据挖掘展开具体研究的原因所在。

1物联网与云计算

1.1物联网

物联网作为学界公认的下一代网络发展方向之一,其本身由无所不在的小型传感器设备组成,无论是与我们日常生命联系紧密的计算机与智能手机,还是大型网络的服务器、超级计算机群,均属于物联网的重要组成部分,这也是很多学者将物联网称作新科技革命的原因。在S.Haller等业界权威学者的展望中,其认为物联网技术在未来将实现物理对象无缝集成到信息网络之中并成为参与者,而这些“智能对象”在保护安全与保密的前提下,则能够在网络中找到任何问题的解决方法。对于物联网来说,其具备着全面感知、可靠传递、智能处理三方面特点,而结合现有技术获得基本信息、结合传感器网络和其他通信网络实现物体信息可靠传递、在云计算与模糊识别等技术支持下处理海量异构数据则属于物联网三方面特点的具体表现,由此可见电子元器件、数据处理中心、传输通道三方面能够视作典型物联网应用的组成。

1.2云计算

云计算本质上属于一种基于互联网的新计算方式,其能够结合互联网异构、自治服务较好满足用户的计算需要,云计算中的“云”也能够被视作对IT底层基础设施的一种抽象概念。本文研究应用的Hodoop属于典型的云计算基础开发平台,其本质上属于一个分布式系统基础的架构,Hodoop在云计算领域的地位能够说近似于IT产业的Linux系统。Hodoop的核心为分布式文件系统HDFS和MapReduce,前者具备高容错性、高伸缩性等优点,这些就使得Hodoop的布置能够较为简单且低成本的构成分布式文件系统,而后者则具备保证分析和处理的高效性潜力,由此Hodoop即可简单进行数据的整合。总之,Hodoop这一云计算基础开发平台能够透过简单组织计算机资源实现分布式计算云平台搭建,并以此实现云计算相关功用。

1.3物联网数据挖掘需要解决的关键性问题

简单了解物联网与云计算后,物联网数据挖掘需要解决的关键性问题也应引起人们关注,那里的关键性问题主要由以下几方面构成:

1.3.1传统模式难以应用中央模式

属于较为传统的数据挖掘模式,但是物联网数据不同存储地点的特性则使得该模式的效用无从发挥。

1.3.2对中央节点硬件要求较高

物联网本身具备着数据规模、传感器节点庞大的特点,而为了同时满足其实时处理需求,高性能的中央节点硬件要求务必得到满足。

1.3.3节点资源有限

在有限的节点资源影响下,分布式节点务必负责原始数据的预处理与传递。

1.3.4外在因素影响

由于数据安全性、数据保密、法律约束等因素的影响,物联网不能够将所有数据统一存放在相同数据仓库,这同样对物联网数据挖掘提出了较高挑战。总的来说,现有技术与方式并不能较好满足物联网数据挖掘需要,这也是本文研究开展的原因所在。

2基于云计算的物联网数据挖掘

结合Hodoop云计算基础开发平台进行基础平台搭建,选取用物联网数据集为例,构成了物联网感知层、传输层、数据层、数据挖掘服务层四部分模块组成的平台,各模块的实现思路与功能如下所示。

2.1物联网感知层

物联网感知层主要负责物联网数据的采集,这一采集需要得到目标区域布置的采集节点支持,那里的采集节点主要由摄像头、传感器、其他仪器仪表组成,而由此构成的物联网感知层无线传感器网络,便能够将各采集点采集到的网络数据汇集至节点,数据由此进行汇总储存则能够在传输层的支持下最终传递至云平台的数据中心。

2.2传输层传输层

本质上属于具备较高可靠性与高速性、较优无缝性特点的数据传输网络,而基于Hodoop云计算基础开发平台构建的物联网挖掘系统则结合传感器网络、有线网络、无线网络实现了数据传输网络的构建,这就使得物联网感知层所搜集的信息能够更快、更好的传递到云计算数据中心,由此实现的更高质量互通互联,则保证了系统中监测设备的网络化高速数据传输得以实现。

2.3数据层

物联网数据具备着异构性、海量性等特点,这就使得基于Hodoop云计算基础开发平台的物联网数据挖掘系统对于物联网数据的存储与处理存在着较高要求,而在本文研究所构建的物联网数据挖掘系统数据层中,该数据层主要由数据源转换模块与分布式存储模块两部分组成,其中前者主要负责物联网异构数据的转换,而后者则主要负责分布式存储物联网所产生的海量数据,由此本文研究的物联网挖掘系统的性能和可行性便得到了较好证实。值得注意的是,分布式存储模块需要结合Hodoop云计算基础开发平台中的HDFS文件系统实现。物联网中的不同对象往往会透过不同的数据类型进行表示,这就使得异构性势必属于物联网的根本性特征,一些相同对象使用不同数据表示便较为直观说明了这一点,而这就使得物联网对数据源转换器有着较高需求。在本文构建的物联网数据挖掘系统中,数据源转换器在其中发挥着保护数据存储完整、保证数据挖掘科学顺利等功能,数据包解码、数据的分布式存储也需要得到该转化器的直接支持,这也是物联网数据挖掘系统中各NameNode节点文件类型为PML的原因。PML能够透过一种通用的方式进行物体描述,而作为基于XML建立的语言,PML在与XML相同核心思想的影响下,其便能够在物品的详细信息带给、物品信息交换等

领域发挥不俗的功能。例如,在本文研究所构建的物联网数据挖掘系统中,PML便在节点数据采集、传输、存储过程中发挥着建模功能,相关建模信息所收录的物体属性信息、位置信息、环境信息、历史元素等资料,便能够保证物品信息实现较高质量的表达,这对于物联网数据挖掘也将带来较为用心影响。

2.4数据挖掘服务层

数据挖掘服务层能够细分为数据准备模块、数据挖掘引擎模块、用户模块三部分,三部分模块的具体功用如下所示:

2.4.1数据准备模块

主要负责物联网搜集数据的清理、变换、数据规约。

2.4.2数据挖掘引擎模块

主要透过数据挖掘算法集、模式评估等功能为物联网数据挖掘系统带给服务,特征、区分、关联、聚类、局外者、趋势和演化分析、偏差分析、类似性分析等能够视作该模块功能的具体组成,这些功能的实现得益于数据挖掘引擎模块中的算法集,Hodoop云计算基础开发平台支持下实现的算法并行化处理则是该模块功能实现的基础。

2.4.3用户模块

实现对数据挖掘知识的可视化表示。用户模块是本文研究物联网数据挖掘平台面向使用人员的部分,因此在设计中笔者注重了系统操作的友好性,简单的数据挖掘任务开展、简单获得能够被理解知识均属于设计的优势所在。值得注意的是,为了保证本文研究的物联网数据挖掘系统具备较高的可移植性,设计人员在设计之初便为数据挖掘服务层底层模块设计了开放接口,由此该物联网数据挖掘系统的应用丰富性就能够得到较好保障,表1对本文研究的物联网数据挖掘系统组成进行了直观展示。

3实验验证

3.1物联网数据挖掘系统工作流程

基于Hodoop云计算基础开发平台的物联网数据挖掘系统工作流程能够概括为:“用户→主控节点→主控节点允许用户请求→主控节点调用数据挖掘算法→调用数据挖掘算法成功→准备物联网数据→分布式数据挖掘→将结果传递给用户”,而结合这一流程本文将围绕以下几部分开展具体的物联网数据挖掘系统工作流程描述,具体描述如下:

3.1.1用户请求

在用户请求物联网数据挖掘系统进行数据挖掘后,系统的主控节点将决定该任务是否能够进行,而在确定能够进行后系统将首先向用户传递能够进行的信息,并随后开始具体的数据挖掘。

3.1.2数据挖掘过程

在确定物联网数据挖掘系统能够进行数据挖掘后,系统的主控节点将有针对性的选取数据挖掘算法满足用户需要,并结合MapReduce思想与Master/Slave结构进行数据挖掘任务的划分。

3.1.3具体节点任务

在数据挖掘任务的划分下,需要完成具体工作的节点将被分配任务,由此物联网数据挖掘系统的具体数据处理便由此开展,同时JobTracker负责的调度和执行则将最后将数据挖掘结果传递给用户。

3.2实验验证

为了能够直观决定基于Hodoop云计算基础开发平台物联网数据挖掘系统可行性和性能水平,明晰MapReduce数据挖掘算法在系统中发挥的作用,本文选取了结合Apriori算法开展实验验证的方法,实验验证的环境、过程、结果如下所示。

3.2.1实验环境

实验选取了4G内存、500G硬盘、Windows7系统的计算机作为实验基础,并在该计算机中透过虚拟机安装部署了多个分布式节点,其中共3个虚拟机中的一个为NameNodeLinux系统,其余两个则为DateNodeLinux系统。为了保证实验质量与效率,笔者还在该计算机中安装了专门用于Linux系统的Eclipse7.5集成开发环境,在Windows系统中安装了SSHSecureShellClient、各个虚拟机操作系统中安装了SSH服务,由此即可保证本文研究的基于Hodoop云计算基础开发平台物联网数据挖掘系统的顺利使用。

3.2.2实验过程完成

实验环境的搭建后,本文选取了一组用于关联规则算法的实验数据,并将该数据透过C++代码编写的程序透过关键字搜索方式转换成立标准类型大小为1G的PML文件,在HDFS命令下该文件被放入Hadoop平台进行分布式存储,而在运行Java语言编写的Apriori算法后,即可得到物联网数据挖掘系统的运行结果,透过查看系统使用中是否找到了实验数据集中的所有频繁项集便能够直观决定其性能。值得注意的是,为了提升实验的有效性,本文选取了不同大小的文件开展实验,由此实现比较物联网数据挖掘系统运行时间更深入了解其性能。

3.2.3实验结果

表2对基于物联网数据挖掘系统的实验结果进行了直观展示,结合该表不难发现,文件大小的提升直接导致物联网数据挖掘系统运行时间的增长,这种增长存在典型的线性趋势,而由于应用Apriori算法的物联网数据挖掘系统实现了频繁项集的发现,本文研究的基于Hodoop云计算基础开发平台物联网数据挖掘系统的扩展性便得到了较为直观展现,其所具备的物联网海量数据挖掘潜力也得到了较好证实。

4结论

综上所述,云计算平台能够较好服务于物联网的数据挖掘。而在此基础上,本文研究所提出了完善性与科学性较高的基于Hodoop云计算基础开发平台物联网数据挖掘系统,便直观证明了全文的实践价值。因此,在相关领域的理论研究与实践探索中,本文资料便能够发挥必须参考作用。

参考文献

[1]汤勇峰.基于云计算平台的物联网数据挖掘研究[J].电脑知识与技术,,1307:218-219.

[2]陈俊丽.基于云计算平台的物联网数据挖掘研究[J].中国新通信,,1821:74-75.

[3]武桂云.基于hadoop平台的分布式数据挖掘系统研究与设计[D].天津大学,.

[4]林昕.基于云计算的大数据挖掘平台构建研究[J].山东工业技术,(17):104.

篇12:数据挖掘论文

题目:大数据挖掘在智慧旅游应用中的探究

摘要:大数据和智慧旅游都是当下的热点,没有大数据的智慧旅游无从谈“智慧”,数据挖掘是大数据应用于智慧旅游的核心,文章探究了在智慧旅游应用中,目前大数据挖掘存在的几个问题。

关键词:大数据;智慧旅游;数据挖掘;

1引言

随着人民生活水平的进一步提高,旅游消费的需求进一步上升,在云计算、互联网、物联网以及移动智能终端等信息通讯技术的飞速发展下,智慧旅游应运而生。大数据作为当下的热点已经成了智慧旅游发展的有力支撑,没有大数据带给的有利信息,智慧旅游无法变得“智慧”。

2大数据与智慧旅游

旅游业是信息密、综合性强、信息依存度高的产业[1],这让其与大数据自然产生了交汇。20,江苏省镇江市首先提出“智慧旅游”的概念,虽然至今国内外对于智慧旅游还没有一个统一的学术定义,但在与大数据相关的描述中,有学者从大数据挖掘在智慧旅游中的作用出发,把智慧旅游描述为:透过充分收集和管理所有类型和来源的旅游数据,并深入挖掘这些数据的潜在重要价值信息,然后利用这些信息为相关部门或对象带给服务[2]。这必须义充分肯定了在发展智慧旅游中,大数据挖掘所起的至关重要的作用,指出了在智慧旅游的过程中,数据的收集、储存、管理都是为数据挖掘服务,智慧旅游最终所需要的是利用挖掘所得的有用信息。

3大数据挖掘在智慧旅游中存在的问题

,我国提出用十年时间基本实现智慧旅游的目标[3],过去几年,国家旅游局的相关动作均为了实现这一目标。但是,在借助大数据推动智慧旅游的可持续性发展中,大数据所产生的价值却亟待提高,原因之一就是在收集、储存了超多数据后,对它们深入挖掘不够,没有发掘出数据更多的价值。

3.1信息化建设

智慧旅游的发展离不开移动网络、物联网、云平台。随着大数据的不断发展,国内许多景区已经实现Wi-Fi覆盖,部分景区也已实现人与人、人与物、人与景点之间的实时互动,多省市已建有旅游产业监测平台或旅游大数据中心以及数据可视化平台,从中进行数据统计、行为分析、监控预警、服务质量监督等。透过这些平台,已基本能掌握跟游客和景点相关的数据,能够实现更好旅游监控、产业宏观监控,对该地的旅游管理和推广都能发挥重要作用。

但从智慧化的发展来看,我国的信息化建设还需加强。虽然通讯网络已基本能保证,但是大部分景区还无法实现对景区全面、透彻、及时的感知,更为困难的是对平台的建设。在数据共享平台的建设上,除了必备的硬件设施,大数据实验平台还涉及超多部门,如政府管理部门、气象部门、交通、电子商务、旅行社、旅游网站等。如此多的部门相关联,要想建立一个完整全面的大数据实验平台,难度可想而知。

3.2大数据挖掘方法

大数据时代缺的不是数据,而是方法。大数据在旅游行业的应用前景十分广阔,但是应对超多的数据,不懂如何收集有用的数据、不懂如何对数据进行挖掘和利用,那么“大数据”犹如矿山之中的废石。旅游行业所涉及的结构化与非结构化数据,透过云计算技术,对数据的收集、存储都较为容易,但对数据的挖掘分析则还在不断探索中。大数据的挖掘常用的方法有关联分析,相似度分析,距离分析,聚类分析等等,这些方法从不同的角度对数据进行挖掘。其中,相关性分析方法透过关联多个数据来源,挖掘数据价值。但针对旅游数据,采用这些方法挖掘数据的价值信息,难度也很大,因为旅游数据中冗余数据很多,数据存在形式很复杂。在旅游非结构化数据中,一张图片、一个天气变化、一次舆情评价等都将会对游客的旅行计划带来影响。对这些数据完全挖掘分析,对游客“行前、行中、行后”大数据的实时性挖掘都是很大的挑战。

3.3数据安全

,数据安全事件屡见不鲜,伴着大数据而来的数据安全问题日益凸显出来。在大数据时代,无处不在的数据收集技术使我们的个人信息在所关联的数据中心留下痕迹,如何保证这些信息被合法合理使用,让数据“可用不可见”[4],这是亟待解决的问题。同时,在大数据资源的开放性和共享性下,个人保密和公民权益受到严重威胁。这一矛盾的存在使数据共享程度与数据挖掘程度成反比。此外,经过大数据技术的分析、挖掘,个人保密更易被发现和暴露,从而可能引发一系列社会问题。

大数据背景下的旅游数据当然也避免不了数据的安全问题。如果游客“吃、住、行、游、娱、购”的数据被放入数据库,被完全共享、挖掘、分析,那游客的人身财产安全将会受到严重影响,最终降低旅游体验。所以,数据的安全管理是进行大数据挖掘的前提。

3.4大数据人才

大数据背景下的智慧旅游离不开人才的创新活动及技术支持,然而与专业相衔接的大数据人才培养未能及时跟上行业需求,加之创新型人才的外流,以及数据统计未来3~5年大数据行业将面临全球性的人才荒,国内智慧旅游的构建还缺乏超多人才。

4解决思路

在信息化建设上,加大政府投入,加强基础设施建设,整合结构化数据,抓取非结构化数据,打通各数据壁垒,建设旅游大数据实验平台;在挖掘方法上,对旅游大数据实时性数据的挖掘就应被放在重要位置;在数据安全上,从加强大数据安全立法、监管执法及强化技术手段建设等几个方面着手,提升大数据环境下数据安全保护水平。加强人才的培养与引进,加强产学研合作,培养智慧旅游大数据人才。

参考文献

[1]翁凯.大数据在智慧旅游中的应用研究[J].信息技术,2015,24:86-87.

[2]梁昌勇,马银超,路彩虹.大数据挖掘,智慧旅游的核心[J].开发研究,2015,5(180):134-139.

[3]张建涛,王洋,刘力刚.大数据背景下智慧旅游应用模型体系构建[J].企业经济,2017,5(441):116-123.

[4]王竹欣,陈湉.保障大数据,从哪里入手[N].人民邮电究,2017-11-30.

篇13:数据挖掘论文

关于计算机Web数据及其在电子商务中的应用探析

论文摘要:目前计算机Web数据挖掘技术被广泛应用于电子商务活动,它是随着网络技术和数据库技术的快速发展而出现的一种新技术,已成为现代电子商务企业获取市场信息极为重要的工具。介绍了Web数据挖掘的含义、特征及类别,重点探究了计算机Web数据挖掘技术在电子商务中的几种典型应用。

论文关键词:数据挖掘;电子商务;Web数据挖掘

1引言

当前,随着网络技术的发展和数据库技术的迅猛发展,有效推动了商务活动由传统活动向电子商务变革。电子商务就是利用计算机和网络技术以及远程通信技术,实现整个商务活动的电子化、数字化和网络化。基于Internet的电子商务快速发展,使现代企业积累了超多的数据,这些数据不仅仅能给企业带来更多有用信息,同时还使其他现代企业管理者能够及时准确的搜集到超多的数据。访问客户带给更多更优质的服务,成为电子商务成败的关键因素,因而受到现代电子商务经营者的高度关注,这也对计算机web数据技术提出了新的要求,Web数据挖掘技术应运而生。它是一种能够从网上获取超多数据,并能有效地提取有用信息供企业决策者分析参考,以便科学合理制定和调整营销策略,为客户带给动态、个性化、高效率服务的全新技术。目前,它已成为电子商务活动中不可或缺的重要载体。

2计算机web数据挖掘概述

2.1计算机web数据挖掘的由来

计算机Web数据挖掘是一个在Web资源上将对自己有用的数据信息进行筛选的过程。Web数据挖掘是把传统的数据挖掘思想和方法移植到Web应用中,即从现有的Web文档和活动中挑选自己感兴趣且有用的模式或者隐藏的数据信息。计算机Web数据挖掘能够在多领域中展示其作用,目前已被广泛应用于数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等多个方面,其中对商务活动的变革起到重大的推动作用方面最为明显。

2.2计算机Web数据挖掘含义及特征

(1)Web数据挖掘的含义。

Web数据挖掘是指数据挖掘技术在Web环境下的应用,是一项数据挖掘技术与WWW技术相结合产生的新技术,综合运用到了计算机语言、Internet、人工智能、统计学、信息学等多个领域的技术。具体说,就是透过充分利用网络(Internet),挖掘用户访问日志文件、商品信息、搜索信息、购销信息以及网络用户登记信息等资料,从中找出隐性的、潜在有用的和有价值的信息,最后再用于企业管理和商业决策。

(2)Web数据挖掘的特点。

计算机Web数据挖掘技术具有以下特点:一是用户不用带给主观的评价信息;二是用户“访问模式动态获取”不会过时;三是能够处理大规模的数据量,并且使用方便;四是与传统数据库和数据仓库相比,Web是一个巨大、分布广泛、全球性的信息服务中心。

(3)计算机web数据挖掘技术的类别。

web数据挖掘技术共有三类:第一类是Web使用记录挖掘。就是透过网络对Web日志记录进行挖掘,查找用户访问Web页面的模式及潜在客户等信息,以此提高其站点所有服务的竞争力。第二类是Web资料挖掘。既是指从Web文档中抽取知识的过程。第三类是Web结构挖掘。就是透过对Web上超多文档集合的资料进行小结、聚类、关联分析的方式,从Web文档的组织结构和链接关系中预测相关信息和知识。

3计算机web数据挖掘技术与电子商务的关系

借助计算机技术和网络技术的日臻成熟,电子商务正以其快速、便捷的特点受到越来越多的企业和个人的关注。随着电子商务企业业务规模的不断扩大,电子商务企业的商品和客户数量也随之迅速增加,电子商务企业以此获得了超多的数据,这些数据正成为了电子商务企业客户管理和销售管理的重要信息。为了更好地开发和利用这些数据资源,以便给企业和客户带来更多的便利和实惠,各种数据挖掘技术也逐渐被应用到电子商务网站中。目前,基于数据挖掘(个性是web数据挖掘)技术构建的电子商务推荐系统正成为电子商务推荐系统发展的一种趋势。

4计算机web数据挖掘在电子商务中的具体应用

(1)电子商务中的web数据挖掘的过程。

在电子商务中,web数据挖掘的过程主要有以下三个阶段:既是数据准备阶段、数据挖掘操作阶段、结果表达和解释阶段。如果在结果表达阶段中,分析结果不能让电子商务企业的决策者满意,就需要重复上述过程,直到满意为止。

(2)Web数据挖掘技术在电子商务中的应用。

目前,电子商务在企业中得到广泛应用,极大地促进了电子商务网站的兴起,经过分析必须时期内站点上的用户的访问信息,便可发现该商务站点上潜在的客户群体、相关页面、聚类客户等数据信息,企业信息系统因此会获得超多的数据,如此多的数据使Web数据挖掘有了丰富的数据基础,使它在各种商业领域有着更加重要的实用价值。因而,电子商务必将是未来Web数据挖掘的主攻方向。Web数据挖掘技术在电子商务中的应用主要包含以下几方面:

一是寻找潜在客户。电子商务活动中,企业的销售商能够利用分类技术在Internet上找到潜在客户,透过挖掘Web日志记录等信息资源,对访问者进行分类,寻找访问客户共同的特征和规律,然后从已经存在的分类中找到潜在的客户。

二是留住访问客户。电子商务企业透过商务网站能够充分挖掘客户浏览访问时留下的信息,了解客户的浏览行为,然后根据客户不同的爱好和要求,及时做出让访问客户满意的页面推荐和专属性产品,以此来不断提高网站访问的满意度,最大限度延长客户驻留的时间,实现留住老客户发掘新客户的目的。

三是带给营销策略参考。透过Web数据挖掘,电子商务企业销售商能够透过挖掘商品访问状况和销售状况,同时结合市场的变化状况,透过聚类分析的方法,推导出客户访问的规律,不同的消费需求以及消费产品的生命周期等状况,为决策带给及时而准确的信息参考,以便决策者能够适时做出商品销售策略调整,优化商品营销。

四是完善商务网站设计。电子商务网站站点设计者能够利用关联规则,来了解客户的行为记录和反馈状况,并以此作为改善网站的依据,不断对网站的组织结构进行优化来方便客户访问,不断提高网站的点击率。

5结语

本文对Web挖掘技术进行了综述,讲述了其在电子商务中广泛应用。能够看出,随着计算机技术和数据库技术快速发展,计算机Web数据技术的应用将更加广泛,Web数据挖掘也将成为十分重要的研究领域,研究前景巨大、好处深远。目前,我国的Web数据应用还处于探索和起步阶段,还有许多问题值得深入研究。

篇14:数据挖掘论文

题目:数据挖掘技术在神经根型颈椎病方剂研究中的优势及应用进展

关键词:数据挖掘技术;神经根型颈椎病;方剂;综述;

1数据挖掘技术简介

数据挖掘技术[1](KnowledgeDiscoveryinDatebase,KKD),是一种新兴的信息处理技术,它融汇了人工智能、模式别、模糊数学、数据库、数理统计等多种技术方法,专门用于海量数据的处理,从超多的、不完全的、有噪声的、模糊的、随机的数据集中,提取隐含在其中的、人们事先不明白的、但又是潜在的有用的信息和知识,其目的是发现规律而不是验证假设。数据挖掘技术主要适用于庞大的数据库的研究,其特点在于:基于数据分析方法角度的分类,其本质属于观察性研究,数据来源于日常诊疗工作资料,应用的技术较传统研究更先进,分析工具、理论模型与传统研究区别较大。其操作步骤包括[2]:选取数据,数据处理,挖掘分析,结果解释,其中结果解释是数据挖掘技术研究的关键。其方法包括分类、聚类、关联、序列、决策树、贝斯网络、因子、辨别等分析[3],其结果通常表示为概念、规则、规律、模式、约束、可视化等形式图[4]。当今数据挖掘技术的方向主要在于:特定数据挖掘,高效挖掘算法,提高结果的有效性、确定性和表达性,结果的可视化,多抽象层上的交互式数据挖掘,多元数据挖掘及数据的安全性和保密性。因其优势和独特性被运用于多个领域中,且结果运用后取得显着成效,因此越来越多的中医方剂研究者将其运用于

方剂中药物的研究。

2数据挖掘术在神经根型颈椎病治方研究中的优势

中医对于神经根型颈椎病的治疗准则为辨证论治,从古至今神经根型颈椎病的中医证型有很多,其治方是集中医之理、法、方、药为一体的数据集合,具有以“方-药-证”为核心的多维结构。方剂配伍本质上表现为方与方、方与药、药与药、药与剂量,以及方药与证、病、症交叉错综的关联与对应[5],而中医方剂讲究君臣佐使的配伍,药物有升降沉浮,四气五味及归经之别,对于神经根型颈椎病的治疗,治方中药物的种类、炮制方法、用量、用法等都是千变万化的,而这些海量、模糊、看似随机的药物背后隐藏着对临床有用的信息和规律,但这些大数据是无法在可承受的时间范围内可用常规软件工具进行捕捉、管理和处理的,是需要一个新处理模式才能具有更强的决策力、洞察力和流程优化潜力,而数据挖掘技术有可能从这些海量的的数据中发现新知识,揭示背后隐藏的关系和规则,并且对未知的状况进行预测[6]。再者,中医辨治充满非线性思维,“方-药-证”间的多层关联、序列组合、集群对应,构成了整体论的思维方式和原则,而数据挖掘技术数据挖掘在技术线路上与传统数据处理方法不同在于其能对数据库内的数据以线性和非线性方式解析,尤善处理模糊的、非量化的数据。例如赵睿曦等[7]在研究张氏骨伤治疗腰椎间盘突出症的用药

规律时,选取了100张治方,因该病病因病机复杂,证候不一,骨伤名师张玉柱先生对该病的治则治法、药物使用是不同的。因此他们利用Excel建立方证数据库,采用SPPSClementine12.0软件对这些数据的用药频次、药物关联规则及药物聚类进行分析,最后总结出张氏骨伤治疗腰椎间盘突出症遵循病从肝治、病从血治、标本兼治的原则,也归纳出治疗三种不同证型的腰突症的三类自拟方。由此看出数据挖掘技术在方剂研究中的应用对数据背后信息、规律等的挖掘及名家经验的推广具有重大好处,因此数据挖掘技术在神经根型颈椎病的治方研究中也同样发挥着巨大的作用。

3数据挖掘技术在神经根型颈椎治方中的应用进展

神经根型颈椎病在所有颈椎病中最常见,约占50%~60%[8],医家对其治方的研究也是不计其数。近年来数据挖掘技术也被运用于其治方研究中,笔者透过万方、中国知网等总共检索出以下几篇文献,虽数量不多但其优势明显。刘向前等[9]在挖掘古方治疗神经根型颈椎病的用药规律时,透过检索《中华医典》并从中筛选以治疗颈项肩臂痛为主的古方219首并建立数据库,对不同证治古方的用药类别、总味数、单味药使用频数及药对(组)出现频数进行统计,总结出风寒湿痹证、痰湿阻痹证、寒湿阻滞证、正虚不足证的用药特点,得出解表药、祛风湿药、活血化瘀药、补虚药是治疗颈项肩臂痛古方组成的主要药物。古为今用,该研究对于现代医家在治疗该病中有很好的借鉴和参考好处。齐兵献等[10]检索CNKI(1980-2009年)相关文献中治疗神经根型颈椎病的方剂建立数据库,采用SPSS11.5统计软件这些治方常用药物使用频次频率、性味频率、归经频率分析比较,治疗神经根型颈椎病的中药共计99味,使用频次479味次;所用药物种类依次以补益药、活血化瘀药、祛风湿药运用最多,其中药味以辛、苦为主,药性以温、寒为主,归经以肝、脾、心为主,而本病以肝肾亏虚,气血瘀滞为主,临床以补益药、活血化瘀药、祛风湿药等中药运用最多。这对于医家

治疗该病选用药物的性味、归经等具有指导好处。陈元川等[11]检索2004年1月至2013年3月发表的以单纯口服中药治疗神经根型颈椎病的有关文献,对其中的方剂和药物进行统计、归类、分析,最终纳入32首方剂,涉及111味中药,补气药、发散风寒药、活血止痛药、补血药等使用频次较高;葛根、白芍、黄芪、当归、桂枝等药物使用频次较高,证实与古方桂枝加葛根汤主药相同,且该方扶阳解表的治法与该研究得出的扶正祛邪的结果相吻合,同时也证实石氏伤科强调治伤科病当“以气为主,以血为先”等正确性。所以大数据背后的规律和关系在很多方面古今是一致的,同时数据依据的支持也为现代神经根型颈椎病治疗带给有力的保障。谢辉等[12]收集2009至2014年10月3日的166张治疗神经根型颈椎病的治方建立数据库,采用关联规则算法、复杂系统熵聚类等无监督数据挖掘方法,利用中医传承辅助平台(TCMISS)软件分析处方中各种药物的使用频次、药物之间的关联规则、核心药物组合和新处方,从中挖掘出治疗该病中医中的常用药物、药对,阐明了治疗该病以解肌散寒药、补气活血药、祛风胜湿药和温经通络药为主,治法主要包括解肌舒筋、益气活血和补益肝肾,这一方面很清晰明了地展示了药物使用频率、药物之间的联系,证实其与很多古代

经典中治疗神经根型颈椎病的治则、治法及用药规律是吻合的,是临床用药的积累和升华,可有效地指导临床并提高疗效;另一方面也为中药新药的创制带给处方来源,指导新药研发[13]。

4小结

数据挖掘技术作为一种新型的研究技术,在神经根型颈椎病的治方研究中的运用相对于其他领域是偏少的,并且基本上是研究文献资料上出现的治方,在对名老中医个人治疗经验及用药规律的总结是缺乏的,因此研究范围广而缺乏针对性,同时使用该技术的相关软件种类往往是单一的。此刻研究者在研究中医方剂时往往采用传统的研究方法,这就导致在大数据的研究中耗时、耗力甚则无能为力,同样也难以精准地提取大数据背后的隐藏的潜在关系和规则及缺乏对未知状况的预测。产生这样的现状,一方面是很多研究者尚未清楚该技术在方剂研究中的优势所在,思维模式尚未更新;另一方面是很多研究者尚未清楚该技术的操作技能及软件种类及其应用范围。故以后应向更多研究者普及该技术的软件种类、其中的优势及操作技能,让该技术在临床中使用更广,产生更大的效益。

参考文献

[1]舒正渝.浅谈数据挖掘技术及应用[J].中国西部科技,2010,9(5):38-39.

[2]曹毅,季聪华.临床科研设计与分析[M].杭州:浙江科学技术出版社,2015:189.

[3]王静,崔蒙.数据挖掘技术在中医方剂学研究中的应用[J].中国中医药信息杂志,2008,15(3):103-104.

[4]陈丈伟.数据仓库与数据挖掘[M].北京:清华大学出版社,2006:5.

[5]杨玉珠.数据挖掘技术综述与应用[J].河南科技,2014,10(19):21.

[6]余侃侃.数据挖掘技术在方剂配伍中的研究现状及研究方法[J].中国医药指南,2008,6(24):310-312.

[7]赵睿曦.方证数据挖掘分析张氏骨伤对腰椎间盘突出症的辨证用药规律[J].陕西中医药大学学报,2016,39(6):44-46.

[8]李曙明,尹战海,王莹.神经根型颈椎病的影像学特点和分型[J].中国矫形外科杂志,2013,21(1):7-11.

[9]刘向前,陈民,黄广平等.颈项肩臂痛内治古方常用药物的统计分析[J].中华中医药学刊,2012,30(9):42-44.

[10]齐兵献,樊成虎,李兆和.神经根型颈椎病中医用药规律的文献研究[J].河南中医,2012,32(4):518-519.

[11]陈元川,王翔,庞坚,等.单纯口服中药治疗神经根型颈椎病用药分析[J].上海中医药杂志,2014,48(6):78-80.

[12]谢辉,刘军,潘建科,等.基于数据挖掘方法的神经根型颈椎病用药规律研究[J].世界中西医结合杂志,2015,10(6):849-852.

[13]唐仕欢,杨洪军.中医组方用药规律研究进展述评[J].中国实验方剂学杂志,2013(5):359-363.