用于生成反映组的查询建议的系统和方法与流程

文档序号:20921941 发布日期:2020-05-29 14:15
用于生成反映组的查询建议的系统和方法与流程

本公开内容涉及一种系统,所述系统被配置为生成人类可解读的查询建议,所述查询建议提供反映实体的组的结果。



背景技术:

探索性数据分析(eda)涉及无需复杂建模并且无需经过严格的科学方法而确定对数据进行汇总的术语。可以通过对数据点(例如,概念和/或命名实体)的数据集执行聚类以基于数据点的相似性生成子组来将聚类算法与eda配对。尽管存在关于这样的子组的描述性统计信息的自动生成,但分析师可能没有足够的数据分析经验来辨别数据中的潜在的模式。此外,例如,由于庞大的数据量,模式对于人类的大脑而言可能是不可察觉的,并且分析师可能需要数据集和/或其实体(数据点)的属性的上下文知识。存在这些和其他缺点。



技术实现要素:

因此,本公开的一个或多个方面涉及一种被配置用于人类可解读的查询建议的计算机辅助生成的系统,所述人类可解读的查询建议提供反映聚类获得的组的结果。所述系统包括一个或多个处理器和/或其他部件。在一些实施例中,所述一个或多个处理器由机器可读指令配置为对表示至少1000个实体的数据汇集执行聚类以获得具有至少100个实体的组,所述1000个实体中的每个具有多个属性中的至少一个属性。所述一个或多个处理器可以还由机器可读指令配置为关于每个获得的组执行:基于所述多个属性中的第一属性对于所述组中的至少一些实体是共有的,将所述第一属性添加到属性的第一集合中;基于(i)所述第二属性对于所述组的实体中的具有属性的所述第一集合的至少一些实体是共有的,以及(ii)所述组的具有除了所述第二属性之外的属性的所述第一集合的组的实体的数量满足第一数量阈值,来将第二属性添加到属性的所述第一集合中;并且基于属性的所述第一集合来生成查询建议,使得查询建议被配置用于获得反映所述组的结果。

再另一个方面涉及一种被配置用于人类可解读的查询建议的计算机辅助生成的方法,所述人类可解读的查询建议提供反映聚类获得的组的结果。所述方法由被配置为执行机器可读指令的一个或多个硬件处理器和/或其他部件来实施。在一些实施例中,所述方法包括:对表示至少1000个实体的数据汇集执行聚类以获得具有至少100个实体的组,所述1000个实体中的每个具有多个属性中的至少一个属性;关于所获得的组中的每个,执行:基于所述多个属性中的第一属性对于所述组中的至少一些实体是共有的而将所述第一属性添加到属性的第一集合中;关于每个所获得的组,执行:基于(i)所述第二属性对于所述组的实体中的具有属性的所述第一集合的至少一些是共有的以及(ii)所述组的具有除了所述第二属性之外的属性的所述第一集合的组的实体的数量满足第一数量阈值,来将第二属性添加到属性的所述第一集合中;并且关于每个所获得的组,执行:基于属性的所述第一集合来生成查询建议,使得所述查询建议被配置用于获得反映所述组的结果。

又一个方面涉及一种被配置用于人类可解读的查询建议的计算机辅助生成的系统,所述人类可解读的查询建议提供反映聚类获得的组的结果。在一些实施例中,所述系统包括:用于对表示至少1000个实体的数据汇集执行聚类以获得至少100个实体的组的单元,所述1000个实体中的每个具有多个属性中的至少一个属性;用于关于所获得的组中的每个来执行基于第一属性对于所述组中的至少一些实体是共有的而将所述多个属性中的所述第一属性添加到属性的第一集合中的单元;用于关于每个所获得的组来执行基于(i)所述第二属性对于所述组的实体中的具有属性的所述第一集合的至少一些是共有的以及(ii)所述组的具有除了所述第二属性之外的属性的所述第一集合的组的实体的数量满足第一数量阈值而将第二属性添加到属性的所述第一集合中的单元;以及用于关于每个所获得的组来执行基于属性的所述第一集合来生成查询建议而使得查询建议被配置用于获得反映所述组的结果的单元。

本发明的这些和其他目的、特征和特性,以及相关结构元件的操作方法和功能以及部件组合和制造经济性将在参考附图理解本发明和权利要求后变得更加明显,所有附图均形成说明书的一部分,其中,在各个附图中,相同的附图标记指代对应的部件。然而,要明确理解,附图仅出于图示和说明的目的并且不旨在作为对本公开的限度的限制。

附图说明

图1是根据一个或多个实施例的被配置用于人类可解读的查询建议的计算机辅助生成的系统的示意图,所述人类可解读的查询建议提供反映聚类获得的组的结果。

图2a和2b各自示出了根据一个或多个实施例的具有一数量的实体的聚类的示例,所述实体具有要用于确定聚类内的同质性水平的一个或多个特定属性。

图3a和3b各自示出了根据一个或多个实施例的具有一数量的实体的聚类的示例,所述实体具有要用于识别聚类内的共有性的一个或多个特定属性。

图4示出了根据一个或多个实施例的用于生成查询建议的方法,所述查询建议提供反映聚类获得的组的结果。

图5示出了根据一个或多个实施例的用于确定聚类的同质性水平的方法。

具体实施方式

本文中使用的单数形式的“一”、“一个”以及“该”包括多个指代物,除非上下文中明确地另行规定。如本文所用,术语“或”表示“和/或”,除非上下文另外明确指出。本文中所用的两个或多个零件或部件被“耦合”的表述将意味着所述零件直接或间接地(即,通过一个或多个中间零件或部件,只要发生连接)被结合到一起或一起工作。本文中所用的“直接耦合”意指两个元件彼此直接接触。本文中所用的“固定耦合”或“固定”意指两个部件被耦合以作为一体移动,同时维持相对于彼此的固定取向。

本文中所用的词语“一体的”意指部件被创建为单件或单个单元。亦即,包括单独创建并然后被耦合到一起成为单元的多件的部件不是“一体的”部件或体。本文中采用的两个或多个零件或部件相互“接合”的表述将意味着所述零件直接地或通过一个或多个中间零件或部件而相互施加力。本文中采用的术语“若干”将意味着一或大于一的整数(即,多个)。

本文中使用的方向短语,例如但不限于,顶部、底部、左、右、上、下、前、后以及它们的派生词涉及附图中所示的元件的取向,并且不对权利要求构成限制,除非在权利要求中明确记载。

图1图示了根据一个或多个实施例的、被配置用于查询建议的计算机辅助的生成的系统10。系统10可以被配置为从数据集的大量的数据点(例如,实体)生成子组(例如,聚类),并且向系统的用户提供自动生成的聚类的汇总。每个生成的聚类可以是数据集的组、组群、集合或其他子集。每个聚类的每个实体都可以涉及一短语,所述短语包括人的名字、组织、对象、位置、时间或数量。数据集的每个实体可以包括一个或多个属性(例如,尺寸、属性、组成、参数或与该实体相关联或对其进行描述的其他特征)。在一些实施例中,属性在实体的聚类中被使用,而在其他聚类中其不被使用。

系统10可以分析所生成的聚类的实体的属性。例如,可以识收集的一个或多个共同属性以收集有关聚类的信息。从收集的信息中,系统10的一些实施例可以识别人类可解读的查询建议,所述建议除了对聚类进行汇总之外或代替对聚类进行汇总,还提供反映聚类获得的组的结果。即,一些实施例可以在由系统10的用户执行的连续的、探索性搜索中建议针对下一步的搜索准则。在一些实施例中,如果所生成的聚类足够同质,则系统10可以仅生成汇总和/或查询建议。例如,如果聚类的大量实体具有若干共同点或共享属性,则系统10生成的汇总和/或查询建议可以准确地反映聚类。

如图1中所示,系统10可以提供通往和来自外部资源24、电子存储器22或另一个数据库的接口。系统10可以访问数据库信息。例如,在数据与健康护理有关的情况下,系统10可以访问医院信息系统(his)、临床数据存储库(cdr)、电子病历(emr)或任何其他来源。收集的医学信息可以包括有用的健康数据和实体的其他信息,例如人口统计或背景信息。系统10可以分析医学信息并且相应地将实体聚类以用于后续处理。

图1的电子存储设备22包括电子地存储信息的电子存储设备介质。电子存储设备22的电子存储介质可以包括与系统10一体地(即,基本上不可移除)提供的系统存储器和/或可经由例如端口(例如,usb端口,火线端口等)或驱动器(例如,磁盘驱动器等)可移除地可连接到系统10的可移除存储器中的一个或两者。电子存储设备22可以(整体地或部分地)是系统10内的分开的部件,或者电子存储设备22可以(整体地或部分地)与系统10的一个或多个其他部件(例如,计算设备18、处理器20等)被集成地提供。在一些实施例中,电子存储设备22可以与处理器20一起定位于服务器中,定位于作为外部资源24的一部分的服务器中,定位于计算设备18中,和/或定位于其他位置。电子存储设备22可以包括以下中的一个或多个:光学可读存储介质(例如光盘等)、磁性可读存储介质(例如磁带、磁硬盘驱动器、软盘驱动器等)、基于电荷的存储介质(例如eprom、ram等)、固态存储介质(例如闪存驱动器等)、和/或其他电子地可读的存储介质。电子存储设备22可以存储软件算法,由处理器20获得和/或确定的信息,经由计算设备18和/或其他外部计算系统接收的信息,从外部资源24接收的信息,和/或使系统10能够如本文所述地工作的其他信息。

外部资源24包括信息源(例如,数据库、网站等),参与系统10的外部实体(例如,存储患者调查信息的医疗记录系统),系统10外部的一个或多个服务器,(例如因特网),电子存储设备,与wi-fi技术相关的设备,与 技术相关的装备,数据录入设备,和/或其他资源。在一些实现中,本文中归属到外部资源24的功能中的一些或全部可以由包括在系统10中的资源来提供。外部资源24可以被配置为经由有线和/或无线连接、经由网络(例如,局域网和/或互联网)、经由蜂窝技术、经由wi-fi技术和/或经由其他资源来与处理器20、计算设备18、电子存储设备22和/或系统10的其他部件通信。

在一些实施例中,系统10包括一具或多个计算设备18、一个或多个处理器20、电子存储器22、外部资源24和/或其他部件。计算设备18被配置为提供用户12与系统10之间的接口。计算设备18被配置为向一个或多个用户提供信息和/或从一个或多个用户接收信息。计算设备18包括用户接口和/或其他部件。所述用户接口可以是和/或包括图形用户接口,所述图形用户接口被配置为呈现视图和/或字段,所述视图和/或字段被配置为接收关于风险参数(或其值)、风险模型或其他项目的输入和/或选择,和/或提供和/或接收其他信息。在一些实施例中,用户接口包括与多个计算设备18、处理器20和/或系统10的其他部件相关联的多个单独的接口。

在一些实施例中,一个或多个计算设备18被配置为向系统10提供用户接口、处理能力、数据库和/或电子存储设备。这样,计算设备18可以包括处理器20、电子存储设备22、外部资源24和/或系统10的其他部件。在一些实施例中,计算设备18被连接到网络(例如,互联网)。在一些实施例中,计算设备18不包括处理器20、电子存储设备22、外部资源24和/或系统10的其他部件,而是经由网络与这些部件通信。与网络的连接可以是无线的或有线的。在一些实施例中,计算设备18是膝上型计算机、台式计算机、智能电话、平板计算机和/或其他计算设备。

适合包含在用户接口中的接口设备的示例包括触摸屏、小键盘、触敏和/或物理按钮、开关、键盘、旋钮、控制杆、显示器、扬声器、麦克风、指示灯、听觉警报、打印机和/或其他接口设备。本公开还预期计算设备18包括可移除存储接口。在该示例中,信息可以从可移动存储设备(例如,智能卡、闪存驱动器、可移动磁盘)加载到计算设备18中,所述可移动存储设备使得用户12能够定制计算设备18的实现方式。适于与计算设备18和/或用户接口一起使用的其他示例性输入设备和技术包括但不限于rs-232端口、rf链路、ir链路、调制解调器(电话,电缆等)和/或其他设备。

处理器20被配置为提供系统10中的信息处理能力。这样,处理器20可以包括以下中一个或多个:数字处理器、逻辑处理器、被设计为处理信息的数字电路、被设计为处理信息的逻辑电路、状态机、和/或用于电子地处理信息的其他机制。虽然处理器20在图1中被示为单个实体,但是这仅出于说明目的。在一些实施例中,处理器20可包括多个处理单元。这些处理单元可以物理地位于同一设备(例如,服务器)内,或者处理器20可以表示协同操作的多个设备的处理功能(例如,一个或多个服务器、计算设备18、作为外部资源24的一部分的设备、电子存储设备22和/或其他设备)。

在一些实施例中,处理器20、外部资源24、计算设备18、电子存储器22和/或其他部件可以经由一个或多个电子通信链路可操作地链接。例如,这样的电子通信链路可以至少部分地经由诸如因特网之类的网络和/或其他网络来建立。应当理解,这不是旨在进行限制,并且本公开的范围包括这些部件可以经由某些其他通信介质可操作地链接的实施例。在一些实施例中,处理器20被配置为根据客户端/服务器架构、对等架构和/或其他架构来与外部资源24、计算设备18、电子存储设备22和/或其他部件进行通信。

如图1中所示,处理器20被配置为经由机器可读指令来执行一个或多个计算机程序部件。所述一个或多个计算机程序部件可以包括一个或多个聚类部件30、均质性部件32、共有性部件34、用户接口部件36、查询建议部件38、和/或其他部件。处理器20可以被配置为通过软件;硬件;固件;软件,硬件和/或固件的某种组合;和/或用于在处理器20上配置处理能力的其他机构来运行部件30、32、34、36和/或38。

应当理解,尽管部件30、32、34、36和/或38在图1中示出为共同定位于单个处理单元中,但是在处理器20包括多个处理单元的实施例中,部件30、32、34、36和/或38中的一个或多个可以被定位为远离其他部件。以下描述的不由同部件30、32、34、36和/或38提供的功能仅用于说明的目的,并不旨在作为限制,因为部件30、32、34、36和/或38可以提供比所描述的更多或更少的功能。例如,可以去除部件32、33、34、36和/或38中的一个或多个,并且其功能的一些或全部可以由其他部件32、33、34、36和/或38提供。作为另一示例,处理器20可以被配置为执行一个或多个额外的部件,其可以执行以下归属于部件32、33、34、36和/或38中的一个的功能的一些或全部。

在一些实施例中,聚类部件30可以以符合任何合理准则的方式将数据集的实体聚类在一起。在一些实施例中,首先关于一组实体生成统计信息,以导出用于识别聚类的数据集。在一些实施例中,系统10可以对包含数十、数百、数千或数百万个实体的数据集进行操作。

在一些实施例中,数据集中实体的每个属性可以是二元的。例如,实体要么具有要么不具有所述属性。在其他实施例中,每个实体可以具有反映在实体中有效的相应属性的程度或程度的范围内的值(例如,从0到1规范化,以0到100的标度,或另一个合适的范围)。更进一步地,属性可以是类别的,类别反映了实体具有或不具有所述属性的程度或水平。在实体是人的实施例中,人的属性可以在人口统计学上进行分析。在其他实例中,在实体是患者的情况下,每个患者可能具有或不具有健康状况,例如疾病(或障碍)可能是或可能不是有效属性。在一些实施例中,聚类部件30可以针对每个实体在数十、数百、数千或数百万个不同属性上进行操作。每个实体可以用相同数量的属性来描述,或者每个实体可以具有不同数量的属性。

在一些实施例中,聚类部件30可以通过对数据集的纯数据驱动的分析来执行聚类。这样的分析可以导致特定数量(例如10、100、1000等)的聚类。在一些实施例中,由聚类部件30生成的聚类的数量可以是基于已知函数或等式的静态的、预定的、用户配置的,或者从数据集生成的聚类的数量可以基于另一种技术。在一些实施例中,可以控制聚类算法以生成随数据集的大小(例如,随着数据集中的实体的数量)而缩放的若干聚类。例如,聚类的数量可以为2log(n)的数量级,以得到典型的聚类数据结构,n是反映数据集中实体数量的正整数。

在一些实施例中,每个聚类包含在每个聚类内显示高相似性的实体,但是在两个或更多个聚类之间,它们的各自的实体的相似性可能较低。即,一些实施例可以生成聚类,使得每个聚类的实体之间的距离相对于一个聚类的实体和另一聚类的实体之间的距离短。每个实体都可以在维度上进行分析。例如,实体可以用向量(x1,x2,…xn)表示,其中xi=1当且仅当第i个属性(以任意顺序)是有效的并且存在于实体中时才如此。即,可以将实体的属性绘制为与实体的每个其他属性具有不同维度的向量,并且可以使用与实体相关联的向量之间的距离度量来定义相似性。

在一些实施例中,聚类部件30可以使用聚类算法来对实体进行聚类。在一些实施例中,实体关于它们的属性被聚类在一起(但是本文中所依赖的聚类技术不限于此)。使用这些属性,一些实施例可以对实体进行分类或者分类别,而其他实施例可以在分类学上安排它们。每个实体可以与存储该实体的(一个或多个)属性的简档相关联。

在一些实施例中,聚类部件30可以线性地形成聚类,而在其他实施例中,聚类可以迭代地形成。此外,在一些实施例中,所生成的聚类是“硬的”,意味着实体要么属于一聚类要么它不属于,而在其他实施例中,聚类是“软的”(或硬和软的组合),意味着每个实体在一定程度上属于每个聚类(例如,具有属于该聚类的可能性)。关于本文考虑的聚类方法的另一二分法是聚类部件30可以执行分层(例如,嵌套)聚类或分区(例如,非嵌套)聚类。在分区聚类中,聚类部件30可以简单地将实体集合划分为不重叠的聚类(例如,子集),使得每个数据对象恰好在一个聚类中。

在一些实施例中,聚类部件30使用一种或多种聚类算法。例如,系统10可以使用基于距离连通性模型(例如,聚集层次结构(最近邻聚类对的自下而上合并)或分裂层次结构(自上而下))、质心模型(例如,k均值、bradley-fayyad-reina、点分配等)、分布模型、密度模型、分离良好的模型、邻接模型、共享属性模型(例如、概念模型)、基于组的、子空间模型、基于图的模型、神经模型或原型模型。在一些实施例中,系统10的用户可能不了解聚类部件30如何形成聚类。

在使用分层或k均值聚类算法的实施例中,聚类部件30可以考虑不同类型的距离度量(例如,在数据集的实体之间或在聚类之间)。例如,一些实施例可以使用诸如jaccard、绝对、anderberg、卡方、余弦、编辑距离、欧几里得、伽马、马哈拉诺比斯、明可夫斯基、mw(k-均值)、皮尔逊、百分率、菲方、r-平方、rogers和tanimoto的相似系数(rt)、russel或sneath和sokal(ss),或使用分歧度量、例如α、β、γ、bregman、itakura-saito、csiszár、tsallis、cauchy-schwarz、rényi、以及kullback-leibler分歧。此外,在使用分层聚类算法的实施例中,聚类部件30可以考虑各种统计结果,例如使用沃德的方法/准则。

作为示例,聚类部件30可以获得1000个或更多实体的数据集。聚类部件可以对在1000个总实体内的实体进行分组,例如,形成多个组,一个或多个这样的组具有至少100个实体。使用这些聚类/组,同质性部件32和共有性部件34可以分别确定同质性水平并识别共有性(例如,关于每个聚类内的实体的属性)。

在一些实施例中,同质性部件32被配置为分析每个聚类,以通过期望结果的特定质量水平来确定其是否具有特定水平的同质性。特定质量水平可以是静态的、预定的、用户配置的、基于已知的函数或公式、或者通过另一种技术确定。

在一些实施例中,同质性部件32可以搜索仅具有一个属性的最常见实体简档。在此,当实体被称为具有属性时,所述属性可以被认为在实体中是有效的,或者所述属性可以与反映所述属性在实体中的有效的程度或水平的值相关联。例如,具有“慢性肺病”属性的实体最近可能已经患有、当前患有该疾病或具有指向患有(或统计学上投影到患有)该疾病的易感性。在另一个示例中,基于根据最近诊断分配给该实体的关于“慢性肺病”属性的值,所述实体可以仅在一定程度上或水平上具有“慢性肺病”,但是当所分配的值突破阈值时,所述实体可以被认为具有所述属性。在一些实施例中,同质性部件32可以确定表现出该单一属性的实体的数量。

接下来,同质性部件32的一些实施例可以搜索具有正好两个属性的最常见实体简档,这两个属性之一是仅具有一个属性的最常见实体简档的属性。该迭代搜索可以无限地继续,直到识别出具有所有属性的实体(例如,唯一的实体),或者直到突破预定阈值为止。在使用预定阈值的实施例中,同质性部件32可以例如选择候选实体在迭代停止之前必须具有的属性的数量。

结果,同质性部件32可以识别聚类的中心,围绕该聚类的中心可以表示潜在的大量的实体。也就是说,在一些实施例中,所识别的中心可以被非常接近但仅相差一个或几个属性的实体包围。在一些实施例中,同质性部件32可以识别具有与聚类中心不同的1、2、3,..n个属性的实体的最大子组(例如,拥有具有一个属性的最常见简档的实体)。在一些实施例中,系统10可以选择一个或多个最常见的实体(例如,具有1、2、...、n个属性)。

在一些实施例中,同质性部件32可以计针对算数据集的一个或多个聚类的同质性的水平(例如,指数或百分比)。可以使用若干不同的技术来计算该水平。例如,在一个实施例中,同质性部件32可以将具有多个最单一最常见属性,两个最常见属性、…、n个最常见属性的实体的数量相加。这种方法的一个示例可以从图2a和2b中所示的表格中导出。

图2a示出了216个实体仅具有“慢性肺病”属性。没有拥有具有符合该准则的简档的更多实体的其他单一属性。接下来,同质性部件32可以确定具有恰好两个属性的实体的数量。在该示例中,图2a显示189个实体患有慢性肺病和(&)高血压。均质性部件32可以继续这种方法,直到数据集用完为止(例如,实体不具有比已经被识别的更多的属性)。结果,同质性部件32可以确定457(216、189、42、8、1和1的总和)个实体仅具有单个最常见属性(即“慢性肺病”)并且额外的仅具有次常见属性中的一个或多个。在总共488个实体中,此示例表明该聚类的同质性为94%,可以认为是高度同质的。在另一示例中,在存在1291个实体的情况下,同质性水平可能要低得多(例如31%),因为只有403个实体仅具有单个最常见的属性(即“实体肿瘤”)并且额外的仅具有次常见属性中的一个或多个。该后一示例在图2b中示出。

因此,在一些实施例中,同质性部件32可以通过以下方式来确定同质性水平:识别仅具有最常见属性的实体的第一数量,迭代地识别具有最常见属性和次常见属性的实体的第二数量,并且将所述第一数量与所述第二数量中的每个相加,然后将总和除以聚类中实体的总数。

在一些实施例中,同质性部件32可以是任选的。即,共有性部件34可以立即或在接收到聚类部件30的结果时对其进行操作,即,无需首先确定同质性水平。

在一些实施例中,共有性部件34可以识别对于聚类中的至少一些实体共有的多个属性中的第一属性。例如,共有性部件34可以识别第一属性,所述第一属性在聚类的实体之间至少与多个属性中的所有其他属性一样常见(例如,聚类中的最常见的属性)。与可以识别最常见的属性(其中,具有最常见属性的每个实体仅具有该属性)的同质性部件32不同,在一些实施例中,同质性部件34识别如下最常见属性,具有该属性的每个实体可以具有任意数量的其他属性。

共有性部件34接下来可以选择对具有第一属性的子集的至少一些实体共有的第二属性。即,共有性部件34可以识别第二属性,所述第二属性在具有所述第一属性的聚类中的实体中至少与多个属性中除第一属性之外的所有其他属性一样常见。例如,共有性部件34可以识别具有最常见属性的聚类子集中的第二最常见属性。

可以将第一属性以及在某些情况下包括第二属性添加到属性的第一集合。对于由共有性部件34操作的每个新聚类,可以将属性的第一集合重置为空集。随后,可以根据需要例如以迭代的方式将第二属性添加到属性的第一集合,直到不再满足第一数量阈值为止。在一些实施例中,可以基于由具有一个或多个这些属性中的一个的聚类实体的数量所满足的第一数量阈值,将第一属性和多个第二属性添加到属性的第一集合。参考聚类汇总部件38更详细地讨论了第一数量阈值,但是目前它足以确保该阈值确保至少一定数量的实体被识别为具有一个或多个共有属性(例如,属性的第一集合))。类似地,可以使用另一个阈值来更好地排除不常见的属性。即,可以将第三属性迭代地添加到属性的第二集合,所述第三属性至少与所述多个属性中的除了属性的第一集合中的属性之外的所有属性一样不常见。可以基于具有属性的第二集合中的一个或多个属性的组的实体的数量满足的该另一阈值(即,本文中称为第二数量阈值的排除阈值)来确定迭代的加相加。

在一些实施例中,共有性部件34可以终止识别聚类的子集。在其他实施例中,共有性部件34可以继续识别子集的子集(例如,通过识别可以被添加到属性的第一集合的后续第二属性),直到没有其他子集可以被识别。在一些实施例中,共有性部件34可以针对由聚类部件30针对数据集生成的一个、一些或每个聚类来执行这些操作中的一个或多个。

在一些实施例中,共有性部件34可以生成聚类的分层描述。在识别同质性水平并且所述水平高于阈值的实施例中,共有性部件34可以生成很好地反映相应的聚类的分层描述。

在一些实施例中,共有性部件34可以从聚类部件30接收聚类以对其进行探索。共有性部件34可以在聚类水平探索实体和/或运行迭代过程以识别描述那些实体的描述性统计数据。当运行迭代过程时,共有性部件34向下钻取到聚类的子集。针对由聚类部件30生成的聚类的每个子集,可以重新生成统计信息。

在一些实施例中,共有性部件34可以接收由聚类部件30识别的聚类,并且进一步分析每个聚类,例如以统计地识别每个聚类中的一个或多个同类。关于聚类的统计识别可以基于相应聚类的更常见的属性。在一些实施例中,当识别聚类的子集的共有性时,仅使用几个(例如,一个,两个,三个或四个)属性。在其他实施例中,可以分析若干(例如,多于五个或十个)属性。一些实施例可以分析静态数量的属性,而在另一些实施例中,被分析的属性数量可以基于已知函数或公式或基于另一种技术而是预定的、用户配置的。一些实施例可以使用查询包含阈值(例如,如前所述的第一数量阈值)来确定要处理考虑多少个属性。额外地或替代地,一些实施例可以使用查询排除阈值。

通用性部件34可采用的查询包含阈值可以识别具有特定共有性的实体的具体数量或百分比。例如,共有性部件34的一些实施例可以使用40%的阈值,这意味着感兴趣聚类中的40%的实体应该具有至少一个共有属性。另一方面,查询排除阈值可以排除关于一个或多个属性具有在查询排除阈值之下的共同性的实体。例如,查询排除阈值可能要求在考虑这些实体之前至少1%的实体具有所述一个或多个属性。如关于聚类汇总部件38所讨论的,这些阈值可以用作查询建议的一部分。

为了说明通用部件34的某些功能,再次考虑488和1291实体的两个聚类。在第一个示例中,可能有488个实体至少具有“慢性肺病”属性。在这488个实体中,它们中的247个还可能至少具有高血压属性,这247个中的58个还可能至少具有心律不齐,等等。在第二个示例中,可能存在至少具有“实体肿瘤”属性的1274个实体。在这1274个实体中,它们中的903个还可能至少具有高血压属性,这903个实体中的369个还可能至少具有心律不齐,等等。作为此分析的结果,可以将更常见的属性进行组合以汇总聚类和/或生成查询建议。

在一些实施例中,聚类汇总部件38可以利用由共有性部件34进行的分析和识别来汇总该聚类或该聚类的子选择。也就是说,聚类汇总部件38可以命名或概括数据集的一个或多个聚类(例如,向其分配一个或多个术语)。在第一示例和第二示例下,这样的汇总可以指示所述聚类主要分别具有具有“慢性肺病”和“实体肿瘤”属性的实体,并且每个聚类也具有大多数具有高血压属性的实体。

在一些实施例中,聚类汇总部件38可以促进向聚类汇总的用户传递。聚类的汇总可以是术语或术语的集合。在一些实施例中,这些术语可以描述数据集的实体。例如,这些术语可以包括聚类中的某些实体的共有属性。在一些实施例中,聚类汇总部件38使用通用属性来汇总聚类以执行简单搜索(例如,利用包含和排除准则或通过其他过滤技术),以识别可以进一步分析的子集,例如,以识别子集的子集。在一些实施例中,聚类汇总部件38可以例如在健康护理环境中将组汇总为昂贵、过度使用的护理、服务不足或其他健康护理类别。例如,关于第一个示例,聚类汇总部件38可能报告说,患有慢性肺部疾病的特定患者群体中也有很大一部分患有高血压,或者患有慢性肺部疾病的人经常出现障碍,这可能表明他们没有得到及时或有效的护理。通过识别这样的组,健康护理提供者可以为那些组的实体提供更好的量身定制的护理。例如,使用聚类汇总部件38的特征的决策者可以更好地在质量与成本支出之间取得平衡。

聚类汇总部件38可以通过生成查询建议来进一步利用所识别的汇总。在一些实施例中,查询建议可以指提供的搜索词,其指示经由一个或多个逻辑与运算符来包括属性的第一集合,并且经由一个或多个逻辑非运算符来指示排除第二属性集。例如,属性的第一集合可以包括迄今为止提到的属性(例如,在被分析的组的实体之间是共有的那些属性),并且属性的第二集合可以指的是在组的实体之间相对不常见的属性。

在一些实施例中,属性的第一集合独自形成查询建议。在其他实施例中,属性的第二集合可以独自形成查询建议。在其他实施例中,属性的第一集合和属性的第二集合的组合可以用于更好地识别组或所述组的子集。查询建议在被搜索时可以通过生成的搜索词自动有效地汇总聚类。在一些实施例中,属性或其衍生可以用作搜索项。查询建议可以是在数据集中识别出的聚类的引导的探索性搜索时使用的单个工具,也可以是补充式的。即,可以由聚类汇总部件38针对每个聚类(或聚类的一个或多个子集)生成一个或多个汇总标签和/或一个或多个查询建议。

在一些实施例中,聚类汇总部件38可以导出人类可解读的查询建议,所述建议将从数据集中检索实体的大致相同的集合,而无需了解聚类过程。例如,进一步关于第一个示例,查询建议可以表示为以下供用户使用的属性联合:慢性肺and高血压andnot充血性心力衰竭andnot瓣膜疾病andnot肺循环andnot瘫痪andnot其他神经系统疾病andnot无并发症的糖尿病andnot有并发症的糖尿病andnot甲状腺功能减退andnot肾衰竭andnot肝病andnot消化性溃疡andnot艾滋病andnot淋巴瘤andnot转移性癌症andnot实体瘤andnot凝血病andnot肥胖andnot体重减轻andnot电解质紊乱andnot失血性贫血andnot障碍性贫血andnot精神病andnot抑郁andnot酗酒andnot药物滥用。该查询建议仅结合性地组合了慢性肺和高血压的共同属性,并且关于搜索准则否定了其他多种不常见的属性。关于第二个示例,该不同的查询建议可以由聚类汇总部件38生成:实体肿瘤and高血压andnot转移性癌症andnot艾滋病andnot麻痹症andnot精神病andnot药物滥用。

在一些实施例中,聚类汇总部件38可以提供与所使用的搜索引擎(未示出)兼容的查询建议。例如,可以针对与系统10结合使用的特定搜索引擎来定制逻辑与和/或否定运算符。

在一些实施例中,聚类汇总部件38可以选择用于确定停止添加逻辑连接搜索项的水平(例如,直到到达剩下的实体太少的点)的包含阈值,以及用于确定停止为查询建议添加逻辑非搜索词的水平的排除阈值。例如,包含阈值(在本文中也称为第一数量阈值)可以用于通过要求具有属性的第一集合的实体的至少一定百分比满足(例如,大于)包含阈值来选择属性的第一集合。在另一示例中或作为同一示例的一部分,排除阈值(在本文中也称为第二数量阈值)可用于选择属性的第二集合,以指示具有该后一集合的实体中至多特定百分比满足(例如,小于)排除阈值。

在一些实施例中,用户接口部件36可以为系统10(例如,属于计算设备18)提供用户接口,所述用户接口允许用户查看并随后选择(或手动输入)要从数据集中生成的聚类的数量、同质性水平要与其比较的质量水平、识别聚类子集的共有性时使用的属性的数量、由同质性部件32使用的阈值、第一数量阈值、第二数量阈值和/或任何其他用户可配置的值或设置。即,这些值中的一个或多个可以是可显示的和用户可配置的。用户接口部件36然后可以存储(例如,在电子存储装置22中或与外部资源24一起)该用户系统交互的值或选择。

在一些实施例中,电子存储设备22或外部资源24的数据库可以额外地存储数据集的部分或全部。该存储可以包括实体的简档,实体的简档包括数据集中的每个实体的一个或多个属性。

在一个实施例中,用户接口部件36可以向用户显示用于搜索数据集中的生成的聚类的字段。例如,用户可以例如基于所生成的查询建议来自动使用所生成的查询建议或在接口上手动输入查询。

本文中预期本领域中已知的机器学习技术,并且它们可以包括逻辑回归、神经网络和规则学习方法。在一些实施例中,查询建议部件38可以在预测查询建议中应用机器学习技术。

图4示出了根据一个或多个实施例的用于生成查询建议的方法,所述查询建议提供反映聚类获得的组的结果。方法100可以用包括一个或多个计算机处理器和/或其他部件的计算机系统执行。所述硬件处理器由机器可读指令配置为执行计算机程序部件。以下提出的方法100的操作旨在是说明性的。在一些实施例中,方法100可以利用一个或多个未描述的额外的操作来完成、或者在没有所讨论的操作中的一个或多个的情况下完成。另外,在图4中图示并且在以下描述的方法100的操作的顺序不旨在限制。

在一些实施例中,方法100可以在一个或多个处理设备(例如,数字处理器、逻辑处理器、被设计为处理信息的数字电路、被设计为处理信息的逻辑电路、状态机、和/或用于电子地处理信息的其他机构)中实施。所述处理设备可以包括响应于电子地存储在电子存储设备介质中的指令来执行方法100的操作中的一些或全部的一个或多个设备。所述处理设备可以包括通过硬件、固件、和/或软件被专门设计为执行方法100的操作中的一个或多个而被配置的一个或多个设备。

在方法100的操作102处,可以在表示实体的数据集上执行聚类以获得组,每个实体具有多个属性中的至少一个属性。作为示例,任何合适的聚类算法(或算法的组合)可以用于从数据集中生成聚类。在一些用例中,可以由聚类算法处理1000个或更多实体的数据集,以生成聚类,其中,它们中的一个或多个具有约100个实体。在一些情况下,由聚类算法生成的聚类数量是可变的。在一些情况下,每个聚类内的实体数量可能大致相同,但在其他情况下,每个聚类内的实体数量可能不相等。在一些实施例中,当生成聚类时,聚类算法可以使用实体的属性,并且在其他实施例中,可以使用不同的准则。在一些实施例中,操作102由与(在图1中所示并且在本文中描述的)聚类部件30相同或相似的一个或多个处理器来执行。

在操作104,对于通过在操作102中执行的聚类获得的聚类,可以基于具有第一属性的聚类的至少一些实体,将多个属性中的第一属性添加到属性的第一集合。在一些实施例中,所述多个属性中的所述第一属性可以至少与所述聚类中的实体的所有其他属性一样常见。在一些示例中,属性的所述第一集合可以仅包括所述第一属性。在其他示例中,属性的所述第一集合包括多个属性,包括了所述第一属性。在一些实施例中,操作104由与(在图1中所示并且在本文中描述的)共同性部件34相同或相似的一个或多个处理器来执行。

在操作106,对于所获得的聚类,可以基于(i)所述第二属性对于所述组的实体中的具有属性的所述第一集合的至少一些是共有的以及(ii)具有除了所述第二属性之外的属性的所述第一集合的聚类中的实体的数量满足第一数量阈值来将第二属性添加到属性的所述第一集合中。在一些实施例中,关于具有属性的第一集合的实体,第二属性可以是这些实体的次常见属性。在一些实施例中,操作106由与(在图1中所示并且在本文中描述的)共同性部件34相同或相似的一个或多个处理器来执行。

在操作108,确定是否应将另一个第二属性添加到属性的第一集合。例如,如果确定为“是”,则再次执行操作106;否则,当答案为“否”(即,不应将另一属性添加到属性的第一集合)时,执行操作110。在一些实施例中,基于满足第一数量阈值来进行该确定。例如,如果继续满足阈值,则可以识别更多的第二属性并将其添加到属性的第一集合。在一些实施例中,聚类可以具有确定数量的第二属性被添加到属性的第一集合,而在其他实施例中,聚类可以具有不确定数量的第二属性被添加到属性的第一集合。在一些实施例中,添加到属性的第一集合的第二属性的数量可以不依赖于第一数量阈值,而在其他实施例中,数量依赖于第一数量阈值。在一些实施例中,操作108由与(在图1中所示并且在本文中描述的)共同性部件34相同或相似的一个或多个处理器来执行。

在操作110,对于所获得的聚类,可以生成基于属性的第一集合的查询建议,使得查询建议被配置为获得反映该聚类的结果。在一些实施例中,查询建议可以使用属性的第一集合与逻辑合与和/或逻辑非运算符组合来生成。即,可以将第一集合的属性“与”在一起,并且可以将第一集合的属性与第二集合的属性进行“与非”运算。例如,“慢性肺和高血压”可以是查询建议的术语,并且该查询建议可以进一步与“andnot充血性心力衰竭andnot瓣膜疾病”联接在一起。在这些示例中,使用该查询建议的查询结果可以包括具有“慢性肺病”属性和高血压属性但不具有“充血性心力衰竭”属性或“瓣膜疾病”属性的实体。相对于属性的第一集合,属性的第二集合可以是聚类实体的罕见属性。与属性的第二集合是否形成查询建议的一部分无关,所生成的查询建议在查询中使用时,可能导致列出反映在聚类中的实体的列表;属性的第二集合可以用于,例如,更紧密地获得反映聚类的实体列表。在一些实施例中,操作110由与(在图1中所示并且在本文中描述的)聚类总结部件38相同或相似的一个或多个处理器来执行。

在操作112,确定数据集中是否存在除操作104、106、108和110处理过的聚类以外的另一个聚类。在一些实施例中,即使在操作102处识别出已经生成了其他聚类,所述操作仍可以导致“否”确定,并因此进行到操作116。在其他实施例中,针对彼此生成的聚类重复操作104、106、108和110。即,如果存在另一个可能的聚类要处理,则执行操作114以从数据集中识别或生成该另一个聚类。在一些实施例中,操作112由与(在图1中所示并且在本文中描述的)聚类总结部件38相同或相似的一个或多个处理器来执行。

在操作114,获得另一个聚类。作为示例,可以重新运行针对操作102使用的聚类算法以生成另一个聚类,或者可以获得操作102的结果以识别另一个聚类。在一些实施例中,操作114由与(在图1中所示并且在本文中描述的)聚类部件30相同或相似的一个或多个处理器来执行。

在操作116,可以在显示器中将由操作110生成的查询建议呈现给所实施的系统的用户。作为示例,查询建议可以与在操作102和114处生成的显示的聚类并排或以某种关系呈现。因此,在执行探索性数据分析(eda)时,为分析师提供了必要的指导,例如,以更好地理解所生成的聚类并发现数据驱动的见解。因此,在一些实施例中,操作116实现了系统10自动识别数据集中的实体的特定属性以进行分析的能力。查询建议的接收使分析人员可以查看数据集的固有模式,而不必知道数据集的上下文、其实体、实体的属性和/或其他关联的特征。在一些实施例中,操作116由与(在图1中所示并且在本文中描述的)用户接口部件36相同或相似的一个或多个处理器部件来执行。

图5示出了根据一个或多个实施例的用于确定聚类的同质性水平的方法。方法150可以用包括一个或多个计算机处理器和/或其他部件的计算机系统执行。以下提出的方法150的操作旨在是说明性的。在一些实施例中,方法150可以利用一个或多个未描述的额外的操作来完成、或者在没有所讨论的操作中的一个或多个的情况下完成。另外,在图5中图示并且在以下描述的方法150的操作的顺序不旨在限制。

在一些实施例中,方法150可以在一个或多个处理设备中实现。所述处理设备可以包括响应于电子地存储在电子存储设备介质中的指令来执行方法150的操作中的一些或全部的一个或多个设备。所述处理设备可以包括通过硬件、固件、和/或软件被专门设计为执行方法150的操作中的一个或多个而被配置的一个或多个设备。

在操作152处,可以在表示实体的数据集上执行聚类以获得组,每个实体具有多个属性中的至少一个属性。在一些实施例中,可以代替执行操作102而执行该操作,如上面关于图4所描述的。在一些实施例中,操作152由与(在图1中所示并且在本文中描述的)聚类部件30相同或相似的一个或多个处理器来执行。

在操作154,对于所获得的聚类,可以基于第三属性是仅具有属性的第三集合的组的实体中最常见的来将所述第三属性添加到属性的第三集合。作为示例,属性的第三集合可以仅包括第三属性,并且第三属性可以是仅具有一个属性的实体的单个最常见属性。在其他示例中(例如,由于操作158处的“是”确定而导致重复该操作),属性的第三集合可以包括多个第三属性。在这些示例中(即,在其中执行操作154的情况下),第三集合中的多个第三属性可以是用户可配置的或基于仅具有属性的第三集合的实体的数量。在一些实施例中,操作154由与(在图1中所示并且在本文中描述的)共同性部件34相同或相似的一个或多个处理器来执行。

在操作156,可以将仅具有属性的第三集合的实体的数量相加。也就是说,在每个聚类执行操作156(和操作154)不止一次的用例中,可以将仅具有属性的第三集合的实体的数量添加到先前仅具有属性的第三集合的实体中减去最近添加的第三属性的计数中。作为示例,返回参考图2a,如果操作156被执行两次,则405个实体(216+189)可以是该操作的第二轮执行的最终结果(即,总和)。在一些实施例中,在该操作的最开始将每个聚类的总和重置为零。在一些实施例中,操作156由与(在图1中所示并且在本文中描述的)同质性部件32相同或相似的一个或多个处理器来执行。

在操作158,确定是否应将另一个第三属性添加到属性的第三集合。例如,如果确定为“是”,则再次执行操作154和156;否则,当答案为“否”(即,不应将另一属性添加到属性的第三集合)时,则执行操作160。在一些实施例中,基于满足阈值来做出该确定。例如,如果继续满足阈值,则可以识别更多的第三属性并将其添加到属性的第三集合。在一些实施例中,聚类可以具有添加到属性的第三集合的确定数量的第三属性,而在其他实施例中,聚类可以具有添加到属性的第三集合的不确定数量的第三属性。在一些实施例中,操作158由与(在图1中所示并且在本文中描述的)共同性部件34相同或相似的一个或多个处理器来执行。

在操作160,关于聚类中的实体总数,对操作156的总和进行数字运算。作为示例,参考图2a,457个实体(即216、189、42、8、1和1的总和)除以488个实体(即,所述示例性组的实体的总数)以得到0.94的商。在一些实施例中,在操作160处确定的结果(例如,商)可以是聚类的同质性水平。在一些实施例中,操作160是任选的。在一些实施例中,操作160由与(在图1中所示并且在本文中描述的)同质性部件32相同或相似的一个或多个处理器来执行。

在操作162,确定数据集中是否存在除操作154、156、158和160处理过的聚类以外的另一个聚类。在一些实施例中,即使在操作152处生成了其他聚类,所述操作仍可以导致“否”确定,并因此进行到操作166。在其他实施例中,针对彼此生成的聚类重复操作154、156、158和160。即,如果存在另一个可能的聚类要处理,则执行操作164以从数据集中识别或生成该另一个聚类。在一些实施例中,操作162由与(在图1中所示并且在本文中描述的)聚类部件30相同或相似的一个或多个处理器来执行。

在操作164,获得另一个聚类。作为示例,可以重新运行针对操作152使用的聚类算法以生成另一个聚类,或者可以获得操作152的结果以识别另一个聚类。在一些实施例中,操作164由与(在图1中所示并且在本文中描述的)聚类部件30相同或相似的一个或多个处理器来执行。

在操作166,可以将同质性水平(例如,作为操作160的一部分计算的商)提供给共有性部件30。利用该计算出的同质性水平,共用性部件30可以确定该水平是否违反阈值以指示聚类足够同质,以运行方法100或可以汇总聚类和/或生成与聚类有关的查询建议的任何其他方法。在一些实施例中,操作166由与(在图1中所示并且在本文中描述的)同质性部件32相同或相似的一个或多个处理器来执行。

尽管以上提供的说明出于基于当前认为最优选和现实的实施例的提供了说明的目的细节,但是应理解,这样的细节仅用于该目的并且本公开不限于明确公开的实施例,而是相反,旨在涵盖在随附权利要求书的精神和范围之内的修改和等价布置。例如,应该理解,本公开预期,在可能的范围内,任何实施例的一个或多个特征可以与任何其他实施例的一个或多个特征相组合。

在权利要求中,置于括号之间的任何附图标记都不应被解释为对权利要求的限制。词语“包括”或“包含”不排除存在多于权利要求中列出的那些之外的元件或步骤的存在。在枚举了若干器件的装置型权利要求中,这些器件中的若干个可以由相同的硬件项来实现。元件前的词语“一”或“一个”不排除存在多个这样的元件。在枚举了若干器件的任何装置型权利要求中,这些器件中的若干个可以由同一硬件项来实现。尽管在互不相同的从属权利要求中记载了特定元件,但是这并不指示不能有利地使用这些元件的组合。

再多了解一些
当前第1页 1 2 3
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1