要点总结 #
随着移动应用的快速增长,应用市场的竞争日益激烈,许多应用难以实现其财务目标。现有的研究主要集中在消费者端,而忽略了开发者的需求。本研究通过结合预测网络分析、深度学习和可解释人工智能技术,提出了一种面向开发者的推荐模型。该模型利用应用特定的变量和网络驱动的变量,预测应用之间的推荐关系,帮助开发者更好地定位目标用户。
研究使用了从iOS应用商店收集的超过23,000个医疗应用的数据集,验证了模型的准确性。通过SHAP分析,研究识别了影响应用推荐关系形成的关键因素,并为开发者提供了设计原则和营销策略的见解。研究结果表明,该模型能够准确预测85.8%的推荐关系,为开发者提供了实用的工具,帮助他们在竞争激烈的市场中取得成功。
关键要点 #
论文重要性 #
这项研究为应用开发者提供了一个强大的工具,帮助他们优化应用设计和营销策略,提升应用的可见性和用户采纳率。在当前竞争激烈的应用市场中,开发者面临着巨大的挑战,尤其是小型企业和独立开发者。该研究通过结合网络分析和深度学习技术,填补了现有研究的空白,为开发者提供了数据驱动的决策支持。未来研究可以进一步扩展该模型的应用范围,探索更多应用类别和市场环境下的推荐机制。
图表分析 #
App networks at two times #
🔼 图4a和4b分别展示了在t1和t2两个时间点的应用网络可视化图,使用了ForceAtlas2布局算法。节点颜色代表应用的主要类别。这两个网络均包含23,908个应用,但在t1网络中有103,350条边,而t2网络中有103,999条边。虽然不是非常精确,图4a和4b直观地呈现了两个时间点链接存在的差异。在t2时,网络内部到外部的链接比t1网络中的链接多。图4的主要目的是为了展示在两个时间点,应用之间的连接关系的变化。可以看出,随着时间的推移,应用之间的连接关系有所变化,网络的结构也发生了一定的改变。这说明在不同时间点,应用的相互推荐关系可能会发生变动,这直接影响了推荐系统的设计和效果。
图4中的可视化有助于理解应用生态系统的动态性。这些视觉化的呈现帮助我们直观地看到应用之间的相互影响,以及哪些应用在网络中处于更中心的位置。这种变化可能与市场趋势、用户行为变化、新应用的出现以及现有应用的更新等因素有关。因此,图4不仅展示了网络结构,还为研究应用推荐的动态性和影响因素提供了视觉线索。通过对这些变化的理解,可以更好地开发和优化推荐系统,提高应用的可见性和采用率。总体而言,图4清晰地展示了随着时间推移,应用网络结构的演变过程,强调了网络分析在理解和优化应用生态系统中的重要性。
更多图表分析
App networks at two times #
🔼 该图(Fig. 4a和4b)展示了在两个不同时间点(t1和t2)构建的应用程序网络。这些网络是有向图,其中节点代表应用程序,边表示推荐关系,即一个应用推荐了另一个应用。图4a(t1)和4b(t2)使用ForceAtlas2布局进行可视化,节点颜色基于应用的主要类别。在两个网络中,虽然节点数量均为23,908,但t1网络有103,350条边,而t2网络有103,999条边。从视觉上看,t2网络的连边比t1网络更多,尤其是从网络内部到外部的连边。主要目的是利用t1网络的信息来预测t2网络中连边的出现。此外,图4清晰展示了应用之间复杂的相互推荐关系,这种关系是本研究的核心。在t1时刻,网络展现出较为分散的结构,显示了不同类别应用之间的联系相对较弱。而在t2时刻,网络的中心区域变得更加紧密,同时出现了一些向外扩展的连接,这表明随着时间的推移,应用之间的相互推荐关系变得更加频繁和复杂。这种变化可能反映了应用生态系统内部的动态,也突显了研究这种动态的必要性。该可视化有助于理解网络结构的演变,为后续的定量分析提供了直观的背景。图表的布局方式有效地突出了不同类型应用之间的关联模式,并通过色彩编码区分了不同的应用类别。该图对了解应用生态系统的网络动态至关重要,并且是后续模型建立和验证的基础。这些可视化对于理解应用程序生态系统随时间变化的结构动态至关重要,这对于分析它们之间的推荐关系是至关重要的。

App networks at t1 and t2 #
🔼 该图为论文中图 4,展示了在两个不同时间点(t1 和 t2)的应用程序网络的可视化。图 4a 显示了 t1 时刻的网络,而图 4b 显示了 t2 时刻的网络。两个网络都使用了 ForceAtlas2 布局算法进行可视化,该算法可以帮助更好地展现节点之间的关系。图中每个节点代表一个应用程序,颜色则代表应用程序的主要类别。从视觉上看,两个网络都呈现出复杂的结构,其中一些节点聚集在一起形成集群。t2 时刻的网络相比 t1 时刻的网络,从中心向外围的连接似乎略有增多。这可能意味着,在 t2 时刻,不同类别的应用之间的连接更加紧密,或者说,应用程序的推荐更加多样化。这些图的可视化效果有助于理解应用程序生态系统的结构,并为进一步的分析提供基础。两个图中,网络结构都比较复杂,节点之间的连接相对密集。这暗示了应用程序之间存在复杂的相互推荐关系。通过这些图,研究人员可以直观地观察到不同类别应用程序之间的相互作用模式。例如,某些类别的应用程序可能在网络中占据中心位置,拥有更多的连接,而另一些可能位于外围,连接较少。此外,图 4b 中出现较多的外围连接可能表示,在 t2 时刻,新应用程序或者较不流行的应用程序获得了更多的推荐机会,这可能是由于市场的变化或算法的调整所导致的。这些可视化结果有助于研究人员理解应用程序网络动态变化,以及这些变化对开发者和市场营销人员的影响。

App networks at two times #
🔼 该图表展示了在两个不同时间点(t1和t2)的应用程序网络。每个节点代表一个应用程序,而节点之间的连线表示应用程序之间的推荐关系。图4a显示了t1时刻的应用程序网络,图4b显示了t2时刻的应用程序网络。图表使用了ForceAtlas2布局来可视化网络,并根据应用程序的主要类型进行了颜色编码。在两个网络中,都有23908个应用程序节点。t1网络中有103350条边,而t2网络中有103999条边。虽然不完全精确,但从视觉上看,两个时间点的网络连接情况有所不同。t2网络中从网络内部到外部的连接比t1网络多。t1网络中的平均节点度数为4.32,而t2网络中为4.35,差异不显著。然而,t1网络中的平均出度(4.32)显著低于t2网络中的平均出度(4.35)。此外,t1网络的平均偏心率、平均紧密中心性和平均特征向量中心性都显著低于t2网络,但t1网络的平均介数中心性与t2网络没有显著差异。这些网络属性说明了应用程序之间的推荐关系在两个时间点上的变化,为后续使用t1网络的数据预测t2网络的连接奠定了基础。这些图表直观地展示了app生态系统中app之间关系的复杂性及演变,是理解app推荐系统动态的关键。

App networks at two times #
🔼 图4展示了在两个不同时间点(t1和t2)构建的应用程序网络。这两个网络均为有向图,箭头从推荐者指向被推荐的应用程序。图4a为t1时的网络可视化,图4b为t2时的网络可视化。图中,节点(应用)根据其主要类别进行着色。在两个网络中,均包含23,908个应用,但t1网络的边数为103,350条,而t2网络的边数为103,999条。虽然不精确,但图4a和4b视觉上呈现了两个时间点链路存在的差异。t2时,从网络内部到外部的链接比t1时多。此外,t2的整体连接看起来更密集,特别是靠近中心的区域。这些图展示了应用之间推荐关系的变化,即随着时间的推移,哪些应用彼此推荐增加或减少,以及哪些应用在网络中更具影响力。网络结构的变化揭示了应用生态系统的动态特性。例如,在t2中,外围的应用可能由于新功能的引入或用户兴趣的变化而增加了与中心应用的连接。研究人员的目标是利用t1网络的信息来预测t2时链接的存在,这强调了网络分析在理解应用生态系统演变中的潜力。

App networks at the two times #
🔼 该图表展示了在两个不同时间点(t1和t2)构建的应用程序(App)网络。t1网络(图a)和t2网络(图b)均使用ForceAtlas2布局进行可视化,节点代表应用程序,颜色编码表示应用的主要类别。两个网络都包含23,908个应用,但在t1网络中有103,350条边,而t2网络中有103,999条边。尽管差异不显著,但t2网络中的连边似乎比t1网络更为密集,尤其是从网络内部到外部的连边有所增加。t1和t2网络之间连边的差异反映了应用程序生态系统随时间的变化,这可能是由于新的应用程序出现、现有应用程序的更新或用户行为的变化。这些可视化结果为理解应用程序之间的关系以及它们如何随时间演变提供了重要信息。具体来说,t2网络中连接的增加可能表明,在一段时间内,应用程序之间相互推荐和关联的趋势增强了,这可能反映了用户对应用程序发现方式的改变或开发者采取的更为积极的推广策略。该图表对于研究应用程序生态系统的动态变化以及预测未来应用程序之间的关系至关重要。

App networks at two times #
🔼 这张图表展示了在两个不同时间点(t1 和 t2)收集的医疗类应用的网络结构。图4a代表t1时刻的应用网络,而图4b代表t2时刻的应用网络。每个节点代表一个应用,节点之间的连线表示应用之间的推荐关系(即共同下载)。图中节点颜色根据应用的主要类别进行区分。通过比较两个图可以观察到,虽然两个图都包含23908个应用节点,但它们之间的连接数量和结构略有不同。在t1时刻(图4a),网络中有103350条边,而在t2时刻(图4b),边的数量增加到了103999条,这表明应用之间的推荐关系在十个月的时间里有所变化。图4b中,从网络内部到外部的连线比图4a中更多,这暗示了较早期的应用可能会向较晚期的应用进行推荐。这些变化可能是因为用户行为和应用生态系统的演变,使得应用之间的关系发生了改变。图表使用ForceAtlas2布局算法进行可视化,以便更清晰地展示网络结构。从整体上来看,这些可视化视图提供了一个直观的窗口,用于理解应用生态系统中的关联结构,并有助于进一步分析和预测应用之间的潜在联系。

平均评论数与推荐应用平均评论数的关系 #
🔼 该图表展示了应用程序评论数量与其推荐应用程序的平均评论数量之间的关系。横轴代表应用程序的评论数(取对数),纵轴代表其推荐的应用程序的平均评论数(取对数)。图中的每个点代表一个应用程序,通过散点图展示了这两个变量之间的相关性。图中的线性拟合线表明存在正相关关系,即拥有更多评论的应用程序倾向于推荐那些平均评论数也较高的应用程序。这种正相关关系表明,用户评价较高的应用更倾向于被其他高评价应用推荐,也说明了应用生态系统中“强者愈强”的现象。图中的数据点分布相对分散,表明应用程序间的推荐关系并非完全由评论数决定,其他因素也可能在其中起作用。总的来说,此图有力地证明了应用程序的受欢迎程度与其推荐的应用的受欢迎程度之间存在关联,同时也暗示了用户评价在应用生态系统中的重要性。此发现可被开发者用于优化应用的推广策略,如优先关注与高质量应用之间的关联,从而提升自身应用的曝光度和用户信任度。此外,该图也提供了进一步研究应用推荐机制的依据,例如,可以深入探讨是什么因素促成了这种推荐倾向。

数据收集流程图 #
🔼 该流程图展示了研究中数据收集的步骤,包括两个时间点(t1和t2)的数据收集过程,以及如何利用这些数据构建应用网络。首先,在时间点1(t1),研究人员抓取了28,914个应用程序的描述和推荐信息。在时间点2(t2),研究人员再次抓取了相同类型的应用程序数据,也包含了28,914个应用程序。为了保持数据的稳定性,研究只保留了在t1和t2都存在的应用,最终得到23,908个共同的应用程序。这些共同的应用被用来创建两个应用网络,一个基于t1的数据,另一个基于t2的数据。t1的网络用于构建预测模型,而t2的网络则被用作验证模型的ground truth。此流程图清晰地展示了数据的收集、处理和网络构建过程,为后续的分析提供了基础。该图有效地传达了数据处理的关键步骤,使读者能快速理解数据如何从原始抓取的数据转换为用于模型训练的网络数据。流程图简化了复杂的流程,并且强调了时间因素在数据收集中的重要性。通过展示数据从t1到t2的演变,突出了研究中使用的时间维度,这在研究网络动态中非常重要。此外,共同应用程序(Common apps)的识别,确保了两个网络在比较研究中的一致性,为后续预测模型训练和验证打下基础。流程图以其简洁的视觉元素,有效传达了研究的核心数据收集逻辑,展现出研究的严谨性。

App networks at two times #
🔼 该图表展示了在两个不同时间点(t1和t2)的应用程序网络结构。图a和图b分别对应t1和t2时刻的网络可视化结果,使用ForceAtlas2布局算法进行布局,节点颜色代表应用程序的主要类别。网络中每个节点代表一个应用程序,而节点之间的连线则表示应用程序之间的推荐关系,这种推荐关系是基于用户的协同下载行为产生的。每个图中都有23908个应用节点,但t1网络有103350条边,而t2网络有103999条边。尽管边数变化不大,但可以观察到,在t2时,从网络内部到外部的连线似乎比t1时更多。
对这些图进行分析可以得出以下几点结论:首先,两个网络都呈现出明显的中心化结构,这表明某些应用程序在网络中占据了关键位置,具有更高的影响力。其次,颜色的分布显示,属于同一类别的应用程序倾向于聚集在一起,这暗示了应用程序之间的类别相关性会影响用户的下载行为。第三,两个时间点的网络结构有所不同,虽然边数变化不大,但是内部与外部的连线有所区别,表明随着时间的推移,应用程序之间的推荐关系发生了微小的调整。t2时刻更多的内部到外部连接可能反映了新应用的出现或者旧应用在市场中的重新定位。这种可视化分析为理解App Store生态系统中应用的动态发展提供了一个直观的视角,强调了网络分析在揭示应用程序之间复杂关系方面的重要性。这些图形化的结果有助于我们深入了解应用程序生态系统的演变以及开发者应该如何在这样的生态中优化他们的应用。

App Description Vectors #
🔼 该图为应用描述向量在二维空间中的分布图,通过主成分分析(PCA)将高维的文本描述向量降至二维进行可视化。图中展示了随机选择的30个应用,这些应用来自三个不同的子类别:微生物学考试准备(红色叉号),生理学考试准备(绿色圆点)和妊娠相关应用(黄色三角形)。每个点代表一个应用,其位置基于文本描述向量的降维结果。从图上可以看出,不同类别的应用在二维空间中形成了明显的聚集,红色叉号(微生物学)主要分布在图的左侧,绿色圆点(生理学)聚集在右下角,而黄色三角形(妊娠)则聚集在右上角。这种分布表明,使用Doc2Vec生成的文本描述向量能够有效地捕捉不同应用之间的语义差异,使得在语义上相似的应用在向量空间中彼此靠近。此图说明了该研究中使用的自然语言处理方法在区分不同类型应用方面的能力,并验证了该方法在后续预测模型中的应用价值。这些聚类结果表明,即使是来自同一大类(如医疗类)的应用,其具体功能和描述也存在明显差异,而该方法能够捕捉到这些差异,为进一步的关联分析提供依据。

数据处理和分析流程图 #
🔼 本图展示了论文中数据处理和分析的详细流程。首先,从两个时间点收集了App Store中常见的应用程序数据。接着,基于这些数据构建了应用程序之间的网络关系图,并利用Gephi软件进行可视化。同时,使用R语言计算了网络的各种指标,如相似度和中心性。随后,基于这些网络指标,推导出了成对的应用程序的网络度量,并结合Doc2Vec方法计算了应用程序描述文本之间的距离,从而构建了一个成对的数据集。此数据集随后被用于梯度提升树(Gradient Boosted Trees)的预测建模。模型训练过程中,数据集被分为训练集和测试集,并进行多次迭代以优化模型性能。最后,使用KNIME平台中的SHAP算法对模型进行解释,得到每个变量的重要性评分,即SHAP值。该流程图清晰地展示了从原始数据到最终结果的每一步操作,包括数据预处理、网络分析、特征提取、模型训练和模型解释。此流程图强调了数据驱动方法在分析应用商店推荐系统中的作用,为理解应用间的推荐关系和优化开发者策略提供了清晰的指导。图中明确标示了每个环节所使用的工具和方法,有助于研究者复现和进一步扩展该研究。通过这个流程,研究者不仅能够预测应用程序之间的链接,还能深入理解影响链接形成的关键因素。

ROC曲线 #
🔼 该图展示了接收者操作特征(ROC)曲线,用于评估模型的分类性能。横轴表示假阳性率(False Positive Rate),即错误地将负样本预测为正样本的比例;纵轴表示真阳性率(True Positive Rate),即正确地将正样本预测为正样本的比例。曲线下的面积(AUC)是衡量模型整体性能的指标,AUC值越高,模型的性能越好。图中蓝色的曲线代表模型的ROC曲线,黑色的对角线代表随机分类器的ROC曲线。该模型的AUC值为0.951,表明该模型具有非常好的区分能力,能够很好地区分正样本和负样本。曲线在左上角弯曲,这表示在较低的假阳性率下,模型可以达到较高的真阳性率。具体来说,当假阳性率较低时(接近0),该模型的真阳性率很高(接近1),表明该模型在大多数情况下能够正确预测链接的存在与否。这条曲线清晰地展示了模型在不同阈值下的性能表现,使得我们可以通过调整阈值来优化模型的性能,以满足特定的应用需求。此图有力地证明了该模型在预测应用商店应用之间潜在的推荐关系方面具有很高的准确性和可靠性。同时,图中的曲线也提醒我们需要综合考虑假阳性率和真阳性率,以便在实际应用中获得最佳效果。该曲线的清晰呈现为理解模型性能提供了直观而有力的依据,支持了本研究中使用该模型的合理性,并为未来的改进方向提供了参考。

特征平均SHAP值 #
🔼 该图展示了用于预测应用商店中应用间链接的模型的特征重要性。图中的条形图表示每个特征的平均SHAP值,SHAP值是一种衡量特征对模型预测结果贡献的方法。其中,‘path_dist’(路径距离)是影响模型预测的最重要特征,其SHAP值明显高于其他特征。这表明,两个应用在网络中的路径距离越短,它们之间形成链接的可能性越高。这可能意味着,如果用户在应用推荐页面上需要多次导航才能从应用 A 到达应用 B,那么应用 B 不太可能直接成为应用 A 页面推荐的应用。紧随其后的是’Description_Distance’(描述距离),它衡量的是应用描述文本之间的距离。该特征的重要性表明,应用描述的相似性对它们之间的链接形成有负向影响,即描述越不相似,越有可能形成链接。这也意味着用户倾向于下载功能各异的应用,而不是重复下载功能相似的应用。接下来,‘same_genre’(相同类型)是一个重要的特征,其重要性反映了用户在特定类型中寻求多种不同应用的可能性。这意味着,用户仍然倾向于下载同一类型中的不同应用,而不是跨类型下载。此外,图表还展示了其他一些网络特征和应用属性的重要性,如特征向量中心性差异(eigen centrality diff)、紧密度差异(closeness_diff),它们都反映了节点在网络中的位置和影响力。这些特征表明,与中心节点连接的节点更倾向于形成新链接。其他诸如年龄差异(age_difference)、Jaccard 指数等特征也对模型的预测结果产生影响,但其影响力不如前面提到的特征。总体而言,该图表清晰地展示了模型中不同特征的重要性,为应用开发者提供了有价值的见解,他们可以利用这些信息来优化应用的设计和营销策略,提高应用之间的链接可能性,从而提升应用的可见度。该图体现了网络分析在应用推荐模型中的应用价值,对理解用户行为和设计更有效的推荐系统具有重要意义。

深度解读 #
开发者推荐模型 #
本文提出了一种面向开发者的应用商店推荐模型,旨在帮助开发者提高其应用的可见性并精准定位目标用户。传统的推荐系统主要关注消费者行为,而本文通过结合预测网络分析和深度学习技术,将焦点转向开发者,提出了一种基于网络分析的应用推荐模型。该模型利用应用特定的变量和网络驱动的变量,预测应用之间的推荐关系,从而帮助开发者优化其应用的设计和营销策略。通过验证,该模型在预测10,234个网络链接时,准确率达到了85.8%。此外,本文还通过SHAP分析识别了影响链接形成的关键因素,为开发者提供了可操作的设计原则和营销建议。这种模型的应用前景广阔,尤其是在竞争激烈的应用市场中,能够帮助开发者更有效地利用有限的资源,提升应用的成功率。
网络分析应用 #
本文首次将网络分析技术应用于应用商店的推荐系统中,通过构建应用之间的共下载网络,预测未来的推荐关系。网络分析的核心在于通过节点之间的连接关系来预测未来的链接,本文通过提取应用的中心性指标(如接近度、介数中心性等)和相似性指标(如Jaccard相似系数),构建了一个基于监督学习的链接预测模型。实验结果表明,最短路径距离是预测未来链接的最重要因素,其次是应用描述的文本相似性。这一发现为开发者提供了新的思路,即通过优化应用描述中的文本内容,突出其独特功能,可以提高其被推荐的概率。此外,本文还通过SHAP分析进一步解释了各特征对链接预测的贡献,为开发者提供了更加细致的优化建议。
文本分析创新 #
本文在文本分析方面展现了显著的创新性,首次将Doc2Vec技术应用于应用描述的文本相似性计算中。传统的文本分析方法主要依赖于词频或主题模型,而本文通过深度学习技术,将每个应用的描述嵌入到一个32维的向量空间中,计算应用描述之间的欧几里得距离,作为链接预测的一个关键特征。实验结果表明,文本相似性在预测未来链接中起到了重要作用,尤其是当应用描述之间的相似性较低时,应用更有可能被推荐。这一发现为开发者提供了新的设计思路,即在应用描述中突出其独特功能,避免与已有热门应用过于相似,从而提高其被推荐的概率。此外,本文还通过可视化展示了不同子类别的应用描述向量,进一步验证了文本分析的有效性。
SHAP解释模型 #
本文通过SHAP(Shapley Additive exPlanations)方法对机器学习模型进行了解释,帮助开发者理解各特征对链接预测的贡献。SHAP方法通过计算每个特征的边际贡献,提供了模型的可解释性,使得开发者能够了解哪些因素对其应用的成功至关重要。实验结果表明,最短路径距离是影响链接预测的最重要因素,其次是应用描述的文本相似性和应用所属的类别。这一发现为开发者提供了具体的优化方向,即通过优化应用描述和选择合适的目标用户群体,可以提高其应用被推荐的概率。此外,SHAP方法还为开发者提供了实例级别的解释,使得他们能够根据具体的应用对进行个性化的优化。
未来研究方向 #
本文末尾指出了几个值得进一步研究的方向,其中最值得关注的是如何将更多的非结构化数据(如用户评论和应用截图)纳入推荐模型中。未来的研究可以进一步扩展本文的文本分析方法,通过分析用户评论和应用截图,提升推荐模型的准确性。此外,本文的研究主要基于医疗类应用,未来的研究可以扩展到其他类别的应用,验证模型的通用性。另一个重要的研究方向是探索更长的时间跨度,本文的研究基于10个月的数据,未来的研究可以探索更长时间内的网络变化,验证模型的长期有效性。最后,本文的研究主要基于生存下来的应用,未来的研究可以进一步分析失败应用的特征,为开发者提供更全面的设计建议。
完整论文 #














