全国网络交易平台监管服务系统智能标签管理初探
编者的话
标签,是用来标识目标的分类或内容以便查找、定位的工具。全国网络交易平台监管服务系统中的标签即是对网店或交易平台的主体、客体、经营行为进行标注的工具。应用智能标签,执法人员可以从任意角度对平台或网店的典型特征进行描述,进而迅速掌握网店基本情况,快速定位至相关网店,为风险监管和分类监管奠定基础,切实提高随机检查和专项治理的工作实效。
随着全国网络交易平台监管服务系统的广泛、深入应用,科学管理标签的重要性日益凸显。标签筛选、统合、升级、清洗、应用等方面的优化程度考验着系统应用者的智慧和监管执法水平,并直接决定了依托大数据技术提高网络市场监管精准性的效能,这也是系统本身智能化水平不断提高的关键所在。
智能标签的分类
根据产生方式的不同,智能标签可分为预设标签和自设标签两类。
预设标签
预设标签是系统根据获取的基础数据自动赋予的、用于展示平台或网店典型属性的标签。预设标签的主要数据来源为:工商登记注册各项数据、信用监管数据以及投诉举报数据、商品检测数据等;第三方交易平台经营者提供数据;与政府部门合作,提供大数据服务的网络科技企业提供的相关数据。
预设标签具有内置性、非手动设置的特点,所有基础资源数据库中的数据项均可成为预设标签。以注册资本数额范围这一预设标签为例,某注册资本5万元的有限公司网店的主体预设标签之一即注册资本在10万元以下。在对某类资金规模的涉网主体进行筛选时,以该标签进行检索,可迅速提取和定位符合条件的主体,从而为下一步检查和分析提供极大的便利。
自设标签
自设标签是执法人员依据自己的需要和所了解的情况,手动为平台或网店添加的个人标签。与预设标签相比,自设标签在设置和文字表述上更体现执法人员的个性化需要,因此具有更强的灵活性和更多的个人色彩,能够满足执法人员对网店或平台进行个性化描述或标记的需要。
智能标签的主要特点及作用
以大数据技术为支撑,借助机器学习和智能聚类技术,智能标签通过系统默认初始设置+自下而上提取汇总的方式,可将网店或平台的主体、客体、行为等各方面特征进行提炼、综合,有效提升网络监管工作实际效能。
制式化与自定义相辅相成的适用性
预设标签是制式的、规范化的,执法人员手工添加的自设标签是自定义的、个性化的,两者相互结合、相互补充,既保证了基础数据转化为标签的数量和质量、减少了重复工作,又满足了监管执法个性化需求。以自定义标签内容作为制式内容的有益补充,保证了智能标签的高度适用性。
针对性与普适性相互转换的灵活性
执法人员可以根据自身经验或实际需要,对有管辖权的平台或网店手动添加个人标签。因其为该执法人员独创,故通常仅由该执法人员单独针对少数网店使用。当上级管理员认可某些个人标签对本地区网络监管的指导或借鉴作用时,可以对该标签进行入库操作,即把该个人标签提升为本级通用的自设标签,使其成为在一定范围内普遍适用的标签,当需要描述相似特征时,可从标签库中直接选取。比如,某网店为几名应届大学毕业生开设的,执法人员就这一特点给该网站手动添加大学生创业的个人标签,随着国家鼓励高校毕业生自主创业政策的推广,更多的应届大学毕业生参与到创业大潮中,大学生创业开设的网店数量越来多,至此,上级业务管理员将大学生创业的个人标签提升为通用的自设标签,其他执法人员在需要对同类网店进行标注时,大学生创业这一标签就是一个可以从数据库中直接选用的范例标签了。
科学分类与智能聚类有机结合的独创性
标签最基础的作用是分类。分类有助于标明特征,据此特征可快速搜索定位至数据库中的特定信息,从而使执法人员执行对网店或平台的检查任务时更加快捷。必须指出的是,科学的分类应根据全部样本制定明确的分类标准和确定的类名,单纯依靠分类技术必然有局限性。在对网店进行提取、筛选时,必须跳出“全部样本”“标准统一”“无限细分”的定式,转换思维方式,通过对标签的智能聚类,实现“模糊的精确”。模糊的是被聚在一起的“类”,因为所聚的“类”并不是事先给定的,而是根据需要以数据的相似性进行划分的;精确的是聚类之后的结果,即最终得到的类数据均有不同于其他类的属性,由此体现针对性和靶向性。比如,网店A、B、C分别被执法人员标注客体标签“美素佳儿”“爱他美”“惠氏”,如果系统发起对经营婴幼儿配方奶粉的网店检查任务,只有通过智能聚类,将包含上述标签的其他各类奶粉品牌标签与“婴儿奶粉”标签进行聚类,才能保证筛选出最接近全量数据的网店。
关于智能标签管理工作的几点思考
依托先进技术实现标签管理的智能化、制度化
借助关联的力量,利用海量的数据,形成智能的系统。标签管理即指对预设标签和自设标签进行管理,其中对预设标签的管理为系统默认设置。这看似是一项简单固化的工作,实则需要系统管理员合理分析、理性取舍。具体而言,就是在分析、判断和选择执法人员基本需求的基础上对预设标签进行管理,科学设置预设标签的展示内容、展示方式和展示位置,把各级执法人员最需要的标签以最便捷的方式、在最不影响其视线的位置进行展示,既突出标签的标识作用,又避免出现冗余信息干扰执法人员的情况。
就自设标签而言,由于允许各级执法人员进行个性化设置,自设标签管理既需要强大的、能够持续迭代的技术满足个性化设置的需求,保证系统自设标签功能运用的灵活度和友好性,又需要确保系统对自设标签的整体控制,避免自设标签演变为无序状态,把具有普适价值的自设标签进行提炼聚类,反哺系统标签管理功能。也就是说,对于自设标签,系统管理要秉承“放管服”的精神,既要做好“放”——以技术的开放性满足执法人员的个性化需求;又要做好“管”——以智能聚类技术避免自设标签无序化;还要做到“服”——自设标签不仅要为执法人员的工作提供便利,还要服务于标签管理功能的自我完善乃至系统整体智能化程度的提升。
智能标签作为一个重要的工具,随着未来全国网络交易平台监管服务系统的深入应用,能够发挥更加重要的作用。其可持续发展性主要来源于两大核心功能:关联和分类。
智能标签最基础的关联功能就是把标签特征的描述与网店关联,从而使再次浏览、搜索和聚类成为可能。在全国网络交易平台监管服务系统中,不仅标签与网店关联,还有标签与标签的关联(聚类)、网店与主体的关联、网店与网店的关联等,这些关联产生的海量数据即是对网店的主、客体及经营行为进行科学、精准分析的大数据基础。
基于上述分析,一方面,需要依托科学、合理的系统运行机制生成关联数据,在聚类时有区别、有重点、有目的地进行关联。比如,我们需要对活跃度高的网店的关联数据进行重点分析,结合风险研判结果发起有因检查,及时预见问题、处理问题。而对于活跃度中等的网店关联数据则可进行一般分析,把其纳入抽查频次中等的随机抽查主体库中。对于不活跃的“僵尸”关联数据,既可以通过数据清洗将其排除在有效数据之外,也可以通过功能设置减少对于此类数据的采集量。
另一方面,对于已通过系统或人工方式关联的数据进行人机交互式的筛选和清洗同样重要。举例来说,可以设置“自设标签相似度阈值触发机制”,即由系统定期对全部自设标签进行汇总分析,并根据当前主流标准进行智能聚类,同时设定一个相似度阈值,一旦聚类的结果达到或超过该阈值,系统便自动触发对自设标签进行再定义的任务,把被聚类的相似自设标签(以下简称“原自设标签”)统合为一个标签,以最具典型性的名称代替各原自设标签,并自动在系统中更替,自动把相关信息推送至创设或使用原自设标签的执法人员。如有必要,还可把统合后的标签保存并升级为预设标签,并根据相似度阈值决定上述再定义过程是否需要人工干预。
以婴儿奶粉为例,如果对同类产品或表述进行聚类并把阈值设定为5,被聚类的自设标签为“奶粉”“配方奶粉”“乳粉””母乳代用品”“代乳品”“婴儿奶粉”“婴儿配方奶”,当其数量超过阈值后,系统可把上述标签统一为“母乳代用品”,并在系统内进行相应替换和提示。
以上述为合并同类项而设置阈值相反,还可设置“标签活跃度阈值触发机制”,把一定时段内或某区域内活跃度(即使用频次和范围)低于阈值的自设标签纳入“标签回收站”,使其处于待清洗状态。
总之,关联数据的生成、筛选、清洗、应用等看似复杂,一旦建立后,不仅可以实现科学提取有用数据、主动提炼有效数据、自动清除冗余数据以及合理应用大数据分析结果,更重要的是这种“人工指引+机器学习”的双向互动模式能够随着数据的积累而使系统进入持续的、稳定的“学习—优化—再学习—再优化”的良性循环,系统能够自动分析处理的业务可以由点及面甚至达到较高的覆盖率,从而把有限的人力资源释放至更关键的环节,进而提升标签管理乃至整个系统运行的智能化程度。
以弹性扩展的云存储匹配呈指数级增长的数据量
海量的数据需要与之配套的储存和备份功能,全国网络交易平台监管服务系统可以在专有云的支持下,把每次网店专项检查任务的智能标签聚类结果进行存储,比如,“婴儿奶粉”标签在不同时间分别被聚类在两次对“食品”和“母婴用品”的专项检查任务中。不仅如此,原自设标签的统合情况(原创设时间、创设执法人员ID、被应用该标签的网店名称及链接、被统合时间及统合后标签名称等)以及自设标签和预设标签的互转情况也应进行记载,以便在聚类统合后,在社会发展到新的阶段、某些名称又代表其他含义的特殊情况下,对已经聚类统合的标签进行再聚类、聚类后的再分离或剥离出个别原自设标签留存历史数据及相应的操作端口。
技术的力量在于改变,改变可以是工作方式、手段,也可以是工作制度、程序。未来,全国网络交易平台监管服务系统将利用大数据技术分析、整理、筛选出适合某地区、某项工作的智能标签,自动展示、推送最适宜的标签给相应的执法人员,减少各层级系统管理员和执法人员的手动设置工作量,真正体现标签管理工作的技术性和智能性。
引入激励机制 集众人之智、汇众人之力
智能标签可以满足不同地域的不同层级执法人员在不同检查任务中对标签展示内容的不同需求。但不同的执法人员对相似网店的属性进行描述时,可能会有不同的表述。那么在对标签进行智能聚类时,如何保证每次聚类数据的稳定性、如何提升聚类的科学性、如何把越来越庞大的自设标签数据库进行合理整合、如何发现自设标签中的亮点并清洗冗余数据等,都是智能标签管理工作面临的问题。解决上述问题,不仅需要系统开发和管理团队的努力,更需要广大使用者积极参与并提出科学的意见和建议。
笔者认为,在建立智能标签管理工作机制,明确智能标签应用各环节的规则,制定智能标签从产生到应用、从自定义到成为默认值、从提升级别到降级删除等一系列操作所对应的管理程序外,还应想方设法调动各级工商、市场监管部门参与标签管理工作的积极性。以自设标签激励机制为例,可以组织自设标签的个人比武和地区性比武。评判标准为,被选拔提升为本级通用标签的数量和自设标签被提升后最终达到的层级,业务管理员提升自设标签为本级通用标签的质量等。上述措施,目的在于促使各地工商、市场监管部门以及执法人员、业务管理员在正常使用系统之余,能够更加关注系统各项功能的优化,积极为系统应用研究建言献策。
全国网络交易平台监管服务系统的后续开发、完善,需要集众人之智、汇众人之力。只有完善激励机制,才能促使更多人参与到系统研发中,小可查缺补漏,大可开拓创新。以激励机制提升兴趣、培养人才、推动研究、推动管理的智能化,进而促进研发与应用的良性循环,逐步完善系统功能,培养网监专业人才,提高监管效能,构建全国网监工作科学运行机制。
□北京市工商局海淀分局 刘芃芃