网络文学频遭“秒盗” 文学网站升级防盗新技术
作 者:任晓宁 来 源:中国新闻出版广电报发表日期:2018-03-08
阅文集团上线了特殊算法模型数据库,已实现快速查询底层能力,秒级内实时计算出指定章节内容重复度,为防抄袭提供大数据基础能力。
晋江文学城设计了一套抄袭举报管理系统,自系统上线以来,已累计受理用户举报抄袭文章4000余次,共成功处理抄袭文章2000余篇。
分级自动化内容防盗系统是根据对盗文者行为模式的分析,制定对应的防盗规则,付费章节作者可以设定对某些特定人群在一定时间内投放干扰性阅读内容,从而起到一定的防盗作用。
盗版、抄袭现象是阻碍网络文学发展的沉疴。据不完全统计,每年网络文学行业因盗版损失接近100亿元。近一段时间以来,阅文集团、晋江文学城等纷纷升级防盗版措施,把大数据、云计算等互联网新兴技术应用到防盗版、防抄袭上,技术手段有了进展。
《中国新闻出版广电报》记者了解到,阅文集团针对抄袭行为上线了特殊算法模型数据库,实时查重作家上传的作品内容。晋江文学城通过技术手段,付费章节作者可以设定对特定人群在一定时间内投放干扰内容,起到了一定的防盗版作用。
特殊算法
实现网络文学秒级查重
“去年,我们基于自己的数据库开发了一整套特殊算法模型数据库,在编辑后台可以直观地比对作者的文本是否有抄袭,虽然增加了服务器压力,但是我觉得很值得。”阅文集团旗下起点中文网总编辑李晓亮这样告诉记者。
当前,这套针对抄袭行为上线的特殊算法模型数据库已经在整个阅文集团平台应用,在这个系统支持下,编辑可以实时查重作者上传的作品内容。作者每发一章,平台就可以自动对比全网书库,提醒编辑本章与书库中内容的重复率,以便人工查验是否抄袭,当重复率超过50%时,平台就会自动报警,该做法有效解决了抄袭现象。
“如果抄袭严重,我们会直接禁了作者权限。”李晓亮说。
据了解,目前阅文集团已实现快速查询底层能力,秒级内实时计算出指定章节内容重复度。这种特殊算法模型根据有效命中段落数、作品总有效段落数加权计算单章节重复度,并根据单章节重复度计算作品总重复度。为了建立最专业的防抄袭监控体系,阅文集团通过历年深耕,已积累千万级的作品基础数据,有效章节数达1.5亿,有效段落数达数百亿,为防抄袭提供大数据基础能力。
对于效果,李晓亮表示满意,“这个措施还是有用的,每章刚一出现,就能发现是否有抄袭嫌疑了。”他认为,这个功能可以降低内容监管风险、提高人工审核效率。
举报管理系统
警示抄袭行为
对于抄袭,晋江文学城在业内一直是态度鲜明的持续打击,无论是小透明还是网络大神,凡是有确凿证据,一律按照相关规定处理。记者了解到,晋江文学城目前设计了一套抄袭举报管理系统,自系统上线以来,已累计受理用户举报抄袭文章4000余次,共成功处理抄袭文章2000余篇。
晋江文学城的抄袭举报管理系统主要有“用户前台举报”端及“管理员后台处理”端两大部分,同时为便于后续处理,又将举报抄袭分为“全文照搬”“文字抄袭”“剧情抄袭”三大类。
对于用户提供的抄袭证据,系统会根据文章数据库再次进行核实,尤其是在文字抄袭和全文照搬的处理上,基于晋江文学城判定标准,系统会将抄袭文章和被抄袭文章的雷同语段进行特殊标识,并进行雷同语段统计,减少人工判断的难度。针对剧情抄袭,系统会将抄袭对应章节进行箭头指向引导展示,便于处理者能够更加明确地查看到对应关系。
对于被判定了抄袭的文章,晋江文学城会做出对应的惩罚措施,举报者也会得到举报成功的奖励,以此来激励更多的用户加入到反抄袭、维护原创作者权益的队伍中,同时也对作者们起到一定的警示作用,保持晋江文学城这一片创作净土。
内容防盗系统
初步实现防盗目的
2017年度,晋江法务部联合热心作者、读者做了大量的反盗版维权工作,为作者追回近千万元的经济损失,并将两家公司纳入失信被执行人名单进行信用惩戒。在技术手段上,晋江也上线了分级自动化内容防盗系统和盗文侵权行为通知函件自动发送系统。
分级自动化内容防盗系统是根据对盗文者行为模式的分析,制定对应的防盗规则,付费章节作者可以设定对某些特定人群在一定时间内投放干扰性阅读内容,比如24—72小时内,只有购买一定比例的VIP读者才能看到最新内容,否则只能看到之前的旧内容,从而起到一定的防盗作用。盗文侵权行为通知函件自动发送系统是让作者通过该系统向指定侵权网站联络邮箱发送侵权通知函件,要求将侵权作品进行下架删除等处置,同时系统会记录并分析相应数据,便于网站法务部门人员查看,达到一定程度后,会有法务人员人工介入处理。
2017年,晋江文学城多次就抄袭、盗版问题发起过诉讼,大部分案件获得较好的维权结果。比如百度阅读侵犯晋江作者玖月晞的《亲爱的阿基米德》《一座城,在等你》作品著作权案,目前已经获得一审判决,其维权行为得到法院认可。
“在反盗版上,我们也一直致力于在尽量不影响绝大多数正常读者用户体验的基础上,提升网站各种防盗手段。但上述技术手段只能起到部分作用,在此基础上,我网站法务人员也付出了很大努力。”晋江文学城副总裁刘旭东认为,网络文学的抄袭、盗版问题一直比较严重,也是制约行业健康发展、侵害作者和文学网站权益的最重要问题之一。抄袭问题更多的是一种道德品质层面的问题,需要作者自觉自律,需要网站公平公正的处理。而盗版问题,危害重,维权难,一直深受诟病,但鉴于网络文学这种线上阅读的模式,除非不让读者阅读,否则以现有技术水平来说,很难彻底根除盗版现象,毕竟还有“手打团”这种盗版方式的存在,因此各级网站、各位作者也只是尽可能地增加盗版难度,降低侵害。
起点中文网则主要通过禁止复制作品内容,以及停权盗帖账号这两个办法来反盗版,尽管也取得不小的反盗版成果,李晓亮对此依然提出困惑,“只要盗版网站投入的成本达到一个很低的门槛,我们基本就无能为力了。”他认为,这也是当前正版文学网站一段时间内持续面临的困境。